proyecto

PROYECTO: OFFENSIVE WORD DETECTOR

Nombre del Equipo:

FLY AWAY

Resumen del Proyecto:

En primer lugar se identificó el ámbito social, pues es uno de los que sufre mayores cambios en la actualidad; luego de esta selección se descargó la data más pertinente para este trabajo, la cual fue las opiniones de las redes sociales. Una vez descargada esta data, se ejecutó en una hoja de cálculo de Microsoft Excel, sin embargo, se observó como limitante del trabajo que los datos se encontraban dispersos sin un orden en particular, por lo que se tuvo que organizar manualmente en columnas de acuerdo a la información con la que coincidían los datos, es decir, se realizó una limpieza de datos de forma manual. Al ser más de un millón de datos se seleccionó solo el 10% del total, para su posterior análisis. Con ese 10% se pudo identificar los tópicos más frecuentes entre los comentarios de los usuarios, detectando así el empleo de las malas palabras, a partir de ello es que se pudo determinar el porcentaje de usuarios que utilizan palabras soeces. Después se procedió a utilizar el programa KNIME, con el cual se pudo ordenar la totalidad de los datos, dividiéndolos en un 80% y en 20% para la facilidad de análisis. En esta etapa se entrena al programa dando un porcentaje de datos para determinar qué usuarios utilizan palabras soeces en sus comentarios de twitter empleando el algoritmo de árbol de decisiones, el cual permitió pronosticar los posibles resultados, a partir de la repartición de uno a dos nodos de decisión, para culminar con un nodo terminal, revelando los resultados predictores de los usuarios que emplean malas palabras frecuentemente. Finalmente, se identifican las palabras más usuales que según el perfil analizado de los usuarios son las más incluidas en los comentarios de twitter; las cuales se ubican por medio del buscador y proceden a ser modificadas por otras más sutiles asimismo se tienen en cuenta las abreviaciones. Entre las más comunes se tienen: c0$%&/(“#%, c$%r, m$%&#”; Mr_, p&”@, f/&k; p33@ cuales fueron reemplazadas por miel, beach, piel, entre otras.