Browsing by Author "Benoit Cea, Domingo"
Now showing 1 - 1 of 1
- Results Per Page
- Sort Options
Thesis Detección de discursos de odio en redes sociales chilenas mediante métodos de aprendizaje automático(Universidad Técnica Federico Santa María, 2023) Benoit Cea, Domingo; Mendoza, Marcelo; Universidad Técnica Federico Santa María. Departamento de Informática; Ñanculef Alegria, Juan RicardoDesarrollar herramientas para identificar Discursos de Odio en redes sociales es un paso importante para la comprensión de este fenómeno a nivel global. Lamentablemente, la gran mayoría de los recursos disponibles se encuentran orientados al idioma inglés. Por otro lado, los pocos recursos existentes en español no suelen tomar en cuenta la gran diversidad de dialectos existentes, lo que dificulta evaluar el impacto de características socioculturales específicas al momento de generalizar soluciones de un dialecto o lengua a otra. En este trabajo se introduce un nuevo recurso orientado al estudio del Discurso de Odio con tweets en el dialecto chileno del español. El corpus incluye 4572 registros recolectados de modo semi-automático de Twitter y posteriormente validados y anotados manualmente por un grupo de 15 humanos, garantizando 3 anotaciones independientes por tweet. El dataset incluye un 45,5 % de casos positivos para la clase Hate Speech, entregando así datos mejor balanceados que los recursos ya existentes para este idioma. Las anotaciones entregadas permiten también identificar en cada caso si el tweet se refiere o no a una de cuatro comunidades que suelen ser objetivo de mensajes provocativos u ofensivos: mujeres, migrantes, pueblos originarios, y comunidad LGBTQ+, permitiendo así análisis más detallados del fenómeno. Junto con lo anterior, se dispone junto a cada tweet el hilo o conversación del cual forma parte, enriqueciendo los actuales recursos disponibles en términos contextuales. Junto a la metodología de recolección y anotación empleada, este trabajo presenta una serie de experimentos orientados a evaluar la calidad del corpus obtenido utilizando tres modelos multi-lingua y tres datasets alternativos del estado del arte. En primer lugar, se estudió la transferibilidad del recurso propuesto, es decir, su capacidad para mejorar la detección de odio sobre otros datasets. En segundo lugar, se realizaron experimentos orientados a detectar la presencia de sesgos en los datos recolectados considerando siete grupos o comunidades protegidas. Finalmente, se efectuaron 27 pruebas funcionales recientemente propuestas por HATECHECK[55] para evaluar modelos en casos en que éstos tienden a fallar o sobre-especializarse. Los resultados obtenidos demuestran que, con respecto a su único símil en dialecto chileno, el dataset generado es más transferible a otros dialectos e idiomas, exhibe menores sesgos, y permite superar con mayor éxito la mayoría de las pruebas funcionales, incluso en dialectos diferentes al entrenado. Comparando con recursos en otros idiomas, el dataset generado es altamente competitivo, permitiendo por ejemplo superar el estado del arte en 16 de las 27 pruebas funcionales de HATECHECK y logrando la mejor transferencia a español chileno e inglés. Como desventajas, el corpus mostró sesgos ligeramente más altos que datasets en otros idiomas y no logró mejorar la transferencia al español castellano, temas que deben ser abordados con mayor profundidad en el futuro. Todo el material generado ha sido publicado para facilitar su uso y reproducción por parte de la comunidad. IEEE Dataport