Repository logo
Communities & Collections
All of DSpace
  • English
  • Español
Log In
New user? Click here to register. Have you forgotten your password?
  1. Home
  2. Browse by Author

Browsing by Author "Benoit Cea, Domingo"

Filter results by typing the first few letters
Now showing 1 - 1 of 1
  • Results Per Page
  • Sort Options
  • Loading...
    Thumbnail Image
    Thesis
    Detección de discursos de odio en redes sociales chilenas mediante métodos de aprendizaje automático
    (Universidad Técnica Federico Santa María, 2023) Benoit Cea, Domingo; Mendoza, Marcelo; Universidad Técnica Federico Santa María. Departamento de Informática; Ñanculef Alegria, Juan Ricardo
    Desarrollar herramientas para identificar Discursos de Odio en redes sociales es un paso importante para la comprensión de este fenómeno a nivel global. Lamentablemente, la gran mayoría de los recursos disponibles se encuentran orientados al idioma inglés. Por otro lado, los pocos recursos existentes en español no suelen tomar en cuenta la gran diversidad de dialectos existentes, lo que dificulta evaluar el impacto de características socioculturales específicas al momento de generalizar soluciones de un dialecto o lengua a otra. En este trabajo se introduce un nuevo recurso orientado al estudio del Discurso de Odio con tweets en el dialecto chileno del español. El corpus incluye 4572 registros recolectados de modo semi-automático de Twitter y posteriormente validados y anotados manualmente por un grupo de 15 humanos, garantizando 3 anotaciones independientes por tweet. El dataset incluye un 45,5 % de casos positivos para la clase Hate Speech, entregando así datos mejor balanceados que los recursos ya existentes para este idioma. Las anotaciones entregadas permiten también identificar en cada caso si el tweet se refiere o no a una de cuatro comunidades que suelen ser objetivo de mensajes provocativos u ofensivos: mujeres, migrantes, pueblos originarios, y comunidad LGBTQ+, permitiendo así análisis más detallados del fenómeno. Junto con lo anterior, se dispone junto a cada tweet el hilo o conversación del cual forma parte, enriqueciendo los actuales recursos disponibles en términos contextuales. Junto a la metodología de recolección y anotación empleada, este trabajo presenta una serie de experimentos orientados a evaluar la calidad del corpus obtenido utilizando tres modelos multi-lingua y tres datasets alternativos del estado del arte. En primer lugar, se estudió la transferibilidad del recurso propuesto, es decir, su capacidad para mejorar la detección de odio sobre otros datasets. En segundo lugar, se realizaron experimentos orientados a detectar la presencia de sesgos en los datos recolectados considerando siete grupos o comunidades protegidas. Finalmente, se efectuaron 27 pruebas funcionales recientemente propuestas por HATECHECK[55] para evaluar modelos en casos en que éstos tienden a fallar o sobre-especializarse. Los resultados obtenidos demuestran que, con respecto a su único símil en dialecto chileno, el dataset generado es más transferible a otros dialectos e idiomas, exhibe menores sesgos, y permite superar con mayor éxito la mayoría de las pruebas funcionales, incluso en dialectos diferentes al entrenado. Comparando con recursos en otros idiomas, el dataset generado es altamente competitivo, permitiendo por ejemplo superar el estado del arte en 16 de las 27 pruebas funcionales de HATECHECK y logrando la mejor transferencia a español chileno e inglés. Como desventajas, el corpus mostró sesgos ligeramente más altos que datasets en otros idiomas y no logró mejorar la transferencia al español castellano, temas que deben ser abordados con mayor profundidad en el futuro. Todo el material generado ha sido publicado para facilitar su uso y reproducción por parte de la comunidad. IEEE Dataport

UNIVERSIDAD

  • Nuestra Historia
  • Federico Santa María
  • Definiciones Estratégicas
  • Modelo Educativo
  • Organización
  • Información Estadística USM

CAMPUS Y SEDES

  • Información Campus y Sedes
  • Tour Virtual

EXTENSIÓN Y CULTURA

  • Dirección General de Comunicaciones
  • Dirección General de Vinculación con el Medio
  • Oficina de Asuntos Internacionales
  • Red de Ex-Alumnos
  • Noticias USM
  • Eventos USM
  • Radio USM
  • Cultura USM

SERVICIOS

  • Aula USM
  • Biblioteca USM
  • Portal de Autoservicio Institucional
  • Dirección de Tecnologías de la Información
  • Portal de Reportes UDAI
  • Sistema de Información de Gestión Académica
  • Sistema Integrado de Información Argos ERP
  • Sistema de Remuneraciones Históricas
  • Directorio USM
  • Trabaja con nosotros
Acreditación USM
usm.cl
Logo Acceso
Logo Consejo de Rectores
Logo G9
Logo AUR
Logo CRUV
Logo REUNA
Logo Universia

DSpace software copyright © 2002-2025 LYRASIS

  • Privacy policy
  • End User Agreement
  • Send Feedback