Publication:
Apoyo a la comparación de múltiples corpus a través de la exploración visual de modelado de tópicos

dc.contributor.advisorLópez Mondaca, Claudia (Profesora Guía)
dc.contributor.advisorMendoza Rocha, Marcelo Gabriel (Profesor Correferente)
dc.contributor.advisorMilios, Evangelos (Profesor Externo)
dc.contributor.authorGonzález Pizarro, Felipe Andrés
dc.contributor.departmentUniversidad Técnica Federico Santa María. Departamento de Informáticaes_CL
dc.coverage.spatialCampus San Joaquín, Santiagoes_CL
dc.date.accessioned2022-10-20T12:38:07Z
dc.date.available2022-10-20T12:38:07Z
dc.date.issued2021-09
dc.description.abstractEl constante aumento en el volumen de datos de tipo texto ha llevado al desarrollo de varios algoritmos destinados a resumir y comprender este tipo de datos. Una solución prometedora este problema es el modelado de temas (en inglés conocido como topic modeling), un enfoque estadístico para extraer temas de alto volúmenes de datos. Humanos que interactúan e interpretan directamente el resultado de estos algoritmos pueden usar herramientas de visualización para interpretar mejor los resultados, sin embargo, estas herramientas todavía tienen una limitación significativa. Las representaciones visuales actuales permiten refinar y comparar temas basados solo en sus palabras claves, lo que genera un rendimiento deficiente cuando estas son demasiado genéricas, están mal conectadas o no proporcionan suficiente información. Para abordar este problema, propongo TopicVisExplorer, un conjunto de visualizaciones interactivas que soporta Latent Dirichlet Allocation (LDA). Esta propuesta tiene por objetivo ayudar a los usuarios durante el refinamiento y comparación de temas. Tres innovaciones claves de este trabajo buscan apoyar refinamiento del modelo de tema e identificar temas similares de uno o dos corpus. (1) Propongo un algoritmo de fusión de temas que considera tanto términos como documentos de los tópicos, (2) un nuevo algoritmo de división de temas basado en sus documentos, (3) y una métrica que estima la similitud entre temas en base a sus palabras y documentos más relevantes. Realice un estudio de usuarios con 95 usuarios no expertos para evaluar las funcionalidades de TopicVisExplorer. Los resultados muestran que los participantes pudieron identificar los temas que necesitan mejorar su calidad. Aproximadamente la mitad de los participantes mejoraron la coherencia de su modelo después de aplicar operaciones de división y fusión de temas. Además, los participantes pudieron identificar temas similares entre dos corpus. Aquellos que utilizaron la métrica de similitud propuesta cometieron menos errores que aquellos que usaron una métrica base.es_CL
dc.description.degreeMAGISTER EN CIENCIAS DE LA INGENIERIA INFORMATICAes_CL
dc.description.programDEPARTAMENTO DE INFORMÁTICA. MAGÍSTER EN CIENCIAS DE LA INGENIERÍA INFORMÁTICAes_CL
dc.format.extent83 H.es_CL
dc.format.mimetypeapplication/pdf
dc.identifier.barcode182953644UTFSMes_CL
dc.identifier.urihttps://hdl.handle.net/11673/54283
dc.rights.accessRightsA. Internet abierta repositorio.usm.cl y otros repositorios a que la USM se adscriba.
dc.subjectMODELADO DE TOPICOSes_CL
dc.subjectREDES SOCIALESes_CL
dc.subjectPROCESAMIENTO DE LENGUAJE NATURALes_CL
dc.titleApoyo a la comparación de múltiples corpus a través de la exploración visual de modelado de tópicoses_CL
dc.typeTesis de Postgrado
dspace.entity.typePublication
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
m18295364-4.pdf
Size:
2.2 MB
Format:
Adobe Portable Document Format
Description: