Topic Models Ensembles

Ormeño Arriagada, Pablo Iván

Thesis
Topic Models Ensembles

dc.contributor.correferente	Torres López, Claudio Esteban
dc.contributor.department	Departamento de Informática
dc.contributor.guia	Mendoza Rocha, Marcelo Gabriel
dc.coverage.spatial	Campus Casa Central Valparaíso
dc.creator	Ormeño Arriagada, Pablo Iván
dc.date.accessioned	2024-09-13T17:38:33Z
dc.date.available	2024-09-13T17:38:33Z
dc.date.issued	2022-01
dc.description.abstract	La recuperación de información Adhoc es una tarea desafiante que consiste en hacer ranking de documentos para consultas provenientes desde un enfoque de bolsa de palabras. Los métodos clásicos basados en consultas y documentos de vectores de texto, usan funciones de ponderación de términos para hacer ránking de documentos. Algunos de las limitaciones de estos métodos son que no pueden lidiar con conceptos polisémicos. Además, introducen falsas ortogonalidades entre palabras semánticamente relacionadas. Para superarlas, los enfoques de recuperación de información basados en modelos de temas se pueden explorar. Específicamente, los modelos de temas basados en Latent Dirichlet Allocation (LDA) permiten construir representaciones de documentos de texto en el espacio latente de temas, que modela de mejor manera la polisemia y evitan la generación de representaciones ortogonales entre términos relacionados. Es por esto que se pueden expandir las estrategias de Recuperación basadas en LDA usando estrategias de Aprendizaje de Ensamblado. En este sentido, la selección de modelos obedece a estos paradigmas, por lo que probamos dos enfoques usados exitosamente en el aprendizaje supervisado. Se estudian las técnicas Boosting y Bagging para modelos de temas, usando cada modelo como un experto débil de recuperación. Finalmente, se mezclan las listas de ranking obtenidas de cada modelo usando un enfoque simple pero efectivo de fusión de listas top-k. Se muestra que el enfoque propuesto fortalece los resultados en precisión y en recall, superando a los modelos clásicos de recuperación y las líneas bases de modelos de temas.	es_CL
dc.description.degree	Doctorado en Ingeniería Informática
dc.identifier.barcode	152399316UTFSM
dc.identifier.uri	https://repositorio.usm.cl/handle/123456789/107
dc.rights	info:eu-repo/semantics/openAccess
dc.rights.accessRights	A	es_CL
dc.subject	RECUPERACION DE INFORMACION ADHOC
dc.subject	LATENT DIRICHLET ALLOCATION
dc.subject	ENSEMBLE LEARNING
dc.subject	BAGGING
dc.subject	BOOSTING
dc.title	Topic Models Ensembles
dspace.entity.type	Tesis

Files

Original bundle

Now showing 1 - 1 of 1

Name:: m15239931-6.pdf
Size:: 11.98 MB
Format:: Adobe Portable Document Format

Download

Collections

Tesis de Postgrado Acceso Abierto

Thesis
Topic Models Ensembles

Files

Original bundle

Collections

UNIVERSIDAD

CAMPUS Y SEDES

EXTENSIÓN Y CULTURA

SERVICIOS

Thesis Topic Models Ensembles

Files

Original bundle

Collections

UNIVERSIDAD

CAMPUS Y SEDES

EXTENSIÓN Y CULTURA

SERVICIOS

Thesis
Topic Models Ensembles