Publication:
EVALUACIÓN DE EFICIENCIA DE ALGORITMOS DE ESTIMACIÓN DE MODELOS DE TÓPICOS DINÁMICOS

Thumbnail Image
Date
2018-12
Authors
ESPINOZA VILLARROEL, IGNACIO JAVIER
Journal Title
Journal ISSN
Volume Title
Publisher
Research Projects
Organizational Units
Journal Issue
Abstract
Hoy en día, hay un explosivo aumento de datos generados gracias al uso masivo de Internet, a variadas fuentes de información y a los millones de usuarios activos en redes sociales. Una parte importante de este contenido está en formato texto, el que describe un conjunto de temas o tópicos latentes que cambia en el tiempo, los que pueden ser utilizados para clasificar y/o confeccionar síntesis de información. El problema es que para un ser humano es imposible analizar todas estos datos sin utilizar herramientas automatizadas para esta tarea. Algoritmos asociados al problema, como Dynamic Topic Models (DTM), analizan la evolución de los tópicos latentes en una colección de documentos a través del tiempo. Si bien DTM ha demostrado generar modelos de buena calidad demora en analizar grandes colecciones de datos, lo que lo inhabilita de trabajar en aplicaciones online, donde la latencia de respuesta debe ser baja. Por esto es menester crear algoritmos sofisticados que entreguen buenos resultados y en un menor tiempo. En este trabajo se realiza un estudio y evaluación de tres algoritmos de modelado de tópicos dinámicos mediante un set de experimentos que miden la calidad de los modelos que generan y el tiempo asociado a este trabajo. Así, se pudo determinar bajo qué condiciones de operación los algoritmos presentan ventajas y desventajas frente al resto. A su vez, se busca analizar como escalan estos algoritmos en función de la cantidad de datos y el poder de cómputo asignado. Estos resultados sirven como guía para escoger un método a implementar en una aplicación de la vida real.
Nowdays, there is an explosive increase of generated data thanks to the massive use of the Internet, various sources of information and the millions of active users on social networks. An important part of this content is in text format, which describes a set of themes or latent topics that change over time, which can be used to classify and/or make information synthesis. The problem is that for a human being it is impossible to analyze all this data without using automated tools for this task. Algorithms associated with the problem, such as Dynamic Topic Models (DTM), analyze the evolution of latent topics in a collection of documents over time. Although DTM has demonstrated to generate models of good quality, it takes a long time analyzing big collections of data, what disables it of working in online applications, where the latency must be low. This is why it is necessary to create sophisticated algorithms that deliver good results and in a shorter time. In this work, a study and evaluation of three dynamic topic modeling algorithms is performed through a set of experiments that measure the quality of the models they generate and the time associated with this work. Thus, it was determined under what operating conditions the algorithms have advantages and disadvantages compared to the rest. In turn, we seek to analyze how these algorithms scale based on the amount of data and the computing power assigned. These results serve as a guide to choose which method can be implemented in a real life application.
Description
Keywords
PROCESAMIENTO DE DATOS , ALGORITMOS COMPUTACIONALES , ESTRUCTURA DE DATOS
Citation