TÉCNICAS DE ADAPTACIÓN ENTRE DOMINIOS PARA APRENDIZAJE AUTOMÁTICO

CASTILLO DINAMARCA, FRANCISCO IGNACIO (2018)

Catalogado desde la version PDF de la tesis.

Tesis Pregrado

En términos muy generales, el problema de adaptación entre dominios consisteen diseñar técnicas que permitan utilizar datos de un determinado contexto o dominio(por ejemplo opiniones clasificadas en Amazon) para resolver un problema de aprendizajeen otro contexto o dominio (por ejemplo clasificar opiniones en una tienda deretail nacional). Estas técnicas son útiles en escenarios en que no se cuenta con unconjunto de datos suficientemente grande para aplicar con éxito un método de aprendizajeautomático o se desea mejorar los resultados actuales mediante conocimientoadquirido en problemas similares. En esta memoria se presenta un estudio de métodosrepresentativos del estado del arte actual con énfasis en el problema de clasificaciónde sentimiento, es decir el reconocimiento del estado emocional subyacente a un textocorto que representa la opinión de su autor con respecto a una cosa. Además, se presentauna comparación experimental de un conjunto de técnicas seleccionadas usandobenchmarks públicamente disponibles y también un dataset nuevo construido duranteuna práctica profesional en una empresa dedicada entre otras al análisis de sentimiento.Finalmente, se presentan conclusiones que, junto a los programas construidos durantela ejecución de este trabajo, constituyen una base para guiar investigaciones en el área.

In general terms, the domain adaptation problem consists in designing techniquesthat allow to use data in a determined context or domain (for instance, opinions classifiedin Amazon) to solve a learning problem in another context or domain (for instance,classify opinions on a national retail store). These techniques are useful on scenarioson which there isn’t a group of data large enough to apply with success a machinelearning method or there’s a need to improve actual results through acquired knowledgeon similar problems. In this report, a study of the most representative methodsof the actual state of the art is presented with emphasis on the sentiment classificationproblem, that is to say the identification of the underlying emotional state of a shorttext that represents the opinion of its author with respect to a subject. Furthermore, itis presented an experimental comparison of a set of selected techniques using publiclyavailable benchmarks and also a new dataset built during an internship on an enterpriseengaged amongst other things to sentiment analysis. Finally, conclusions are presentedthat, together with software built during the making of this work, make a base to guidefurther research on the area.