EL REPOSITORIO SE ENCUENTRA EN MARCHA BLANCA

 

Thesis
EVALUACIÓN DE ALGORITMOS DE AGRUPAMIENTO UTILIZANDO APACHE SPARK

Abstract

Con el continuo crecimiento de la cantidad de datos con los que se debe trabajar enla actualidad, surge la necesidad de utilizar ciertas herramientas que pueden manejar estosnuevos volúmenes de datos. Una herramienta popular para trabajar con Big Data enla actualidad es el framework de código abierto Apache Spark, siendo específicamentede interés para este trabajo de investigación su librería para el aprendizaje automático.Resulta interesante estudiar si ésta herramienta puede obtener resultados eficientes alser utilizada en un computador con cuatro núcleos, y además, si las soluciones provistasse ven afectadas por las implementaciones en paralelo de sus algoritmos.En este documento se estudian las diferencias que se pueden observar en los tiemposde ejecución y la calidad de las soluciones entregadas, al ejecutar determinados algoritmosde agrupamiento sobre datasets con distintas características, utilizando ApacheSpark y Python, con sus librerías para el aprendizaje automático MLlib y scikit-learn,respectivamente.
With the continuous growth of the amount of data one must work with in presenttimes, arises the need to use certain tools that can work with these new volumes ofdata. A popular tool to work with Big Data nowadays is the open source frameworkApache Spark, being specifically of interest to this work of investigation, its libraryfor machine learning. It is interesting to study wether this tool con secure ecientresults when being used on a single computer with four cores, and also, if the resultingsolutions are aected by the parallel implementations of its algorithms.In this document, the dierences that can be seen in execution times and the qualityof the delivered solutions are studied, when executing certain clustering algorithms overdatasets with dierent characteristics, using Apache Spark and Python, along with theirmachine learning libraries MLlib and scikit-learn, respectively.

Description

Catalogado desde la version PDF de la tesis.

Keywords

APACHE SPARK, BIG DATA, SCIKIT-LEARN

Citation