EL REPOSITORIO SE ENCUENTRA EN MARCHA BLANCA

 

Thesis
EVALUACIÓN DE ALGORITMOS DE AGRUPAMIENTO UTILIZANDO APACHE SPARK

dc.contributor.advisorMENDOZA, MARCELO
dc.contributor.authorSALINAS DEZEREGA, FRANCISCO JAVIER
dc.contributor.departmentUniversidad Tecnica Federico Santa Maria UTFSM INFORMATICAes_CL
dc.creatorSALINAS DEZEREGA, FRANCISCO JAVIER
dc.date.accessioned2024-10-31T02:32:52Z
dc.date.available2024-10-31T02:32:52Z
dc.date.issued2017
dc.descriptionCatalogado desde la version PDF de la tesis.es_CL
dc.description.abstractCon el continuo crecimiento de la cantidad de datos con los que se debe trabajar enla actualidad, surge la necesidad de utilizar ciertas herramientas que pueden manejar estosnuevos volúmenes de datos. Una herramienta popular para trabajar con Big Data enla actualidad es el framework de código abierto Apache Spark, siendo específicamentede interés para este trabajo de investigación su librería para el aprendizaje automático.Resulta interesante estudiar si ésta herramienta puede obtener resultados eficientes alser utilizada en un computador con cuatro núcleos, y además, si las soluciones provistasse ven afectadas por las implementaciones en paralelo de sus algoritmos.En este documento se estudian las diferencias que se pueden observar en los tiemposde ejecución y la calidad de las soluciones entregadas, al ejecutar determinados algoritmosde agrupamiento sobre datasets con distintas características, utilizando ApacheSpark y Python, con sus librerías para el aprendizaje automático MLlib y scikit-learn,respectivamente.es_CL
dc.description.abstractWith the continuous growth of the amount of data one must work with in presenttimes, arises the need to use certain tools that can work with these new volumes ofdata. A popular tool to work with Big Data nowadays is the open source frameworkApache Spark, being specifically of interest to this work of investigation, its libraryfor machine learning. It is interesting to study wether this tool con secure ecientresults when being used on a single computer with four cores, and also, if the resultingsolutions are aected by the parallel implementations of its algorithms.In this document, the dierences that can be seen in execution times and the qualityof the delivered solutions are studied, when executing certain clustering algorithms overdatasets with dierent characteristics, using Apache Spark and Python, along with theirmachine learning libraries MLlib and scikit-learn, respectively.eng
dc.description.degreeINGENIERO CIVIL INFORMÁTICOes_CL
dc.format.mediumCD ROM
dc.identifier.barcode3560902038211
dc.identifier.urihttps://repositorio.usm.cl/handle/123456789/62234
dc.rights.accessRightsB - Solamente disponible para consulta en sala (opción por defecto)
dc.subjectAPACHE SPARKes_CL
dc.subjectBIG DATAes_CL
dc.subjectSCIKIT-LEARNes_CL
dc.titleEVALUACIÓN DE ALGORITMOS DE AGRUPAMIENTO UTILIZANDO APACHE SPARKes_CL
dc.typeTesis de Pregradoes_CL
dspace.entity.typeTesis
usm.date.thesisregistration2016
usm.identifier.thesis4500012521

Files

Original bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
3560902038211UTFSM.pdf
Size:
2.07 MB
Format:
Adobe Portable Document Format