MINERÍA DE DATOS SOBRE LINKEDlN
Abstract
El nacimiento de redes sociales como Facebook o Twitter ha estimulado significativamente lautilización de la WEB por parte de las personas, creando un medio en el cual se intercambiancreencias, juicios y opiniones que de alguna forma reflejan los eventos del mundo real. Eseenorme flujo de comunicaciones representa una fuente de datos en constante expansión yactualización, que puede ser utilizada por diversos actores en la toma de decisiones.En esta memoria se aborda el problema de extraer información o patrones sobre el conjuntode competencias profesionales declaradas por las personas en la red social LinkedIn. Adiferencia de Facebook o Twitter, LinkedIn es una plataforma orientada a la creación de contactosprofesionales y de negocios, lo que la transforma en una fuente interesante de datospara estudios sobre la fuerza de trabajo. En efecto, LinkedIn es ampliamente utilizada porlas personas para buscar empleo, y por las empresas para reclutar personal calificado, por loque se puede asumir que las competencias allí declaradas reflejan aquellas que la industriaconsidera relevantes.El objetivo específico de esta memoria es la definición y aplicación de una metodología queayude a entender y a visualizar el sistema de competencias profesionales (skills) declaradaspor ingenieros informáticos de cuatro universidades chilenas en LinkedIn. La hipótesis detrabajo es que existen grupos de competencias que puedan ser identificados como diferenteslíneas de especialización laboral y que la distribución de ´estas es diferente entre profesionalesde distintas universidades. Analizar esta hipótesis resulta relevante, por ejemplo, paraorientar políticas sobre perfil de egreso y promoción en instituciones de educación superior.Una contribución de este trabajo, es el levantamiento de una base de datos, correspondientea una muestra de 2830 perfiles informáticos de LinkedIn y sus respectivas listas de competencias,además de otros atributos que podrían ser de interés en futuros estudios. Después delimpiar y someter este conjunto de datos a un análisis exploratorio preliminar, se proponela utilización de técnicas de clustering para determinar la existencia de clases de competenciasy usuarios. Se estudia el desempeño de diferentes métodos, incluyendo algoritmosjerárquicos, espectrales y de variable latente (Topic Models), abordando el problema de larepresentación más adecuada y la validación de los grupos obtenidos mediante diferentesmétricas. Se propone un método para visualizar cada uno de los grupos encontrados usandoWord Clouds y comparar grupos de usuarios en términos de competencias. Una contribuciónfinal de este trabajo es la definición y evaluación de un sistema de auto-completación decompetencias, basado en métodos de filtrado colaborativo, que muestra una precisión superior al 90 %. Esto ´ultimo sugiere que las estructuras encontradas sobre los datos están lejos de ser meramente casuales. The birth of social networks like Facebook or Twitter has stimulated significantly the use ofthe WEB by people, creating a medium in which beliefs, judgment and opinions that in someway reflect the real world events are exchanged.This paper addresses the problem of extracting information or patterns about the set of professionalsskills declared by the people in the social network LinkedIn. Unlike Facebook orTwitter, LinkedIn is a platform aimed at creating business and professional contacts, makingit an interesting source of data for studies on the workforce. In fact, LinkedIn is widely usedby people to seek employment, and by companies to recruit qualified personnel, so it can beassumed that the skills stated there reflect those that the industry considers relevant.The specific objective of this report is the definition and application of a methodology thathelps to understand and to visualize the system of professional competences declared by computerengineers of four Chilean universities in LinkedIn. The working hypothesis is that thereare groups of skills that can be identified as dierent lines of work specialization and thatthe distribution of these is dierent among professionals from dierent universities. Analyzingthe hypothesis is relevant, for example, to orient policies on graduation and promotionprofile in institutions of higher education.A contribution of this work is the collection of a database, corresponding to a sample of 2830computer profiles of LinkedIn and their respective list of skills, in addition to other attributesthat could be if interest in future studies. After cleaning and submitting this dataset to apreliminary exploratory analysis, we propose the use of clustering techniques to determinethe existence of classes of competencies and users. The performance of dierent methods,including hierarchical, spectral and latent variable Topic Models, is studied, addresses theproblem of the most adequate representation and the validation of the groups obtained bydierent metrics. We propose a method to visualize each of the groups found using WordClouds and to compare groups of users in terms of competencies. A final contribution of thiswork is the definition and evaluation of a system of self-completeness of competences, basedon collaborative filtering methods, which shows an accuracy greater than 90%. The lattersuggests that the structures found on the data are far from merely random.