Thesis
Caracterizacion de la información preservada en una red de palabras en función de su construcción

Loading...
Thumbnail Image

Date

2024

Journal Title

Journal ISSN

Volume Title

Program

Ingeniería Civil Informática

Campus

Campus Santiago San Joaquín

Abstract

En este trabajo estudiamos cómo se comparan las características de distintas redes de texto al utilizar dos métodos distintos de construcción. Construimos redes mediante el método simple de coocurrencia, y en modo probabilista utilizando las probabilidades de conexión aprendidas por el modelo word2vec para generar una versión aleatoria. Posteriormente además añadimos pesos a ambas redes. Encontramos que ambos tipos de redes presentan características de redes complejas como el efecto mundo pequeño con distancias promedio que escalan con log n log k y en el rango 2.45−2.98. También ambos métodos de construcción presentan altos coeficientes de clustering en el caso de redes sin pesos. Sin embargo, observamos que ninguno de los métodos de construcción producen redes con distribución de grados libre de escala. Encontramos que en ambos tipos de redes los nodos se asocian de forma disortativa cuando no se consideran pesos, pero tal patrón desaparece en redes de coocurrencia cuando se añaden pesos. Tal fenómeno ocurre en menor medida en el caso de las redes construidas mediante word2vec pues el mecanismo en que se asignan los pesos unas pocas conexiones entre nodos de alto grado no sesga el gráfico de grado promedio de vecinos. En ese sentido, asignar pesos mediante este método en vez de frecuencias podría ayudar a resaltar el tipo de conexiones que se forma entre nodos. Por otro lado, el resultado de ejecutar el algoritmo de Louvain dio como resultado que en el caso de las redes construidas por medio del modelo word2vec se observa mayor modularidad. Lo anterior se debe a que el modelo aprende nuevas relaciones entre palabras que no se dan por simple coocurrencia. Estas relaciones de similaridad semántica producen nuevas conexiones entre sinónimos y antónimos. A pesar de ello, debido al enfoque estadístico del modelo, algunas relaciones de alta similaridad se pierden por no aparecer un número significativo de veces. Creemos que las nuevas relaciones que se crean en el caso de word2vec tienen como consecuencia que las comunidades no reflejen tan bien el flujo del texto como en el caso de coocurrencia.
In this work, we study how the characteristics of different text networks compare when using two different construction methods. We built networks using the co-occurrence method and in a probabilistic manner using the connection probabilities learned by the word2vec model to generate a random version. Subsequently, we add weights to both networks. We find that both types of networks exhibit complex network characteristics, such as the small-world effect, with average distances scaling as log n log k and in the range of 2.45 − 2.98. Both construction methods also show high clustering coefficients for the unweighted networks. However, we observe that neither construction method produces networks with a scale-free degree distribution. In both types of networks, nodes are associatively dissortative when weights are not considered, but this pattern disappears in co-occurrence networks when weights are added. This phenomenon occurs to a lesser extent in word2vec networks, as the weighting mechanism assigns the few weights between high-degree nodes without skewing the average degree of neighbors plot. In this sense, assigning weights using this method instead of frequencies could help highlight the type of connections formed between nodes. Additionally, the result of running the Louvain algorithm shows that networks constructed via the word2vec model exhibit higher modularity. This is because the model learns new relationships between words that do not occur through simple co-occurrence. These semantic similarity relationships produce new connections between synonyms and antonyms. However, due to the statistical nature of the model, some highly similar relationships are lost due to their infrequent occurrences. We believe that the new relationships created by word2vec cause the communities to reflect the text flow less accurately than in the co-occurrence case.

Description

Keywords

Comunidades (en redes), Redes de texto, Coocurrencia

Citation