Thesis APRENDIZAJE MULTILINEAL PARA ANÁLISOS SEMÁNTICO
Loading...
Date
2013
Authors
Journal Title
Journal ISSN
Volume Title
Program
Campus
Casa Central, Valparaíso
Abstract
Hoy en d?á, la extracción de datos útiles desde la siempre creciente cantidad de información disponible en Internet es un gran desaf?ó. El Análisis Semántico Latente (LSA, por sus siglas en inglés) es un procedimiento matemático utilizado para modelar el contenido semántico oculto (o latente) de un gran conjunto documentos, llamado corpus. LSA descubre esta relación oculta a través de la Descomposición en Valores Singulares (SVD) que es aplicada a una matriz que contenga cierta información de los documentos del corpus (la frecuencia de aparición de las palabras por documento es la más comúnmente usada, pero existen diversas propuestas). Este trabajo propone una extensión a este método aplicado al caso en el que se utilicen arreglos multilineales (tensores de alto orden) para modelar un corpus dado y la Descomposición en Valores Singulares de Alto Orden (HOSVD) para descomponer el tensor de datos. El álgebra de tensores es mucho más compleja que el álgebra lineal, por lo que se explora cómo la HOSVD se puede utilizar para obtener un espacio semántico latente reducido y cómo los documentos pueden ser proyectados y comparados en este espacio usando tensores en forma matricial. Se referirá a este método como Análisis Semántico Latente de Alto Orden o HOLSA (por sus siglas en inglés: Higher-Order Latent Semantic Analysis).
Description
Catalogado desde la versión PDF de la tesis.