Browsing by Author "Mendoza Rocha, Marcelo Gabriel (Profesor Correferente)"
Now showing 1 - 3 of 3
- Results Per Page
- Sort Options
Thesis Apoyo a la comparación de múltiples corpus a través de la exploración visual de modelado de tópicos(2021-09) González Pizarro, Felipe Andrés; López Mondaca, Claudia (Profesora Guía); Mendoza Rocha, Marcelo Gabriel (Profesor Correferente); Milios, Evangelos (Profesor Externo); Universidad Técnica Federico Santa María. Departamento de InformáticaEl constante aumento en el volumen de datos de tipo texto ha llevado al desarrollo de varios algoritmos destinados a resumir y comprender este tipo de datos. Una solución prometedora este problema es el modelado de temas (en inglés conocido como topic modeling), un enfoque estadístico para extraer temas de alto volúmenes de datos. Humanos que interactúan e interpretan directamente el resultado de estos algoritmos pueden usar herramientas de visualización para interpretar mejor los resultados, sin embargo, estas herramientas todavía tienen una limitación significativa. Las representaciones visuales actuales permiten refinar y comparar temas basados solo en sus palabras claves, lo que genera un rendimiento deficiente cuando estas son demasiado genéricas, están mal conectadas o no proporcionan suficiente información. Para abordar este problema, propongo TopicVisExplorer, un conjunto de visualizaciones interactivas que soporta Latent Dirichlet Allocation (LDA). Esta propuesta tiene por objetivo ayudar a los usuarios durante el refinamiento y comparación de temas. Tres innovaciones claves de este trabajo buscan apoyar refinamiento del modelo de tema e identificar temas similares de uno o dos corpus. (1) Propongo un algoritmo de fusión de temas que considera tanto términos como documentos de los tópicos, (2) un nuevo algoritmo de división de temas basado en sus documentos, (3) y una métrica que estima la similitud entre temas en base a sus palabras y documentos más relevantes. Realice un estudio de usuarios con 95 usuarios no expertos para evaluar las funcionalidades de TopicVisExplorer. Los resultados muestran que los participantes pudieron identificar los temas que necesitan mejorar su calidad. Aproximadamente la mitad de los participantes mejoraron la coherencia de su modelo después de aplicar operaciones de división y fusión de temas. Además, los participantes pudieron identificar temas similares entre dos corpus. Aquellos que utilizaron la métrica de similitud propuesta cometieron menos errores que aquellos que usaron una métrica base.Thesis Predicción de rendimiento en consultas SPARQL con Deep Neural networks(2021-03) Casals Amat, Daniel Arturo; Buil Aranda, Carlos (Profesor Guía); Valle, Carlos (Profesor Guía); Mendoza Rocha, Marcelo Gabriel (Profesor Correferente); Universidad Técnica Federico Santa María. Departamento de InformáticaLas tecnologías de las Web Semántica están cambiando las formas en la que se comparte la información, sustituyendo los grandes volúmenes de información en formato HTML por datasets en los que el dato en bruto es tratado como un “ciudadano de primera clase”. Este nuevo enfoque busca persuadir a las organizaciones, empresas e individuos a que publiquen sus datos libremente siguiendo los estándares propuestos por la W3C y enlazando diferentes áreas del conocimiento generando la llamada Web de los Datos Enlazados. El público objetivo para consumir estos datos incluye tanto personas como aplicaciones de software. En los últimos años, la aplicaciones de software han incrementado las capacidades de extraer información útil de estos grandes volúmenes de datos estructurados utilizando lenguajes como SPARQL que es el estándar para consultar datos RDF y se ha implementado en una amplia variedad de motores. Estos motores brindan el acceso a los datos a través de endpoints públicos en la Web, los cuales reciben miles de consultas diariamente. En muchos casos, estos endpoints enfrentan dificultades al evaluar consultas complejas o cuando reciben demasiadas al mismo tiempo. Esto provoca que los tiempos de respuesta percibidos por los clientes que ejecutan las consultas se vean afectados, sobre todo porque algunas de estas consultas necesitan grandes cantidades de recursos para ser procesadas. Todos estos motores tienen un optimizador de consultas interno que propone un plan de ejecución de consultas supuestamente óptimo, sin embargo, esta es una tarea difícil ya que puede haber miles de posibles planes de consulta a considerar y el optimizador puede no elegir el mejor. En dependencia de los recursos computacionales disponibles es posible implementar también arquitecturas más complejas como réplicas y balances de carga, o incluso nuevos conceptos “Self-Driving Database Management Systems”. Sin embargo, todos estos mecanismos dependen de buenos estimadores de la latencia de ejecución de las consultas. Hasta donde sabemos, en general, los estimadores de latencia para consultas SPARQL se basan en heurísticas sobre información estadística de las bases de datos. Otros técnicas como el uso de Support Vector Machine han mejorado las predicciones. En esta propuesta se utilizan redes neuronales profundas para la creación de un estimador de latencias de consultas SPARQL que supera los resultados obtenidos en técnicas anteriores y que puede servir como base de apoyo para la construcción de técnicas de optimización más avanzadas. El estimador fue evaluado en bases de datos sintéticas y reales. Los resultados muestran que el desempeño de redes neuronales profundas supera las propuestas anteriores en el contexto de la predicción de latencia en consultas SPARQL.Thesis Prediction of molecular parameters from astronomical emission lines, using neural networks(2021-08) Barrientos Sessarego, Alejandro Javier; Solar Fuentes, Mauricio (Profesor Guía); Mendoza Rocha, Marcelo Gabriel (Profesor Correferente); Universidad Técnica Federico Santa María. Departamento de InformáticaLa astronomía molecular es un campo que está floreciendo en la era de los grandes observatorios tales como el Atacama Large Millimeter/submillimeter Array (ALMA). Con tadio telescopios modernos, sensibles y de alta resolución, tales como ALMA y el Square Kilometer Array, el tamaño de los cubos de datos está escalando rápidamente, generando una necesiad de poderosas herramientas automáticas de análisis. Este trabajo explora la habilidad de realizar predicciones de parámetros molecular, tales como temperatura de excitación y densidad de columna desde líneas espectrales astronómicas, mediante el uso de redes neuronales. Se usaron como casos de prueba, los espectros de CO, HCO+, SiO y CH3CN entre 80 y 400 GHz. Los espectros de entrenamiento fueron generados con MADCUBA, una herramienta de análisis espectral, del estado-del-arte. El algoritmo presentado a continuación, fue diseñado para permitir la generación de predicciones para múltiples moléculas en paralelo, de una manera escalable y que presenta una aceleración lineal. Usando redes neuronales, es posible predecir la densidad de columna y la temperatura de excitación de estas moléculas con un error absoluto medio del 8.5% para CO, 4.1% para HCO+, 1.5% para SiO y un 1.6% para CH3CN. La precisión d ela predicción depende del nivel de ruido, la saturación de la línea y el número de transiciones. Se realizaron predicciones sobre datos reales de ALMA. Los valores predichos por la red neuronal para estos datos reales difieren en sólo un 13% de los datos de MADCUBA en promedio. Las limitaciones actuales de la herramienta incluyen la no consideración del ancho de línea, tamaño de la fuente, múltiples componentes de velocidad y mezcla de líneas.