Browsing by Author "Mendoza Rocha, Marcelo Gabriel"
Now showing 1 - 9 of 9
- Results Per Page
- Sort Options
Thesis ALGORITMO TIPO SMO PARA LA AD-SVM APLICADO A LA CLASIFICACIÓN MULTICATEGORÍA(Universidad Técnica Federico Santa María, 2011) Candel Contardo, Diego; Allende Olivares, Héctor; Universidad Técnica Federico Santa María UTFSM. Departamento de Informática. Dirección General de Investigación y Postgrado. Programas de Magíster MBA; Mendoza Rocha, Marcelo GabrielLas SVMs (Support Vector Machines o Máquinas de Soporte Vectorial) son un tipo de máquinas de aprendizaje que se idearon en un inicio para tratar problemas de clasificación binaria. En la actualidad, se han realizado extensiones de las SVMs para abarcar problemas de clasificación con más de dos clases. Recientemente se ha creado una nueva SVM multi-categoría mono-objetivo, denominada AD-SVM (All Distances SVM o SVM de Todas las Distancias) que trabaja con un número de restricciones que escala linealmente con el número de ejemplos y clases del problema a tratar. A pesar de la escalabilidad que posee la AD-SVM, a la fecha no se han realizado experimentos acabados para comparar su rendimiento frente a otras técnicas de clasificación ''multi-categoría. Esto se debe principalmente a que la máquina carece de un algoritmo eficiente de entrenamiento, por lo cual su ejecución es extremadamente lenta y consumé recursos de memoria que no son abarcables si el tamao del problema es muy graride, haciendo inviable la realización de experimentos de gran volumen. Esta tesis tiene como fin abordar los siguientes objetivos: 1) Disear un algoritmo de entrenamiento para la AD-SVM capaz de competir en tiempo de ejecución con los utilizados en otras máquinas de clasificación multi-categórica; 2) Realizar un estudio experimental para comparar el desempeo de la AD-SVM frente a otras técnicas de clasificación multi-categoría.'Thesis Apoyo a la comparación de múltiples corpus a través de la exploración visual de modelado de tópicos(2021-09) González Pizarro, Felipe Andrés; Mendoza Rocha, Marcelo Gabriel; Departamento de Informática; López Mondaca, Claudia; Milios, EvangelosEl constante aumento en el volumen de datos de tipo texto ha llevado al desarrollo de varios algoritmos destinados a resumir y comprender este tipo de datos. Una solución prometedora este problema es el modelado de temas (en inglés conocido como topic modeling), un enfoque estadístico para extraer temas de alto volúmenes de datos. Humanos que interactúan e interpretan directamente el resultado de estos algoritmos pueden usar herramientas de visualización para interpretar mejor los resultados, sin embargo, estas herramientas todavía tienen una limitación significativa. Las representaciones visuales actuales permiten refinar y comparar temas basados solo en sus palabras claves, lo que genera un rendimiento deficiente cuando estas son demasiado genéricas, están mal conectadas o no proporcionan suficiente información. Para abordar este problema, propongo TopicVisExplorer, un conjunto de visualizaciones interactivas que soporta Latent Dirichlet Allocation (LDA). Esta propuesta tiene por objetivo ayudar a los usuarios durante el refinamiento y comparación de temas. Tres innovaciones claves de este trabajo buscan apoyar refinamiento del modelo de tema e identificar temas similares de uno o dos corpus. (1) Propongo un algoritmo de fusión de temas que considera tanto términos como documentos de los tópicos, (2) un nuevo algoritmo de división de temas basado en sus documentos, (3) y una métrica que estima la similitud entre temas en base a sus palabras y documentos más relevantes. Realice un estudio de usuarios con 95 usuarios no expertos para evaluar las funcionalidades de TopicVisExplorer. Los resultados muestran que los participantes pudieron identificar los temas que necesitan mejorar su calidad. Aproximadamente la mitad de los participantes mejoraron la coherencia de su modelo después de aplicar operaciones de división y fusión de temas. Además, los participantes pudieron identificar temas similares entre dos corpus. Aquellos que utilizaron la métrica de similitud propuesta cometieron menos errores que aquellos que usaron una métrica base.Thesis DISEÑO DE SISTEMAS DE COMPENSACIÓN DE MOVIMIENTO EN IMÁGENES USANDO ANÁLISIS DE FOURIER Y WAVELETS(Universidad Técnica Federico Santa María, 2000) Mendoza Rocha, Marcelo Gabriel; Salinas Carrasco, Luis; Universidad Técnica Federico Santa María UTFSM. Escuela de Graduados. Departamento de Informática; Sánchez Hernández, Juan LonginoEl ser humano ha intentado imitar a la naturaleza desde el principio de su desarrollo intelectual. Uno de los sentidos mas relevantes en la relación del ser con su entorno es la visión. Su estudio y comprensión ha llevado a plantear la posibilidad de imitar algunas funciones que cumple este vital sentido. Desde el punto de vista de Ciencias de la Computación, la imitación de este sentido y su implementación electrónica son los objetivos esenciales de la Vision Artificial. Dentro de la problemática de la Vision Artificial destaca uno en particular. El reconocimiento de objetos conocidos en imágenes recientemente adquiridas. Los mecanismos de asociación de patrones y semejanzas geometricas usados por la vision animal han llevado al desarrollo de sistemas análogos en robótica. En particular, el seguimiento de objetos y el reconocimiento de los mismos como dbjetivos definen el problema de registro de imágenes. El problema de registro de imágenes radica esencialmente en compensar las transformaciones geométricas en que difieren una imagen de referencia y una imagen recientemente adquirida. Esta compensación permite centrar el objeto con respecto a la imagen de referencia y entonces compararlas o efectuar otras operaciones de interés. La hipótesis de esta tesis es que no es necesario usar toda la información que contiene una imagen para poder resolver el problema de registro. En particular, se probará que usando transformaciones de multiresolución también es posible realizar estimaciones de los parámetros de las transformaciones en que difieren las imágenes. El primer capítulo de esta tesis define matemáticamente el problema de registro de imágenes revisando las técnicas usuales de solución del problema y mostrando algunas de sus debilidades y fortalezas. El segundo capítulo de esta tesis describe las técnicas espectrales del análisis de Fourier que permiten realizar estimaciones de los factores de transformación en que difieren ambas imágenes. Junto con lo anterior, se proponen algunas mejoras a las técnicas clásicas de Fourier y se muestran resultados experimentales que prueban lo anterior. El tercer capítulo de esta tesis introduce el análisis Wavelets que permite representar a una imagen en distintos niveles de resolución. A partir del análisis de multiresolución se estudian las propiedades de la transformada wavelets y se escoge un wavelet en particular que resuelve el problema de registro de imágenes satisfactoriamente. Finalmente se muestran resultados experimentales de algoritmos de compensación de movimiento basados en esta transformación.Thesis EL ESPACIO INVESTIGACIÓN:UN MAPA DE PRODUCCIÓN DE CIENCIA(2016) Guevara Albornoz, Miguel Roberto; Departamento de Informática; Mendoza Rocha, Marcelo Gabriel; Moreira Wenzel, Andres; Hidalgo, Cesar A.In this thesis we propose a new map of science based on the productive paths of scholars.We call this network the research space. To create this map, we had to mine the web in orderto curate a disambiguated dataset of individuals. With this dataset we were able to buildthe research space in which the nodes represent felds of research and the links represent howlikely a scientist publishes in an area given that she published in other one. With the structureof the research space we evaluated the scientifc production of individuals, institutions andcountries. We also defned a methodology to evaluate the predictive power of maps of sciencein general and the research space in particular. With this methodology we found that theresearch space is a better predictor|in comparison with a map based on citation patterns-|of the diversifcation and evolution of individuals and institutions. We also proved thatour results hold when we change the classifcation of areas of science. Finally we built twoapplications, one for the scientifc community and the other one for general public. Theseapplications facilitate the analysis of the diversity of scientifc production based on maps ofscience.Thesis FAKE NEWS DETECTION MODEL FOR THE EARLY STAGES OF THE SPREAD(2021-04) Espinoza Villarroel, Ignacio Javier; Torres, Claudio; Departamento de Informática; Mendoza Rocha, Marcelo Gabriel; Bravo, FelipeEl masivo uso de redes sociales ha permitido un aumento explosivo de noticias falsas circulantes en la red. La principal razón es que este tipo de contenido puede ser creado y publicado rápidamente a un costo nulo, comparado con medios tradicionales como el periódico. Realizar un análisis de veracidad a cada una de estas noticias es una tarea imposible de realizar manualmente debido al esfuerzo humano requerido y al gran volumen de información que se produce cada hora, por lo que es necesario buscar medios de verificación automáticos que clasifiquen estos contenidos dentro de las primeras horas en que fueron emitidos. Este problema ha sido de gran interés para la comunidad académica donde se han creando diversos mecanismos para la detección de noticias falsas, principalmente basados en técnicas de deep learning y machine learning. No obstante, existen pocos trabajos específicamente diseñados para resolver la tarea de detección temprana, que utilicen tanto contenido como contexto para la clasificación. Por esta razón, en este trabajo proponemos un nuevo modelo de detección temprana de noticias falsas condicionado a las primeras etapas de la propagación. El modelo llamado Early Rumor Detection Model (ERDM), compuesto por una red Bi-GRU con un módulo de atención global, recibe en cada tiempo tanto características de la propagación de los mensajes (texto y tiempo) como información de los usuarios que participan en las conversaciones. Los resultados muestran que ERDM sobrepasa a los métodos de la literatura, tanto para escenario a 4 clases como binario, donde en este último escenario se consigue una mejora de 7% y 13.4% en los datasets Twitter 15 y Twitter 16 respectivamente. Además, ERDM supera los resultados del estado del arte en detección temprana obteniendo sobre 80% en accuracy en ambos datasets dentro de las primeras 4 horas de difusión de una noticia.Thesis IMPROVING THE LEARNING OBJECTS RECOMMENDATION PROCESS USING A DOMAIN DESCRPTION MODEL AND AN AUTOMATIC CATEGORIZATION TECHNIQUE(Universidad Técnica Federico Santa María, 2012) Becerra Castro, Carlos Reinaldo; Astudillo Rojas, Hernán E; Universidad Técnica Federico Santa María UTFSM. Departamento de Informática; Mendoza Rocha, Marcelo Gabriel; Ochoa Chehab, XavierLos Objetos de Aprendizaje (OAs) son ampliamente utilizados para la enseanza, ya que pueden ser reutilizados en contextos alternativos para dar soporte a objetivos de aprendizaje. Uno de los desaf?ós más importantes en esta área es proveer recomendaci ón de OAs que simplifiquen su búsqueda, descripción, composición, articulación y reutilización. El problema que actualmente enfrentan los profesores en el dominio educacional es la gran cantidad de esfuerzo requerido para componer material educativo basado en OAs. Usualmente, las descripciones de los OAs son incompletas, inexactas y/o contienen información poco confiable. La presente tesis propone un enfoque para mejorar el proceso de recomendación de OAs basado en un modelo del dominio (ontolog?á) y un método de categorización automático que reduzca el esfuerzo requerido para encontrar, reutilizar y componer OAs. El enfoque propuesto fue validado por medio de un caso de estudio (con 3 replicaciones), el que permitió evaluar la calidad y el esfuerzo asociado al proceso de composición de OAs. Los resultados indican que usando el enfoque propuesto los profesores componen clases con una calidad similar, comparado con un enfoque Ad-Hoc, pero con menor esfuerzo.Thesis Prediction of molecular parameters from astronomical emission lines, using neural networks(2021-08) Barrientos Sessarego, Alejandro Javier; Mendoza Rocha, Marcelo Gabriel; Departamento de Informática; Solar Fuentes, MauricioLa astronomía molecular es un campo que está floreciendo en la era de los grandes observatorios tales como el Atacama Large Millimeter/submillimeter Array (ALMA). Con tadio telescopios modernos, sensibles y de alta resolución, tales como ALMA y el Square Kilometer Array, el tamaño de los cubos de datos está escalando rápidamente, generando una necesiad de poderosas herramientas automáticas de análisis. Este trabajo explora la habilidad de realizar predicciones de parámetros molecular, tales como temperatura de excitación y densidad de columna desde líneas espectrales astronómicas, mediante el uso de redes neuronales. Se usaron como casos de prueba, los espectros de CO, HCO+, SiO y CH3CN entre 80 y 400 GHz. Los espectros de entrenamiento fueron generados con MADCUBA, una herramienta de análisis espectral, del estado-del-arte. El algoritmo presentado a continuación, fue diseñado para permitir la generación de predicciones para múltiples moléculas en paralelo, de una manera escalable y que presenta una aceleración lineal. Usando redes neuronales, es posible predecir la densidad de columna y la temperatura de excitación de estas moléculas con un error absoluto medio del 8.5% para CO, 4.1% para HCO+, 1.5% para SiO y un 1.6% para CH3CN. La precisión d ela predicción depende del nivel de ruido, la saturación de la línea y el número de transiciones. Se realizaron predicciones sobre datos reales de ALMA. Los valores predichos por la red neuronal para estos datos reales difieren en sólo un 13% de los datos de MADCUBA en promedio. Las limitaciones actuales de la herramienta incluyen la no consideración del ancho de línea, tamaño de la fuente, múltiples componentes de velocidad y mezcla de líneas.Thesis Topic Models Ensembles(2022-01) Ormeño Arriagada, Pablo Iván; Torres López, Claudio Esteban; Departamento de Informática; Mendoza Rocha, Marcelo GabrielLa recuperación de información Adhoc es una tarea desafiante que consiste en hacer ranking de documentos para consultas provenientes desde un enfoque de bolsa de palabras. Los métodos clásicos basados en consultas y documentos de vectores de texto, usan funciones de ponderación de términos para hacer ránking de documentos. Algunos de las limitaciones de estos métodos son que no pueden lidiar con conceptos polisémicos. Además, introducen falsas ortogonalidades entre palabras semánticamente relacionadas. Para superarlas, los enfoques de recuperación de información basados en modelos de temas se pueden explorar. Específicamente, los modelos de temas basados en Latent Dirichlet Allocation (LDA) permiten construir representaciones de documentos de texto en el espacio latente de temas, que modela de mejor manera la polisemia y evitan la generación de representaciones ortogonales entre términos relacionados. Es por esto que se pueden expandir las estrategias de Recuperación basadas en LDA usando estrategias de Aprendizaje de Ensamblado. En este sentido, la selección de modelos obedece a estos paradigmas, por lo que probamos dos enfoques usados exitosamente en el aprendizaje supervisado. Se estudian las técnicas Boosting y Bagging para modelos de temas, usando cada modelo como un experto débil de recuperación. Finalmente, se mezclan las listas de ranking obtenidas de cada modelo usando un enfoque simple pero efectivo de fusión de listas top-k. Se muestra que el enfoque propuesto fortalece los resultados en precisión y en recall, superando a los modelos clásicos de recuperación y las líneas bases de modelos de temas.Thesis VOTING INTENTION ANALYSIS OF TWITTER USERS(Universidad Técnica Federico Santa María, 2013) Guevara Albornoz, Miguel Roberto; Mendoza Rocha, Marcelo Gabriel; Universidad Técnica Federico Santa María UTFSM. Departamento de InformáticaProponemos un modelo difuso (Fuzzy) dirigido a analizar la intención de cada usuario que publica un tweet en el contexto de una elección pol??tica. Nuestra propuesta es un paso adelante en la v?á de construir modelos para entender el comportamiento de los usuarios de Twitter en una elección pol??tica. Ésta ha sido ciertamente una tarea dif??cil, aún cuando varios esfuerzos se han realizado y también se han reportado auspiciosos resultados. Basamos nuestro modelo en la cantidad total de tweets por usuario, as?? como también en su cantidad de tweets positivos y negativos. Nuestro sistema de inferencia utiliza el método de Mamdani con tres variables premisa y una variable consecuencia. Definimos el universo del discurso para las variables premisa, por la frecuencia de tweets. Para la variable consecuencia, definimos el universo del discurso como la posible intención de voto de un usuario en una elección. Aplicamos defuzzyficación con centro de gravedad para una conclusión definitiva basada en valor, el mismo que denominamos el Indice de Intención de Voto. Para ilustrar la aplicación de nuestro modelo, hemos utilizado data descargada del streaming público de Twitter, respecto de tres elecciones en 2012 y 2013, con diferentes niveles de participación.