SEGMENTACIÓN AUTOMÁTICA DE LA GLOTIS EN VIDEOS ENDOSCÓPICOS DE ALTA VELOCIDAD UTILIZANDO COLORES Y FORMAS CARACTERÍSTICAS DE LAS REGIONES GLOTALES

SALAZAR CERDA, LUCAS FIDEL DE JESUS (2018)

Catalogado desde la version PDF de la tesis.

Tesis Pregrado

Para analizar y diagnosticar enfermedades y disfunciones vocales es indispensableanalizar visualmente las cuerdas vocales en acción. El uso de cámaras de alta velocidades la mejor forma de capturar el ciclo de fonación de las cuerdas vocales en gran detalle,pero debido a la inmensa cantidad de datos generado por estas cámaras se vuelvenecesario desarrollar técnicas automáticas para procesar estos videos de alta velocidad(HSV), en particular técnicas de segmentación automática de la glotis.Se plantean como objetivos para esta memoria implementar un método de segmentación automática de la glotis en HSV, evaluar cuantitativamente dicho método y compararlocon otros métodos existentes, investigar la utilidad del uso de la información decolor de los videos en la segmentación, e investigar la utilidad del uso de técnicas demachine learning en la segmentación.En esta memoria se implementa el paper [14] que describe un método automáticode segmentación de la glotis en HSV. Este método se basa en la aplicación de un umbralflexible, comparación de descriptores de Fourier, aplicación de contornos activos,machine learning y cálculo de una imagen de probabilidad a partir de las propiedadesde color de las glotis segmentadas, entre otras cosas. Se proponen varias mejoras:Cambios en la comparación de descriptores de Fourier, en la comparación de las propiedadesde color, resolución de colisiones en la segmentación y el cálculo de una ROIinicial a partir de la varianza de cada pixel a lo largo del video. También se desarrollóuna versión para videos en escala de grises, y se evaluó cuantitativamente el algoritmoutilizando el coeficiente Dice y el error de área.Los resultados muestran que el algoritmo original no entrega muy buenos resultados,pero al implementar las modificaciones propuestas se logran mejoras significativas.Se concluye que la información de color de los videos no debiera descartarse yaque puede ayudar a la segmentación, y que con la cantidad de datos de entrenamientolimitada que se tiene, la parte de machine learning del algoritmo no funciona lo suficientementebien.

Visual analysis of the vocal cords in action is essential for the diagnosis of vocalpathologies. The use of high speed cameras is the best way to capture the vocal cords’phonation cycle in detail, but due to the huge amount of data generated by these camerasit becomes necessary to develop automatic processing techniques for the capturedvideos, particularly automatic glottis segmentation techniques.The objectives set for this thesis are to implement an automatic glottis segmentationmethod for laryngeal high-speed videos (HSV), to quantitatively evaluate the method’sperformance and compare it with other existent methods, to investigate the usefulnessof the videos’ color information, and to investigate the usefulness of machine learningtechniques in glottis segmentation.The paper [14] is chosen for implementation; this paper describes an automatic glottissegmentation method in HSV based on a flexible thresholding technique, Fourierdescriptors comparison, active contours, machine learning and a probability image calculationbased on color properties of already segmented glottis, amongst other things.Many modifications are proposed: Changes in Fourier descriptor comparison, changesin color properties comparison, collision resolution during frame-by-frame segmentationand an initial ROI calculation from the video’s pixels variance. A version of thealgorithm for grayscale videos was developed, and a quantitative evaluation of the algorithm’sperformance was made using the Dice coefficient and area error.Results show that the original algorithm does not give very good results, but theimplementation of the proposed modifications significantly improves performance. Itis concluded that the video’s color information should not be discarded because it canbe helpful for glottis segmentation, and that with the limited amount of data available,the machine learning part of the algorithm does not work well enough.