Publication:
AUTOMATION OF RETRIEVAL, TRANSFORMATION AND UPLOADING OF GENOMIC DATA AND THEIR METADATA FOR THEIR INTEGRATION INTO A GDM REPOSITORY

Thumbnail Image
Date
2018-10
Authors
VERA PENA, JORGE IGNACIO
Journal Title
Journal ISSN
Volume Title
Publisher
Research Projects
Organizational Units
Journal Issue
Abstract
Due to NGS techniques, whole genome sequences are produced much cheaper and faster every year, thus genomic data is being gathered at a pace never seen before. By processing NGS data new sense making relationships between genomic regions are being found and fundamental biological questions are answered; therefore managing NGS data now seems to be the most important big data problem of humankind. As the new NGS data generated are mostly heterogeneous, they are not easily interoperable. The Genomic Data Model (GDM) allows describing NGS data in a homogeneous way for their interoperation. GMQL is a next-generation query language that by means of using GDM data, gives genomics specific domain operations to biologists to process large volumes of data for discovering biological knowledge. This thesis studies the improvement of NGS data analysis by automating and standardizing the genomic data and their experimental metadata integration into a GDM repository.
A causa de las tecnologías NGS, las secuencias completas del genoma se producen cada vez más rápido y barato cada año, esto implica que la obtención de datos genómicos tiene un ritmo nunca antes visto. Procesando estos datos NGS se están descubriendo nuevas relaciones entre distintas regiones genómicas y se están encontrando respuestas a preguntas biológicas fundamentales. Por lo tanto parece que manejar los datos NGS ahora es el problema de big data más importante de la humanidad. Dado que los nuevos datos NGS son mayormente heterogéneos, no son fácilmente interoperables. El Genomic Data Model (GDM) permite describir datos NGS y sus metadatos de manera homogénea para su interoperabilidad. GMQL es un next-generation query language que usando el modelo GDM, entrega a biólogos herramientas específicas del dominio genómico para procesar gran volumen de datos para así poder generar nuevo conocimiento biológico. Este trabajo estudia la mejora del análisis de datos NGS mediante la estandarización y automatización de la integración de los datos experimentales y sus metadatos en un repositorio GDM.
Description
Keywords
GENOMICA , PROCESAMIENTO DE DATOS , INGENIERIA DE SOFTWARE
Citation