ALGORITMO PARA EL CÁLCULO DE FRAGMENTOS DE PROTEÍNAS EN LOS ORGANISMOS SECUENCIADOS

ARAYA BARRERA, FELIPE NICOLÁS (2018)

Catalogado desde la version PDF de la tesis.

Tesis Pregrado

Esta memoria tiene como finalidad buscar e identificar en archivos correspondientes a las bases de datos de proteínas UniProt-SwissProt, UniProt-TrEMBL, EROP-Moscow y Homosapiens (extraído de UniProt-SwissProt),la cantidad de diferentes fragmentos de proteínas de largo k entre 1 hasta 50 e identificar cuáles son los fragmentos que más se repiten. Es importante esta tarea ya que la cantidad de proteínas que van apareciendo día a día crece y por lo mismo, es interesante considerar cuál es el porcentaje de diferentes fragmentos de péptidos que se abarca en la actualidad.Para hacer esto se creó una cadena de texto generada de cada base de datos y en base a esta cadena se utilizó un tipo de estructura de indexación de textos conocido como el arreglo de sufijos y su derivado directo, el arreglo LCP para realizar las tareas mencionadas en el párrafo anterior. Se utilizarán 2 algoritmos para lograr este propósito, que construirán el arreglo de sufijos y el arreglo LCP de diferentes maneras y que tendrán en común el uso de la estructura conocida como “priority queue” para guardar aquellos residuos que más se repitan.Los resultados obtenidos para cada base de datos tienen en común que a medida que crece k, el porcentaje de diferentes fragmentos va disminuyendo y aquellos fragmentos que más se repiten siguen características físico-químicas similares.

The purpose of this thesis is to search and identify in files corresponding to the UniProt-SwissProt, UniProt-TrEMBL, EROP-Moscow and Homosapiens (extracted from UniProt-SwissProt) proteins databases, the amountof dierent protein fragments of long k between 1 to 50 and identify which are the most repeated fragments.This task is important because the amount of proteins that are appearing every day grows and therefore, it is interesting to consider what is the percentage of dierent fragments of peptides that is currently covered.To do this, a text string generated from each database was created and based on this string, a type of text indexing structure known as the sux array and its direct derivative, the LCP array to perform the tasks mentioned in the previous paragraph. Two algorithms will be used to achieve this purpose, which will build thesux array and the LCP array in dierent ways and that will have in common the use of the structure known as priority queue to store those residues that are most repeated.The results obtained for each database have in common that as k grows, the percentage of dierent fragments decreases and the most repeated fragments follow similar physical-chemical characteristics.