Thesis
Algoritmo para el cálculo de fragmentos de proteínas en los organismos secuenciados

Loading...
Thumbnail Image

Date

2018-01

Journal Title

Journal ISSN

Volume Title

Program

Ingeniería Civil Informática

Campus

Campus Santiago San Joaquín

Abstract

Esta memoria tiene como finalidad buscar e identificar en archivos correspondientes a las bases de datos de proteínas UniProt-SwissProt, UniProt-TrEMBL, EROP-Moscow y Homosapiens (extraído de UniProt-SwissProt), la cantidad de diferentes fragmentos de proteínas de largo k entre 1 hasta 50 e identificar cuales son los fragmentos que mas se repiten. Es importante esta tarea ya que la cantidad de proteínas que van apareciendo día a día crece y por lo mismo, es interesante considerar cual es el porcentaje de diferentes fragmentos de péptidos que se abarca en la actualidad. Para hacer esto se creo una cadena de texto generada de cada base de datos y en base a esta cadena se utilizó un tipo de estructura de indexacion de textos conocido como el arreglo de sufijos y su derivado directo, el arreglo LCP para realizar las tareas mencionadas en el parrafo anterior. Se utilizarán 2 algoritmos para lograr este propósito, que construirán el arreglo de sufijos y el arreglo LCP de diferentes maneras y que tendrán en común el uso de la estructura conocida como priority queue para guardar aquellos residuos que mas se repitan. Los resultados obtenidos para cada base de datos tienen en común que a medida que crece, el porcentaje de diferentes fragmentos va disminuyendo y aquellos fragmentos que mas se repiten siguen características físico-químicas similares.

Description

Catalogado desde la version PDF de la tesis.

Keywords

Arreglo de sufijos, Arreglo LCP, Bases de datos, Priority QUEUE, Proteínas

Citation