Araya Barrera, Felipe Nicolás2024-09-252024-09-252018-01https://repositorio.usm.cl/handle/123456789/592910.71700/dspace-memorias/3146Catalogado desde la version PDF de la tesis.Esta memoria tiene como finalidad buscar e identificar en archivos correspondientes a las bases de datos de proteínas UniProt-SwissProt, UniProt-TrEMBL, EROP-Moscow y Homosapiens (extraído de UniProt-SwissProt), la cantidad de diferentes fragmentos de proteínas de largo k entre 1 hasta 50 e identificar cuales son los fragmentos que mas se repiten. Es importante esta tarea ya que la cantidad de proteínas que van apareciendo día a día crece y por lo mismo, es interesante considerar cual es el porcentaje de diferentes fragmentos de péptidos que se abarca en la actualidad. Para hacer esto se creo una cadena de texto generada de cada base de datos y en base a esta cadena se utilizó un tipo de estructura de indexacion de textos conocido como el arreglo de sufijos y su derivado directo, el arreglo LCP para realizar las tareas mencionadas en el parrafo anterior. Se utilizarán 2 algoritmos para lograr este propósito, que construirán el arreglo de sufijos y el arreglo LCP de diferentes maneras y que tendrán en común el uso de la estructura conocida como priority queue para guardar aquellos residuos que mas se repitan. Los resultados obtenidos para cada base de datos tienen en común que a medida que crece, el porcentaje de diferentes fragmentos va disminuyendo y aquellos fragmentos que mas se repiten siguen características físico-químicas similares.CD ROMArreglo de sufijosArreglo LCPBases de datosPriority QUEUEProteínasAlgoritmo para el cálculo de fragmentos de proteínas en los organismos secuenciadosTesis Pregradoinfo:eu-repo/semantics/openAccess3560902037792