Thesis
Análisis de modelos de inteligencia artificial generativa en la producción de secuencias de proteínas de novo

dc.contributor.correferenteLeón Vásquez, Roberto Jesús
dc.contributor.departmentDepartamento de Informática
dc.contributor.guiaPezoa Rivera, Raquel Andrea
dc.contributor.patrocinanteFlores Herrera, Patricio Andrés
dc.coverage.spatialCampus Casa Central Valparaíso
dc.creatorCea Ruiz, Ignacio Miguel
dc.date.accessioned2025-08-04T14:55:07Z
dc.date.available2025-08-04T14:55:07Z
dc.date.issued2025-07-31
dc.description.abstractDesde hace ya tiempo, la inteligencia artificial se ha consolidado como una herramienta poderosa en bioinformática, posibilitando avances en diversos ámbitos. Más recientemente, se han desarrollado múltiples modelos generativos para abordar el problema del diseño de proteínas de novo, diferenciándose claramente entre aquellos que aprenden desde estructuras tridimensionales y aquellos que lo hacen a partir de secuencias de aminoácidos, i. e., los modelos de lenguaje de proteínas. En este trabajo se seleccionaron tres de los mejores modelos de lenguaje de proteínas, se optimizaron para aprender eficazmente desde conjuntos de secuencias pertenecientes a una familia proteica específica y se evaluó su capacidad de generar secuencias de proteínas de novo que pertenecieran a dicha familia y fueran estructuralmente viables, destacando ProGen2 como el modelo con mejor desempeño según el algoritmo de evaluación desarrollado. Con ello, se propuso un marco metodológico concreto y replicable para sacar el máximo provecho de estos modelos, priorizando la eficiencia y la interpretabilidad en el diseño de proteínas de novo.es
dc.description.abstract Artificial intelligence has long been established as a powerful tool in bioinformatics, enabling progress in various fields. More recently, numerous generative models have been developed to address the problem of de novo protein design, with a clear distinction between those that learn from three-dimensional structures and those that rely on amino acid sequences, i. e., protein language models. In this work, three of the best protein language models were selected, fine-tuned to learn effectively from sets of sequences belonging to a specific protein family, and evaluated in their ability to generate de novo protein sequences that belonged to the same family and were structurally viable, with ProGen2 standing out as the best-performing model according to the developed evaluation algorithm. Based on this, a concrete and replicable methodological framework to fully leverage the potential of these models was proposed, with a focus on efficiency and interpretability in de novo protein design.en
dc.description.programIngeniería Civil Informática
dc.format.extent86 páginas
dc.identifier.barcode3560900288142
dc.identifier.urihttps://repositorio.usm.cl/handle/123456789/75868
dc.language.isoes
dc.publisherUniversidad Técnica Federico Santa María
dc.rightsAttribution 4.0 Internationalen
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectInteligencia artificial generativa
dc.subjectModelos de lenguaje de proteínas
dc.subjectBioinformática
dc.subjectDiseño de proteínas de novo
dc.subjectGrandes modelos de lenguaje
dc.subjectGenerative artificial intelligence
dc.subjectProtein language models
dc.subjectBioinformatics
dc.subjectDe novo protein design
dc.subjectLarge language models
dc.subject.ods3 Salud y bienestar
dc.subject.ods4 Educación de calidad
dc.subject.ods9 Industria, innovación e infraestructura
dc.titleAnálisis de modelos de inteligencia artificial generativa en la producción de secuencias de proteínas de novo
dspace.entity.typeTesis

Files

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
3560900288142.pdf
Size:
19.4 MB
Format:
Adobe Portable Document Format

License bundle

Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed to upon submission
Description: