Thesis
Análisis de modelos de inteligencia artificial generativa en la producción de secuencias de proteínas de novo

Loading...
Thumbnail Image

Date

2025-07-31

Journal Title

Journal ISSN

Volume Title

Program

Ingeniería Civil Informática

Campus

Campus Casa Central Valparaíso

Abstract

Desde hace ya tiempo, la inteligencia artificial se ha consolidado como una herramienta poderosa en bioinformática, posibilitando avances en diversos ámbitos. Más recientemente, se han desarrollado múltiples modelos generativos para abordar el problema del diseño de proteínas de novo, diferenciándose claramente entre aquellos que aprenden desde estructuras tridimensionales y aquellos que lo hacen a partir de secuencias de aminoácidos, i. e., los modelos de lenguaje de proteínas. En este trabajo se seleccionaron tres de los mejores modelos de lenguaje de proteínas, se optimizaron para aprender eficazmente desde conjuntos de secuencias pertenecientes a una familia proteica específica y se evaluó su capacidad de generar secuencias de proteínas de novo que pertenecieran a dicha familia y fueran estructuralmente viables, destacando ProGen2 como el modelo con mejor desempeño según el algoritmo de evaluación desarrollado. Con ello, se propuso un marco metodológico concreto y replicable para sacar el máximo provecho de estos modelos, priorizando la eficiencia y la interpretabilidad en el diseño de proteínas de novo.
Artificial intelligence has long been established as a powerful tool in bioinformatics, enabling progress in various fields. More recently, numerous generative models have been developed to address the problem of de novo protein design, with a clear distinction between those that learn from three-dimensional structures and those that rely on amino acid sequences, i. e., protein language models. In this work, three of the best protein language models were selected, fine-tuned to learn effectively from sets of sequences belonging to a specific protein family, and evaluated in their ability to generate de novo protein sequences that belonged to the same family and were structurally viable, with ProGen2 standing out as the best-performing model according to the developed evaluation algorithm. Based on this, a concrete and replicable methodological framework to fully leverage the potential of these models was proposed, with a focus on efficiency and interpretability in de novo protein design.

Description

Keywords

Inteligencia artificial generativa, Modelos de lenguaje de proteínas, Bioinformática, Diseño de proteínas de novo, Grandes modelos de lenguaje, Generative artificial intelligence, Protein language models, Bioinformatics, De novo protein design, Large language models

Citation