BAGEL: Ingeniería de Proteínas Programable mediante Paisajes Energéticos
BAGEL (Protein Engineering via Exploration of an Energy Landscape) es un framework de código abierto, modular y agnóstico al modelo, diseñado para formalizar el diseño de proteínas como una tarea de optimización sobre una “superficie de energía” definida por el usuario.
🚀 Propósito y Visión Estratégica
El objetivo de BAGEL es permitir a los investigadores guiar la evolución in silico de secuencias proteicas hacia funciones o estructuras específicas. Al tratar el diseño como una búsqueda en un paisaje energético, el framework permite combinar múltiples restricciones biológicas y modelos de IA de frontera para generar secuencias con propiedades optimizadas.
🛠️ Arquitectura y Stack Tecnológico
BAGEL destaca por su modularidad y su capacidad de integración con el ecosistema moderno de aprendizaje profundo para biología:
- Lenguaje de Núcleo: Python 3.12.
- Gestión de Entorno: Utiliza
uvpara una resolución de dependencias ultrarrápida y reproducible. - Inferencia de Modelos: Se apoya en
boileroompara la orquestación de modelos de proteínas pesados. - Computación Híbrida: Integración nativa con Modal, permitiendo ejecutar “Oráculos” (modelos evaluadores) en la nube sin necesidad de infraestructura local compleja.
- Backend de Tensores: Basado en PyTorch para el manejo de modelos de deep learning.
✨ Componentes Clave del Framework
El flujo de trabajo en BAGEL se descompone en cuatro pilares fundamentales:
- EnergyTerms (Términos de Energía): Definen las restricciones del diseño (ej:
HydrophobicEnergypara controlar la hidrofobicidad oPLDDTEnergypara la confianza estructural). - Oracles (Oráculos): Actúan como sensores que alimentan los términos de energía, a menudo consultando modelos de lenguaje de proteínas (PLMs) como ESM-2 o predictores como ESMFold.
- Minimizers (Minimizadores): Algoritmos de muestreo estocástico que exploran el espacio de secuencias, incluyendo Monte Carlo (MC), Simulated Annealing (Recocido Simulado) y Simulated Tempering.
- MutationProtocols (Protocolos de Mutación): Definen cómo se altera la secuencia en cada iteración, soportando desde sustituciones puntuales hasta inserciones y eliminaciones (Gran Canónico).
🔑 Modelos de IA Soportados
BAGEL es agnóstico al modelo, pero viene pre-configurado para trabajar con:
- ESM-2: Para evaluar la verosimilitud biológica de las secuencias generadas.
- ESMFold: Para predecir la estructura 3D y evaluar la estabilidad mediante métricas de confianza (pLDDT).
- Custom Oracles: Capacidad para envolver cualquier modelo de ML que devuelva una métrica escalar útil para la optimización.
⚙️ Flujo de Trabajo (Workflow)
- Definición: El usuario selecciona los oráculos y términos de energía que representen su objetivo biológico.
- Muestreo: Se inicia un proceso de minimización donde se proponen mutaciones en la secuencia de la proteína.
- Evaluación: Cada mutación es evaluada por los oráculos para calcular el cambio en la “energía” total.
- Aceptación/Rechazo: Basándose en criterios termodinámicos (ej: Metrópolis-Hastings), el sistema decide si mantiene la mutación, convergiendo gradualmente hacia una secuencia óptima.
Nota técnica: BAGEL representa la transición del diseño de proteínas “basado en reglas” hacia una ingeniería “basada en energía e IA”, proporcionando un entorno reproducible y escalable para la biotecnología moderna.