FILTER_TAG:
IMG_REF
BAGEL // Protein Engineering via Energy Landscape Exploration

BAGEL: Ingeniería de Proteínas Programable mediante Paisajes Energéticos

BAGEL (Protein Engineering via Exploration of an Energy Landscape) es un framework de código abierto, modular y agnóstico al modelo, diseñado para formalizar el diseño de proteínas como una tarea de optimización sobre una “superficie de energía” definida por el usuario.

🚀 Propósito y Visión Estratégica

El objetivo de BAGEL es permitir a los investigadores guiar la evolución in silico de secuencias proteicas hacia funciones o estructuras específicas. Al tratar el diseño como una búsqueda en un paisaje energético, el framework permite combinar múltiples restricciones biológicas y modelos de IA de frontera para generar secuencias con propiedades optimizadas.

🛠️ Arquitectura y Stack Tecnológico

BAGEL destaca por su modularidad y su capacidad de integración con el ecosistema moderno de aprendizaje profundo para biología:

  • Lenguaje de Núcleo: Python 3.12.
  • Gestión de Entorno: Utiliza uv para una resolución de dependencias ultrarrápida y reproducible.
  • Inferencia de Modelos: Se apoya en boileroom para la orquestación de modelos de proteínas pesados.
  • Computación Híbrida: Integración nativa con Modal, permitiendo ejecutar “Oráculos” (modelos evaluadores) en la nube sin necesidad de infraestructura local compleja.
  • Backend de Tensores: Basado en PyTorch para el manejo de modelos de deep learning.

✨ Componentes Clave del Framework

El flujo de trabajo en BAGEL se descompone en cuatro pilares fundamentales:

  1. EnergyTerms (Términos de Energía): Definen las restricciones del diseño (ej: HydrophobicEnergy para controlar la hidrofobicidad o PLDDTEnergy para la confianza estructural).
  2. Oracles (Oráculos): Actúan como sensores que alimentan los términos de energía, a menudo consultando modelos de lenguaje de proteínas (PLMs) como ESM-2 o predictores como ESMFold.
  3. Minimizers (Minimizadores): Algoritmos de muestreo estocástico que exploran el espacio de secuencias, incluyendo Monte Carlo (MC), Simulated Annealing (Recocido Simulado) y Simulated Tempering.
  4. MutationProtocols (Protocolos de Mutación): Definen cómo se altera la secuencia en cada iteración, soportando desde sustituciones puntuales hasta inserciones y eliminaciones (Gran Canónico).

🔑 Modelos de IA Soportados

BAGEL es agnóstico al modelo, pero viene pre-configurado para trabajar con:

  • ESM-2: Para evaluar la verosimilitud biológica de las secuencias generadas.
  • ESMFold: Para predecir la estructura 3D y evaluar la estabilidad mediante métricas de confianza (pLDDT).
  • Custom Oracles: Capacidad para envolver cualquier modelo de ML que devuelva una métrica escalar útil para la optimización.

⚙️ Flujo de Trabajo (Workflow)

  • Definición: El usuario selecciona los oráculos y términos de energía que representen su objetivo biológico.
  • Muestreo: Se inicia un proceso de minimización donde se proponen mutaciones en la secuencia de la proteína.
  • Evaluación: Cada mutación es evaluada por los oráculos para calcular el cambio en la “energía” total.
  • Aceptación/Rechazo: Basándose en criterios termodinámicos (ej: Metrópolis-Hastings), el sistema decide si mantiene la mutación, convergiendo gradualmente hacia una secuencia óptima.

Nota técnica: BAGEL representa la transición del diseño de proteínas “basado en reglas” hacia una ingeniería “basada en energía e IA”, proporcionando un entorno reproducible y escalable para la biotecnología moderna.