Evo 2: El Modelo Fundacional que Decodifica y Diseña el Genoma
Publicado en Nature el 4 de marzo de 2026, Evo 2 representa un hito sin precedentes en la biología computacional. Este modelo fundacional ha sido entrenado con el dataset OpenGenome2, que abarca 9.3 billones de pares de bases de ADN de todos los dominios de la vida (bacterias, arqueas, eucariotas y virus), permitiendo una comprensión holística de la arquitectura genómica a una escala nunca antes alcanzada.
🔬 Arquitectura Técnica: StripedHyena 2
- Ventana de Contexto de 1 Millón de Tokens: A diferencia de los modelos tradicionales, Evo 2 utiliza la arquitectura híbrida StripedHyena 2, que combina operadores de convolución dependientes de la entrada con mecanismos de atención. Esto permite procesar secuencias de hasta 1 millón de nucleótidos con una eficiencia 3 veces superior a los Transformers estándar.
- Resolución de Nucleótido Único: El modelo opera a nivel de base individual, permitiendo predecir el impacto funcional de mutaciones puntuales y variaciones estructurales (inserciones/deleciones) en regiones codificantes y no codificantes del genoma.
- Interpretabilidad Mecanicista: Mediante el uso de Autoencoders Dispersos (SAEs), se ha demostrado que Evo 2 aprende representaciones latentes de conceptos biológicos reales, como los límites exón-intrón y los sitios de unión de factores de transcripción, sin supervisión explícita.
🚀 Capacidades de Diseño y Descubrimiento
- Generación Genómica “De Novo”: Evo 2 es capaz de generar secuencias genómicas funcionales completas para procariotas y virus, además de fragmentos complejos en eucariotas.
- Diseño de Accesibilidad a la Cromatina: Utilizando técnicas de búsqueda por haz (beam search) guiada por modelos externos, el sistema puede diseñar secuencias de ADN con patrones de accesibilidad epigenética específicos, validados experimentalmente mediante ATAC-seq en células humanas y de ratón.
- Predicción de Variantes Patogénicas: Supera a los modelos estado del arte en la identificación de variantes clínicas relevantes (como en el gen BRCA1), consolidándose como una herramienta diagnóstica de precisión.
⚖️ Impacto Estratégico y Ciencia Abierta
El proyecto destaca por su compromiso con la Ciencia Abierta, liberando tanto los pesos del modelo como el código y el dataset completo. Evo 2 no solo unifica la escala molecular y genómica, sino que establece las bases para una biología programable, donde el diseño de funciones biológicas complejas puede realizarse con la misma precisión que el desarrollo de software.