🧬 Mapeando el Árbol de la Vida en el Espacio Latente de Evo 2
La investigación reciente de Goodfire AI sobre Evo 2, un modelo fundacional de ADN a gran escala, ha revelado un fenómeno fascinante: el modelo no solo procesa secuencias, sino que ha construido internamente una representación geométrica precisa de las relaciones evolutivas de la Tierra, denominada Phylogeny Manifold.
🛠️ Arquitectura y Representación de Especies
Evo 2 ha demostrado una capacidad asombrosa para aprender la jerarquía biológica (reino, clase, orden, familia, género) de forma totalmente autónoma, sin supervisión taxonómica explícita.
- Species Embeddings: Mediante el promedio de las activaciones internas (específicamente de la capa 24) sobre regiones genómicas aleatorias, los investigadores generaron “embeddings promedio de especies”.
- Clustering Natural: Estos embeddings se agrupan espontáneamente siguiendo las relaciones filogenéticas conocidas. Incluso eliminando la similitud de secuencia como factor de confusión, el modelo mantiene estos clusters, sugiriendo que ha capturado una “ontología” profunda de la vida.
- In-Context Learning: El modelo utiliza el “estilo genómico” (estadísticas de tetranucleótidos, contenido GC y patrones de uso de codones) para orientarse instantáneamente dentro del manifold al procesar fragmentos de secuencia.
💻 La Complejidad del Manifold Filogenético
A diferencia de los manifolds circulares (tiempo) o helicoidales (números) encontrados en LLMs tradicionales, la estructura en Evo 2 es significativamente más compleja y curva.
- Distancias Geodésicas: La “ruta más corta” a lo largo de esta superficie curva en el espacio de alta dimensionalidad correlaciona casi perfectamente con la distancia filogenética real (la longitud total de las ramas en un árbol biológico).
- Geometría No Euclidiana: La codificación de la vida no es lineal; requiere una topología que refleje la ramificación y divergencia de las especies a lo largo de eones.
🚀 Estructura de “Subespacio Plano y Ondulaciones”
Los investigadores proponen un modelo geométrico de dos niveles para explicar cómo se almacenan estas características:
- Subespacio de Baja Dimensionalidad (10D): Existe un subespacio “plano” que explica aproximadamente el 70% de la varianza de los embeddings. Aquí, las distancias lineales son representaciones directas de las distancias filogenéticas.
- Curvatura y “Ripples”: Sobre esta base plana, existen desviaciones de alta curvatura u “ondulaciones”. Estas representan características biológicas únicas de ciertos clados o actúan como un mecanismo de diferenciación para especies extremadamente similares.
🛡️ Implicaciones para la Ingeniería y la Interpretabilidad
Este descubrimiento trasciende la biología; redefine cómo entendemos la interpretabilidad en modelos de IA científica.
- Algoritmos Naturales: Los modelos científicos no solo memorizan; extraen las reglas fundamentales del sistema que modelan.
- Evolución de SAEs: Las técnicas actuales de interpretabilidad mecánica (como los Sparse Autoencoders) deberán evolucionar para considerar estructuras de manifolds en lugar de simples direcciones lineales.
- Model Steering: Comprender este “sistema de coordenadas” permite teóricamente desplazar una secuencia a lo largo del manifold para observar cómo cambiaría su funcionalidad en diferentes contextos evolutivos.