IMG_REF

PHYLOGENY MANIFOLD: LA GEOMETRÍA DEL ÁRBOL DE LA VIDA EN EVO 2

🧬 Geometría Evolutiva: El Manifold de la Filogenia en Modelos Fundacionales

La reciente investigación de Goodfire sobre el modelo Evo 2 marca un hito en la interpretabilidad de modelos biológicos. No estamos ante una simple base de datos de secuencias; el modelo ha construido internamente un manifold curvo que mapea con precisión matemática la historia evolutiva de la vida en la Tierra.

🛡️ Arquitectura del Manifold Filogenético

El estudio revela que el modelo no organiza la información de forma lineal, sino a través de una estructura geométrica compleja:

Estructura Híbrida: El manifold presenta un patrón de “estructura plana + ondulaciones”, donde una representación de baja dimensión (espacio filogenético) se ve superpuesta por desviaciones de alta curvatura.
Correlación Lineal de Geodésicas: Las distancias geodésicas (los caminos más cortos a través de la superficie curva del manifold) en las activaciones internas del modelo están linealmente correlacionadas con las distancias filogenéticas reales del Genome Taxonomy Database (GTDB).
Complejidad Dimensional: A diferencia de los manifolds cíclicos o helicoidales encontrados en LLMs estándar (para calendarios o números), este es uno de los manifolds naturales más complejos identificados hasta la fecha en IA.

💻 Metodología de Extracción y Probing

Para validar que el modelo entiende la “filogenia” y no solo la “similitud de secuencias”, el equipo de investigación implementó un rigor técnico excepcional:

Desacoplamiento de Similitud: Se muestrearon regiones genómicas aleatorias de 4000 bp por especie, asegurando que los embeddings reflejaran representaciones a nivel de genoma completo que persisten incluso cuando las secuencias locales varían.
Extracción de Activaciones: El análisis se centró en la capa 24 de Evo 2, promediando activaciones sobre los últimos 2000 bp para generar “embeddings promedio por especie”.
Aprendizaje de Métricas: Se entrenó una transformación hacia un subespacio de 10 dimensiones utilizando funciones de pérdida diseñadas para minimizar la disparidad entre la similitud del coseno y la distancia filogenética real.

🚀 Avances en Interpretabilidad y Steering

Este descubrimiento tiene implicaciones profundas para la ingeniería de modelos científicos:

Control de Inferencia (Steering): Dado que el ADN no es legible para humanos, “promptear” modelos científicos es un desafío. Identificar estos manifolds proporciona “perillas” (knobs) interpretables para editar o dirigir el comportamiento del modelo durante la inferencia.
Limitaciones de los SAEs: Los hallazgos sugieren que los Sparse Autoencoders (SAEs) actuales, que buscan características lineales, podrían ser insuficientes para capturar la verdadera riqueza de los modelos científicos, impulsando la necesidad de técnicas de aprendizaje de manifolds no supervisadas.
Ontologías Naturales: Este enfoque establece un “libro de jugadas” (playbook) para extraer la comprensión interna de un modelo sobre dominios científicos complejos, desde funciones genéticas hasta rutas moleculares.