DAAF: El Exoesqueleto para la Investigación de Datos Asistida por IA
DAAF (Data Analyst Augmentation Framework) es un entorno de trabajo de código abierto diseñado para potenciar las capacidades de investigadores y analistas de datos cuantitativos. A diferencia de las herramientas que buscan automatización total “caja negra”, DAAF se posiciona como un sistema Human-in-the-Loop que prioriza el rigor, la transparencia y la reproducibilidad.
🚀 Visión y Propósito Estratégico
El objetivo central de DAAF es acelerar el ciclo de análisis de datos complejo (estimado entre 5 y 10 veces más rápido) permitiendo que la IA maneje las tareas intensivas en código (limpieza, armonización, visualización básica) mientras el humano se enfoca en la interpretación de alto nivel y la toma de decisiones metodológicas.
🛠️ Arquitectura y Stack Tecnológico
- Lenguaje de Núcleo: Python (98.7% del código base).
- Plataforma de IA: Optimizado para Claude Code de Anthropic, aunque su arquitectura es compatible con otros agentes de CLI avanzados.
- Gestión de Datos: Integración profunda con el Urban Institute Education Data Portal (acceso a 40+ datasets federales armonizados).
- Entorno de Ejecución: Soporte para Docker, garantizando que el código generado se ejecute en entornos aislados y consistentes.
- Herramientas de Auditoría: Utiliza Marimo para generar notebooks interactivos que permiten la inspección visual inmediata de los datos intermedios.
🔑 Características Diferenciales
- Transparencia de “Archivo Primero”: El framework obliga a la IA a escribir scripts de Python ejecutables para cada paso del análisis antes de mostrar cualquier resultado. No hay “razonamiento oculto”; todo es código auditable.
- Protocolo Adversarial de QA: Incluye una capa donde una instancia de IA actúa como revisor crítico de otra, detectando errores lógicos, sesgos o “AI slop” antes de que el usuario vea la salida.
- Reproducibilidad Nativa: Genera automáticamente un pipeline completo que incluye el código fuente, los logs de pensamiento del agente y los cuadernos de validación.
- Sistema de Skills Extensible: Permite integrar nuevas metodologías estadísticas o fuentes de datos mediante archivos de configuración simples, adaptándose a diversos dominios científicos.
⚙️ Flujo de Trabajo (Workflow)
El proceso de DAAF sigue un ciclo de vida de investigación estructurado:
- Planificación: Exploración de esquemas de datos y propuesta de un plan de análisis detallado.
- Ejecución Iterativa: Un agente escribe el código mientras otro realiza el control de calidad (QA). El código se valida contra los datos reales en tiempo real.
- Intervención Crítica: El sistema solicita la validación humana en decisiones metodológicas clave (ej. manejo de valores faltantes o criterios de exclusión).
- Cierre de Proyecto: Entrega de informes finales en Markdown, visualizaciones dinámicas y un documento de “Lecciones Aprendidas” para optimizar futuras sesiones.
Nota técnica: DAAF representa la evolución de los agentes de IA desde simples generadores de código hacia colaboradores de investigación integrales que respetan los estándares de la ciencia abierta.