FILTER_TAG:
IMG_REF
PaperBanana // Automating Academic Illustration for AI Scientists

PaperBanana: Automatización de Figuras Académicas Nivel NeurIPS

PaperBanana es una implementación de código abierto basada en el paper de Google Research “PaperBanana: Automating Academic Illustration for AI Scientists”. Su objetivo es resolver uno de los mayores cuellos de botella en la escritura científica: la creación de diagramas metodológicos y figuras de alta fidelidad técnica.

🚀 Arquitectura Multi-Agente

El sistema orquestal utiliza hasta 7 agentes especializados que trabajan de forma iterativa para refinar la intención visual del investigador:

  • Optimizer: Estructura descripciones textuales crudas en conceptos visuales lógicos.
  • Retriever: Consulta un dataset curado de 13 diagramas de referencia de conferencias top (NeurIPS/ICML) para guiar el estilo.
  • Planner & Stylist: Definen la disposición espacial, la paleta de colores y la tipografía siguiendo estándares académicos.
  • Visualizer: Ejecuta la generación de la imagen mediante modelos de frontera como DALL-E 3 o Google Imagen.
  • Critic (VLM-as-a-Judge): Evalúa la imagen generada comparándola con el texto original para identificar errores en flujos, flechas o etiquetas.

🛠️ Implementación y Stack Tecnológico

  • Lenguaje: Python 3.10+ con validación robusta vía Pydantic v2.
  • Compatibilidad VLM: Soporte nativo para GPT-5.2, Gemini 2.0 Flash/3 Pro y Azure OpenAI.
  • Interfaz: CLI potente basada en Typer y soporte para MCP (Model Context Protocol), lo que permite integrarlo como herramienta en Claude Code o Cursor.
  • Métricas de Calidad: Sistema de puntuación automatizado basado en cuatro pilares: Fidelidad, Legibilidad, Concisión y Estética.

⚙️ Flujo de Trabajo (Workflow)

  1. Enriquecimiento de Contexto: Se transforma la metodología del paper en componentes y agrupaciones lógicas.
  2. Planificación Estética: El Stylist aplica reglas de diseño profesional para asegurar que la figura “parezca” de un paper de IA de élite.
  3. Bucle de Refinamiento Automático: El Visualizer genera una propuesta, el Critic detecta discrepancias y solicita una corrección. Este ciclo se repite (por defecto 3 veces o en modo --auto) hasta que el resultado es óptimo.

🔑 Casos de Uso

  • Diagramas de Arquitectura de Redes: Visualización clara de capas, flujos de datos y conexiones.
  • Grafos Metodológicos: Representación de pipelines de entrenamiento y evaluación.
  • Figuras Comparativas: Creación de visualizaciones complejas que comparan múltiples enfoques técnicos de forma estética.

Nota técnica: PaperBanana demuestra que el diseño visual en la ciencia ya no es una tarea puramente manual, sino un proceso de orquestación donde la IA actúa como el director de arte técnico.