🧠 FormalQualBench: La Nueva Frontera del Razonamiento Matemático
La intersección entre los Large Language Models (LLMs) y los asistentes de prueba formales está alcanzando un punto de madurez crítico. FormalQualBench surge como un “sanity check” necesario para los agentes que aspiran a algo más que resolver problemas de olimpiadas matemáticas, moviendo la portería hacia los exámenes de calificación de posgrado (Graduate Qualifying Exams).
🛡️ Rigor Técnico y Verificación de Núcleo
Lo que diferencia a FormalQualBench de otros benchmarks de razonamiento es su enfoque en la integridad absoluta de la prueba. No basta con que el modelo genere código que “parezca” correcto; se implementan mecanismos de seguridad de bajo nivel:
- Validación del Kernel de Lean: Todas las pruebas deben ser aceptadas por el kernel de Lean 4, garantizando la corrección lógica.
- Detección de Exploits de Metaprogramación: El benchmark utiliza una herramienta llamada Comparator para evitar que los modelos “hagan trampa” inyectando axiomas no autorizados mediante comandos de bajo nivel.
- Aislamiento en Sandboxing: La ejecución se realiza en entornos controlados para prevenir la manipulación de las herramientas de verificación por parte del agente.
💻 Arquitectura del Benchmark y Metodología
El benchmark se compone de 23 teoremas clásicos que requieren una construcción desde cero. A diferencia de otros datasets, aquí no se proporcionan esqueletos de prueba, solo el enunciado verificado:
- Alcance: Teoremas como el de De Bruijn–Erdős, el Principio de Paris-Harrington y el Teorema del Doble Conmutador de Von Neumann.
- Parámetros de Evaluación: Se utiliza $N=1$ (un solo intento) con un límite estricto de 4 horas por problema, eliminando la variabilidad de “fuerza bruta” por muestreo masivo.
- Harneses de Agente: Se evalúan flujos de trabajo basados en Bash puro frente a integraciones profundas mediante MCP (Model Context Protocol).
🚀 Rendimiento de Agentes y Hallazgos Senior
Los resultados actuales muestran una brecha tecnológica significativa. Mientras que los modelos de vanguardia dominan las matemáticas de secundaria, FormalQualBench tiene una tasa de resolución máxima de aproximadamente el 35% (8/23):
- OpenGauss lidera el ranking con 8 problemas resueltos, demostrando que una estrategia híbrida entre Bash y bucles de búsqueda en Lean es superior.
- Claude Code (Skills) y Codex mantienen un rendimiento sólido pero se topan con una pared en teoremas de alta complejidad como el de Green-Tao o la Dualidad de Pontryagin (0% de éxito).
- Eficiencia de MCP: Los agentes que utilizan MCP requieren drásticamente menos llamadas al sistema (bash), optimizando la ventana de contexto y el costo operativo por solución.
📊 Métricas Clave de Ejecución
- Costo promedio por solución: Los agentes más exitosos oscilan entre los $13 y $25 USD por teorema resuelto.
- Tiempo promedio: Aproximadamente 1 hora y 45 minutos para las soluciones más complejas.
- Diversidad de Estrategias: Se ha observado que distintos agentes convergen en estrategias matemáticas radicalmente diferentes para el mismo problema (ej. enfoques filtro-teóricos vs. métricos en análisis).