IMG_REF
sift-kg: De Montañas de Documentos a Grafos de Conocimiento Interactivos
sift-kg es una potente herramienta de línea de comandos (CLI) diseñada para democratizar la creación de Grafos de Conocimiento (KG) a partir de colecciones heterogéneas de documentos. Su enfoque modular permite transformar archivos PDF, DOCX, imágenes y más de 75 formatos en estructuras relacionales navegables, manteniendo siempre el control humano y la trazabilidad de los datos.
🔬 Arquitectura Técnica y Pipeline de Procesamiento
- Ingesta Multiformato y OCR Dinámico: Utiliza el motor Kreuzberg para el procesamiento de texto. Si detecta documentos escaneados, activa automáticamente motores de OCR locales (Tesseract, EasyOCR) o en la nube (Google Cloud Vision).
- Orquestación de LLMs Agnóstica: Gracias a la integración con LiteLLM,
sift-kgpuede operar con cualquier proveedor (OpenAI, Anthropic, Mistral) o ejecutarse de forma 100% local mediante Ollama, garantizando la privacidad de los datos sensibles. - Descubrimiento de Esquema Dinámico: Antes de la extracción masiva, el sistema realiza un muestreo de los documentos para que el LLM proponga un esquema de entidades y relaciones específico para el corpus analizado, optimizando la relevancia del grafo final.
- Resolución de Entidades y Deduplicación: Implementa un sistema de tres capas:
- Normalización Determinista: Limpieza de Unicode y títulos.
- Clustering Semántico: Uso de Sentence-Transformers y Scikit-learn para agrupar entidades similares por significado.
- Validación Humana (Human-in-the-loop): El usuario aprueba o rechaza las fusiones propuestas por el LLM a través de una interfaz CLI o archivos YAML.
🛠️ Tecnologías y Estándares Core
- Procesamiento de Grafos: NetworkX para la construcción y algoritmos de detección de comunidades (Louvain).
- Visualización: Genera interfaces web estáticas basadas en JavaScript con visualización de fuerza dirigida, permitiendo compartir el conocimiento sin necesidad de servidores pesados.
- Interoperabilidad: Capacidad de exportación a formatos estándar como GraphML (para Gephi/Cytoscape), SQLite, CSV y JSON.
🚀 Casos de Uso e Impacto
- Investigación y Periodismo: Análisis de filtraciones (leaks) y expedientes judiciales complejos donde las relaciones entre actores son clave.
- Inteligencia de Negocios: Mapeo de mercados y competidores a partir de informes anuales y noticias.
- Trazabilidad Científica: Cada nodo del grafo permite saltar directamente al párrafo original del documento fuente, eliminando las alucinaciones y garantizando la verificabilidad total.