FILTER_TAG:
IMG_REF
SIFT-KG // TRANSFORMANDO DOCUMENTOS HETEROGÉNEOS EN GRAFOS DE CONOCIMIENTO

sift-kg: De Montañas de Documentos a Grafos de Conocimiento Interactivos

sift-kg es una potente herramienta de línea de comandos (CLI) diseñada para democratizar la creación de Grafos de Conocimiento (KG) a partir de colecciones heterogéneas de documentos. Su enfoque modular permite transformar archivos PDF, DOCX, imágenes y más de 75 formatos en estructuras relacionales navegables, manteniendo siempre el control humano y la trazabilidad de los datos.

🔬 Arquitectura Técnica y Pipeline de Procesamiento

  1. Ingesta Multiformato y OCR Dinámico: Utiliza el motor Kreuzberg para el procesamiento de texto. Si detecta documentos escaneados, activa automáticamente motores de OCR locales (Tesseract, EasyOCR) o en la nube (Google Cloud Vision).
  2. Orquestación de LLMs Agnóstica: Gracias a la integración con LiteLLM, sift-kg puede operar con cualquier proveedor (OpenAI, Anthropic, Mistral) o ejecutarse de forma 100% local mediante Ollama, garantizando la privacidad de los datos sensibles.
  3. Descubrimiento de Esquema Dinámico: Antes de la extracción masiva, el sistema realiza un muestreo de los documentos para que el LLM proponga un esquema de entidades y relaciones específico para el corpus analizado, optimizando la relevancia del grafo final.
  4. Resolución de Entidades y Deduplicación: Implementa un sistema de tres capas:
    • Normalización Determinista: Limpieza de Unicode y títulos.
    • Clustering Semántico: Uso de Sentence-Transformers y Scikit-learn para agrupar entidades similares por significado.
    • Validación Humana (Human-in-the-loop): El usuario aprueba o rechaza las fusiones propuestas por el LLM a través de una interfaz CLI o archivos YAML.

🛠️ Tecnologías y Estándares Core

  • Procesamiento de Grafos: NetworkX para la construcción y algoritmos de detección de comunidades (Louvain).
  • Visualización: Genera interfaces web estáticas basadas en JavaScript con visualización de fuerza dirigida, permitiendo compartir el conocimiento sin necesidad de servidores pesados.
  • Interoperabilidad: Capacidad de exportación a formatos estándar como GraphML (para Gephi/Cytoscape), SQLite, CSV y JSON.

🚀 Casos de Uso e Impacto

  • Investigación y Periodismo: Análisis de filtraciones (leaks) y expedientes judiciales complejos donde las relaciones entre actores son clave.
  • Inteligencia de Negocios: Mapeo de mercados y competidores a partir de informes anuales y noticias.
  • Trazabilidad Científica: Cada nodo del grafo permite saltar directamente al párrafo original del documento fuente, eliminando las alucinaciones y garantizando la verificabilidad total.