StenoAI: Gestión de Reuniones con Privacidad Radical
StenoAI es una solución de inteligencia artificial diseñada para la transcripción y el resumen de reuniones que prioriza la privacidad del usuario por encima de todo. A diferencia de las herramientas tradicionales basadas en la nube, StenoAI ejecuta todos sus procesos de forma 100% local, garantizando que los datos confidenciales nunca abandonen el dispositivo.
🚀 Arquitectura y Stack Tecnológico
El proyecto utiliza una combinación de herramientas de código abierto de vanguardia para ofrecer un rendimiento de nivel empresarial sin sacrificar la soberanía de los datos:
- Interfaz de Usuario: Desarrollada con Electron, proporcionando una experiencia de escritorio fluida y multiplataforma.
- Motor de Transcripción: Basado en whisper.cpp, optimizado para la conversión de voz a texto de alto rendimiento en CPUs locales.
- Inferencia de LLM: Integración nativa con Ollama para ejecutar modelos de lenguaje pequeños (SLMs) como Llama 3.2 (3B), Gemma 3 (4B), Qwen 3 (8B) y DeepSeek-R1 (8B).
- Backend: Implementado en Python, orquestando el flujo de datos entre el audio, la transcripción y el análisis semántico.
- Gestión de Audio: Utiliza ffmpeg para capturar flujos de sonido complejos, permitiendo la grabación simultánea de micrófonos y audio del sistema (ideal para llamadas con auriculares).
🛠️ Características Principales
- Transcripción en Tiempo Real: Genera textos precisos de las conversaciones sin necesidad de conexión a Internet.
- Resúmenes Inteligentes: Capacidad para sintetizar puntos clave y generar listas de acciones (action items) automáticamente.
- Ask Steno: Un asistente de chat integrado que permite al usuario interrogar a sus propias reuniones mediante lenguaje natural.
- Integración de Calendario: Sincronización con Google Calendar y Outlook para nombrar y organizar automáticamente las sesiones de grabación.
- Captura Híbrida de Audio: Soporte para grabar tanto el audio del sistema como el micrófono físico, esencial para capturar ambos lados de una videollamada.
🔑 Beneficios Estratégicos
- Soberanía de Datos: Ideal para sectores altamente regulados como el legal, el financiero y el de salud, donde el cumplimiento normativo prohíbe el uso de servicios de IA en la nube.
- Cero Latencia de Red: Al procesar todo localmente, no hay retrasos por subida de archivos pesados.
- Ahorro de Costes: Elimina las suscripciones recurrentes de servicios de transcripción basados en SaaS al utilizar el hardware existente del usuario.
💻 Flujo de Trabajo Técnico
- Captura: El audio se intercepta y se procesa mediante
ffmpeg. - Transcripción:
whisper.cppconvierte el flujo de audio en texto estructurado. - Análisis: Los fragmentos de texto se envían al servidor local de
Ollama, donde el modelo seleccionado genera resúmenes o responde consultas del usuario a través de la interfaz de Electron.
Nota técnica: StenoAI representa la vanguardia de la “IA en el borde” (Edge AI), demostrando que la productividad asistida por modelos de lenguaje es perfectamente viable sin comprometer la privacidad del usuario.