🎙Streaming en tiempo realLa transcripción aparece en el panel del agente mientras la llamada sigue activa, con latencia inferior a 2 segundos. Permite asistencia en vivo, sugerencias de KB y supervisión simultánea sin esperar al cuelgue.
🎧Audio estéreo + diarizaciónCapturamos canal de agente y canal de cliente por separado en la propia centralita. La diarización es nativa, no se aproxima por VAD ni requiere post-proceso con pyannote: sabemos exactamente quién dice cada frase.
🌍8 idiomas con auto-detectEspañol, inglés, catalán, francés, portugués, alemán, italiano y euskera. Detección automática del idioma por turno: si el cliente cambia a inglés a mitad de llamada, el modelo se adapta sin reconfiguración manual.
📝Resumen automáticoTras cada llamada se genera un resumen estructurado (motivo, acuerdos, próximos pasos) listo para pegar en el ticket o en la nota del CRM. Reemplaza el "post-call wrap-up" manual del agente y reduce el AHT.
🏷Extracción de entidades (NER)Identificamos automáticamente nombres, empresas, fechas, importes, productos, números de teléfono, emails y referencias. Las entidades se enlazan al CRM como campos estructurados, no como texto libre.
📊Análisis de sentimientoScore por turno y agregado de la llamada, con polaridad (positivo / neutro / negativo) e intensidad. Permite alertar en vivo cuando el sentimiento cae y reemplaza encuestas CSAT por una señal continua y objetiva.
🎯Detección de intentClasificamos cada llamada por intención del cliente: interés de compra, reclamación, baja, consulta técnica, soporte facturación. Útil para enrutar automáticamente, priorizar hot leads y segmentar reportes.
🗂Topics y categoríasTopic modeling automático sobre el conjunto de llamadas: descubres por qué llaman tus clientes esta semana sin haber definido las categorías a priori. Ideal para detectar incidencias emergentes o picos de un producto.
🔗Volcado automático al CRMAl colgar, transcripción, resumen, entidades y sentimiento se escriben en el record del CRM (Salesforce, HubSpot, Zoho, Dynamics, Pipedrive, Bitrix24, Odoo) vía API nativa o MCP. Sin macros ni copy-paste del agente.
📈¿Qué precisión real (WER) tiene?En español neutro y audio limpio, WER en torno al 5-8%. Sube al 10-14% con ruido de fondo, argot técnico fuerte o solapes. Por eso entrenamos modelos específicos de telco (números, marcas, terminología comercial) y damos la opción de ajustar diccionarios por cuenta.
🌐¿Qué idiomas están soportados?Español, inglés, catalán, francés, portugués, alemán, italiano y euskera. Mejor calidad en español y catalán (modelos especializados). Auto-detect funciona bien si los idiomas posibles están preconfigurados; no recomendamos dejar abierto a los 8 si tu operación sólo usa 2.
🆚¿Por qué no usar Whisper u OpenAI?Tres razones: 1) Whisper API y Google Speech-to-Text envían audio a infraestructura USA, lo que complica RGPD para muchos clientes. 2) Whisper no hace diarización: hay que post-procesar con pyannote, lo que añade coste y latencia. 3) Latencia Whisper API en streaming supera 5 segundos; nuestro pipeline va por debajo de 2.
⚡¿Cuál es la latencia real?Menos de 2 segundos del habla del cliente al texto en pantalla del agente, medido sobre WebRTC en streaming. El resumen y el análisis post-llamada se entregan en el CRM en torno a 5-15 segundos tras colgar, dependiendo de la duración de la llamada.
⚖¿Cómo se cumple con RGPD?Aviso legal automático al inicio de la llamada (configurable por idioma) con registro del consentimiento. Procesamiento 100% en infraestructura España (ENS Alto, ISO 27001). Plazos de retención configurables y borrado automático. Derecho de supresión por contacto operable en menos de 30 días.
💶¿Cómo se factura?Tarifa por minuto transcrito + cuota mensual por extensión activa. El análisis post-llamada (resumen, NER, sentimiento, intent) está incluido sin coste adicional por llamada. Pedimos volumen estimado en la demo para cerrar precio fijo en lugar de cobrar por uso variable.