¿Puede un asistente de entrevistas con IA transcribir tanto al entrevistador como al candidato?

Por Aaron Cao · Actualizado el 2026-06-02

Sí. Al capturar el audio del sistema (la voz del entrevistador desde tus altavoces) y tu micrófono al mismo tiempo, un asistente de entrevistas con IA puede transcribir ambos lados de la conversación en tiempo real. SubcueAI hace esto con captura de audio dual nativa: no se necesita ningún bot de reunión.

Por qué transcribir ambos lados requiere dos fuentes de audio

Si alguna vez has intentado grabar una entrevista con un solo micrófono, ya conoces el problema: tu propia voz es alta y clara, pero el entrevistador — que llega a través de tus altavoces o auriculares — es tenue, con eco o se pierde por completo. Transcribir ambos lados con claridad requiere dos fuentes de audio separadas.

Un asistente de entrevistas con IA resuelve esto capturando dos flujos a la vez: audio del sistema (todo lo que reproduce tu ordenador, incluida la voz del entrevistador en Zoom, Google Meet o Microsoft Teams) y tu micrófono (tus propias respuestas). Cada flujo se transcribe de forma independiente, de modo que las palabras se atribuyen al hablante correcto en lugar de mezclarse en una única pista confusa.

Cómo SubcueAI captura tanto al entrevistador como a ti

SubcueAI se ejecuta como una aplicación de escritorio nativa en macOS y Windows — no es un complemento de navegador ni un bot que se une a la reunión. En macOS accede al audio del sistema a través de las API de captura de audio del sistema operativo; en Windows utiliza el dispositivo de bucle de retorno del sistema. Tu micrófono se captura en paralelo a través del dispositivo de entrada normal.

Imagina a un ingeniero de backend entrevistándose para un puesto sénior por Zoom: las preguntas del director de contratación llegan como audio del sistema, las respuestas habladas del candidato llegan como audio del micrófono, y SubcueAI transcribe cada una en tiempo real. Como los dos flujos permanecen separados, la transcripción se lee como un intercambio etiquetado en lugar de un bloque indiferenciado.

La captura ocurre completamente en tu máquina, y la superposición flotante que muestra la transcripción es local en tu escritorio. Un breve tutorial de configuración cubre la instalación.

Separación de hablantes, latencia y precisión

Mantener al entrevistador y al candidato en canales separados hace más que ordenar la transcripción: permite al asistente decidir en qué turno actuar. Una pregunta en el canal del entrevistador es a lo que debe responder una sugerencia de respuesta; tu propio canal es contexto, no un nuevo prompt.

El etiquetado de hablantes se obtiene de forma natural del diseño de dos fuentes, ya que cada flujo tiene un propietario conocido.
La latencia depende de la ruta de texto a voz; la transcripción en streaming devuelve texto parcial mientras la persona aún está hablando.
La precisión es mejor con una señal de audio del sistema limpia: un buen auricular y una habitación tranquila ayudan a ambos canales.

Para ver la ruta completa de captura a sugerencia, consulta el centro cómo funciona.

Dónde no se aplica la transcripción dual

La transcripción de dos lados asume que el audio llega realmente a los dispositivos de salida y entrada de tu ordenador. No cubre todas las situaciones, y es honesto decirlo:

En un dispositivo gestionado por la empresa que no controlas, puede que ni siquiera puedas instalar una aplicación de escritorio.
Los entornos vigilados y el software de supervisión remota pueden restringir las aplicaciones en segundo plano o la actividad de pantalla.
Si una sesión está grabada en pantalla del otro lado, esa grabación es independiente de lo que haga tu asistente localmente.
Las rondas presenciales, donde el audio nunca pasa por tu ordenador, quedan fuera del alcance de la captura de audio del sistema.

SubcueAI está diseñado para tus propias entrevistas remotas en tu propia máquina; sus límites están cubiertos en el centro de detectabilidad.

FAQ

¿También se transcribe la voz del entrevistador, o solo la mía?

Ambas. La voz del entrevistador se captura como audio del sistema (lo que reproduce tu ordenador) y la tuya como audio del micrófono, por lo que la transcripción muestra ambos lados de la conversación.

¿Necesito un bot de reunión o una extensión del navegador para esto?

No. SubcueAI es una aplicación de escritorio nativa que captura el audio del sistema y del micrófono localmente: nada se une a la llamada y no hay complemento de navegador.

¿Puede identificar quién dijo qué?

Sí. Dado que el entrevistador y el candidato llegan en dos flujos de audio separados, cada línea transcrita ya tiene un propietario conocido, por lo que el etiquetado de hablantes está integrado.

¿Funciona con Zoom, Google Meet y Microsoft Teams?

Sí. La captura de audio del sistema es independiente de la plataforma de reuniones, por lo que la voz del entrevistador se transcribe tanto si la llamada se realiza en Zoom, Google Meet o Microsoft Teams.

¿Transcribirá ambos lados de una entrevista presencial?

No. La captura de audio del sistema solo funciona cuando el audio pasa por tu ordenador. Las rondas presenciales, en las que no estás en una llamada, quedan fuera del alcance.

Preguntas relacionadas

← Más sobre Cómo funciona