Cómo los asistentes de entrevistas con IA capturan el audio del sistema en iOS y por qué la mayoría no puede hacerlo

Por Aaron Cao · Actualizado el

En iOS, la mayoría no puede hacerlo de la misma forma que los asistentes de escritorio. iOS da a cada aplicación una sesión de audio en sandbox y no existe una API pública para leer el audio de otra aplicación en tiempo real. Los asistentes que necesitan el audio de las llamadas funcionan en macOS o Windows en su lugar.

Por qué iOS es arquitectónicamente diferente del escritorio

Un asistente de entrevistas de escritorio funciona porque los sistemas operativos de escritorio exponen el audio que está reproduciendo otra aplicación. En macOS esa puerta es ScreenCaptureKit, la misma familia de permisos que impulsa la grabación de pantalla; en Windows es el bucle WASAPI, que permite a un proceso leer la mezcla de salida del sistema. La captura de audio dual de SubcueAI está construida directamente sobre esas dos API.

iOS no tiene un equivalente público. Cada aplicación se ejecuta en un sandbox con su propia sesión de audio, y el sistema no ofrece a las aplicaciones de terceros un canal de bucle hacia la mezcla ni hacia la sesión de otra aplicación. Una llamada de Zoom en un iPhone es audible para Zoom y para el altavoz, no para una aplicación diferente instalada en el mismo teléfono. Esta es una decisión deliberada de la plataforma y se ha mantenido a través de las versiones de iOS.

La consecuencia es contundente: la arquitectura del asistente de escritorio — capturar el audio del sistema, transcribirlo en tiempo real, mostrar sugerencias — no puede portarse a iOS tal como está. Cualquier producto que afirme lo contrario está haciendo algo materialmente diferente bajo el capó, y es razonable preguntar a los proveedores exactamente qué API utilizan.

Las alternativas que existen y lo que cada una cuesta

Si tu entrevista tiene que realizarse en un iPhone, tienes razón en sentir que las opciones son escasas, y es útil saber con precisión lo que cada alternativa puede y no puede hacer. Existen tres patrones en circulación, y cada uno sacrifica algo importante.

  • Transmisiones de ReplayKit. iOS puede grabar la pantalla con el audio de la aplicación a través de una transmisión iniciada por el usuario, pero el flujo se ejecuta dentro de una extensión de transmisión muy restringida. Está diseñada para transmitir una pantalla a servicios, no para alimentar a una segunda aplicación que analiza el audio de llamadas y responde en tiempo real.
  • Altavoz más un segundo dispositivo. Pon la llamada en altavoz y deja que el micrófono de un portátil escuche acústicamente. Esto funciona con cualquier asistente, incluido el canal de micrófono de SubcueAI, pero el eco de la sala y la diafonía reducen la precisión de la transcripción, y el entrevistador te escucha con el sonido del altavoz.
  • Integraciones del lado del empleador. Algunas plataformas de entrevistas transcriben las llamadas del lado del servidor para la empresa. Esa es la herramienta del empleador en su infraestructura; no hace nada por el lado del candidato.

Ninguna de estas opciones reproduce la experiencia de escritorio. El resumen honesto es que una entrevista solo por teléfono deja la asistencia en tiempo real fuera del alcance, y la preparación previa lleva el peso; una sesión de entrevista simulada la noche anterior hace más por una entrevista telefónica que cualquier alternativa durante ella.

Lo que SubcueAI hace en lugar de una aplicación iOS

SubcueAI ofrece aplicaciones de escritorio nativas para macOS 14 y versiones posteriores y Windows 10 y versiones posteriores, y deliberadamente no ofrece una aplicación iOS. Aaron Cao, fundador de SubcueAI, ha sido directo sobre el razonamiento: una aplicación de iPhone no podría realizar la función principal del producto de manera honesta, y publicar un asistente degradado que finja lo contrario intercambiaría la confianza del usuario por una ficha en la App Store.

La recomendación práctica se desprende de la arquitectura. Realiza entrevistas de vídeo en un ordenador siempre que exista la opción; los reclutadores casi siempre ofrecen un enlace de conexión de escritorio para las llamadas de Zoom, Google Meet y Microsoft Teams. En el escritorio, el asistente escucha la llamada a través del sistema operativo en lugar de a través del aire, y el tutorial de configuración guía los permisos para ambas plataformas en pocos minutos.

Para las partes de la preparación de la entrevista que se adaptan a un navegador, incluida la entrevista simulada con IA, un teléfono o una tableta funcionan bien, porque la práctica no requiere capturar el audio de otra aplicación. Los detalles de arquitectura detrás del camino de captura de escritorio están recopilados en las respuestas sobre el funcionamiento.

FAQ

¿Existe una versión iOS de SubcueAI?

No. SubcueAI ofrece únicamente aplicaciones de escritorio para macOS y Windows. iOS no expone las API de audio del sistema sobre las que está construido el producto, y deliberadamente no se ha publicado una aproximación degradada.

¿Puede alguna aplicación transcribir una llamada de Zoom en mi iPhone?

No leyendo el audio de la llamada directamente; el sandbox de iOS evita que una aplicación consuma la sesión de audio de otra aplicación. Las aplicaciones que afirman la transcripción de llamadas en vivo en iPhone dependen de la captura acústica a través del micrófono o de integraciones del lado del servidor controladas por el anfitrión de la reunión.

¿Podría ReplayKit alimentar a un asistente de entrevistas en tiempo real?

ReplayKit está diseñado para transmisiones de pantalla iniciadas por el usuario en un proceso de extensión restringido. No es una canalización práctica en tiempo real para que una segunda aplicación analice el audio de la llamada y devuelva sugerencias durante una entrevista.

¿Qué debo hacer si mi entrevista solo puede realizarse en mi teléfono?

Prepárate con antelación en lugar de depender de la ayuda en vivo: realiza sesiones de entrevista simulada, prepara tus historias y toma notas en papel. Si existe alguna flexibilidad, pide al reclutador un enlace de conexión de escritorio; casi todas las entrevistas de Zoom, Google Meet y Microsoft Teams ofrecen uno.

Preguntas relacionadas

← Más sobre Cómo funciona