Cómo funciona

La mecánica: captura de audio dual, transcripción en tiempo real, latencia y generación de sugerencias.

Este clúster es para personas que quieren entender la canalización antes de confiarle su entrevista. Razonable.

De extremo a extremo, una sugerencia de respuesta atraviesa cuatro pasos: captura, transcripción, generación, renderizado. La captura es nativa del SO — ScreenCaptureKit (macOS) o WASAPI (Windows) — extrayendo audio del sistema al nivel del SO para que la IA oiga al entrevistador igual que tus altavoces. El micrófono se captura por separado para que la IA también tenga tu audio como contexto y para la transcripción post-entrevista. La transcripción es conversión de voz a texto en tiempo real. La generación pasa la pregunta más tu currículum, la descripción del puesto y el historial de conversación hasta ese momento a GPT-4o, con un prompt de sistema que limita la salida a una longitud apropiada para una entrevista. El renderizado transmite la respuesta en una ventana flotante superpuesta que existe fuera de la ventana de la app de videoconferencia — puedes arrastrarla donde quieras, incluido fuera del área de pantalla compartida.

El presupuesto de latencia de extremo a extremo para el primer token es sub-400 milliseconds. Pasado ese punto, tu mirada se aleja de la cámara mientras lees la respuesta, lo cual anula el propósito. Las respuestas siguientes cubren cada etapa en detalle, qué pasa cuando se excede el presupuesto, y las decisiones que tomamos. (Para el contexto más profundo del por qué lo construimos, ver la carta del fundador.)

← Todos los temas