Fonctionnement

Les mécanismes : double capture audio, transcription en temps réel, latence et génération des suggestions.

Ce cluster s'adresse aux personnes qui veulent comprendre le pipeline avant de confier leur entretien à l'outil. Raisonnable.

De bout en bout, une suggestion de réponse passe par quatre étapes : capture, transcription, génération, rendu. La capture est native au système d'exploitation — ScreenCaptureKit (macOS) ou WASAPI (Windows) — tirant l'audio système au niveau OS pour que l'IA entende l'intervieweur de la même manière que vos haut-parleurs. Le microphone est capturé séparément pour que l'IA dispose aussi de votre audio pour le contexte et pour la transcription post-entretien. La transcription est de la conversion parole-texte en temps réel. La génération transmet la question plus votre CV, la description du poste et l'historique de la conversation jusqu'ici à GPT-4o, avec un prompt système qui contraint la sortie à une longueur adaptée à l'entretien. Le rendu diffuse la réponse dans une fenêtre de superposition flottante qui existe en dehors de la fenêtre de l'application de visioconférence — vous pouvez la déplacer où vous voulez, y compris hors de la zone de partage d'écran.

Le budget de latence du premier token de bout en bout est sub-400 milliseconds. Au-delà, votre regard quitte la caméra pendant que vous lisez la réponse, ce qui annule l'intérêt. Les réponses ci-dessous couvrent chaque étape en détail, ce qui se passe quand le budget est dépassé, et les arbitrages que nous avons choisis. (Pour le contexte plus profond du pourquoi-on-l'a-construit, voir la lettre du fondateur.)

← Tous les thèmes