Come funziona

I meccanismi: doppia acquisizione audio, trascrizione in tempo reale, latenza e come nascono i suggerimenti.

Questo cluster è per chi vuole capire la pipeline prima di affidarle il proprio colloquio. Ragionevole.

End-to-end, un suggerimento di risposta attraversa quattro passi: cattura, trascrizione, generazione, rendering. La cattura è nativa del sistema operativo — ScreenCaptureKit (macOS) o WASAPI (Windows) — tira l'audio di sistema a livello OS in modo che l'IA senta l'intervistatore dalla stessa via dei tuoi altoparlanti. Il microfono è catturato separatamente in modo che l'IA abbia anche il tuo audio come contesto e per la trascrizione post-colloquio. La trascrizione è conversione speech-to-text in tempo reale. La generazione passa la domanda insieme al tuo curriculum, alla descrizione del lavoro e alla cronologia della conversazione fino a quel punto a GPT-4o, con un prompt di sistema che vincola l'output a una lunghezza adatta al colloquio. Il rendering trasmette la risposta a una finestra overlay flottante che esiste fuori dalla finestra dell'app di conferenza — puoi trascinarla ovunque, anche fuori dall'area di condivisione schermo.

Il budget di latenza end-to-end del primo token è sub-400 milliseconds. Oltre quel punto, il tuo sguardo si allontana dalla camera mentre leggi la risposta, vanificando lo scopo. Le risposte sotto coprono ogni fase in dettaglio, cosa succede quando si supera il budget e i compromessi che abbiamo scelto. (Per il contesto più profondo del «perché l'abbiamo costruito», vedi la lettera del fondatore.)

← Tutti gli argomenti