Cum funcționează

Mecanica: captură audio dublă, transcriere în timp real, latență și cum se generează sugestiile.

Acest cluster este pentru cei care vor să înțeleagă pipeline-ul înainte de a-și încredința interviul. Rezonabil.

De la cap la coadă, o sugestie de răspuns trece prin patru pași: captură, transcriere, generare, randare. Captura este nativă OS — ScreenCaptureKit (macOS) sau WASAPI (Windows) — trage audio-ul de sistem la nivel OS astfel încât AI-ul să audă intervievatorul pe aceeași cale ca difuzoarele tale. Microfonul este capturat separat astfel încât AI-ul să aibă și audio-ul tău ca context și pentru transcriptul post-interviu. Transcrierea este conversie speech-to-text în timp real. Generarea trece întrebarea împreună cu CV-ul tău, descrierea jobului și istoricul conversației de până acum către GPT-4o, cu un system prompt care limitează ieșirea la o lungime potrivită pentru interviu. Randarea transmite răspunsul într-o fereastră overlay plutitoare care există în afara ferestrei aplicației de conferință — o poți trage oriunde, inclusiv în afara zonei de partajare ecran.

Bugetul de latență cap-la-cap pentru primul token este sub-400 milliseconds. Dincolo de acel punct, ochii tăi se rotesc de la cameră în timp ce citești răspunsul, ceea ce înfrânge scopul. Răspunsurile de mai jos acoperă fiecare etapă în detaliu, ce se întâmplă când bugetul este depășit și compromisurile pe care le-am ales. (Pentru contextul mai profund „de ce l-am construit", vezi scrisoarea fondatorului.)

← Toate temele