Paano Gumagana

Ang mekanismo: dual audio capture, real-time speech-to-text, latency, at paano nabubuo ang mga suhestiyon.

Ang cluster na ito ay para sa mga taong gustong maintindihan ang pipeline bago ipagkatiwala ang interview nila dito. Makatuwiran.

End-to-end, dumadaan ang isang answer suggestion sa apat na hakbang: capture, transcribe, generate, render. OS-native ang capture — ScreenCaptureKit (macOS) o WASAPI (Windows) — kinukuha ang system audio sa OS level para naririnig ng AI ang interviewer sa parehong daan ng mga speaker mo. Hiwalay na kinukuha ang microphone para mayroon ding audio mo ang AI para sa konteksto at sa post-interview transcript. Real-time speech-to-text ang transcription. Ipinapasa ng generation ang tanong kasama ang resume mo, ang job description, at ang kasaysayan ng usapan hanggang ngayon sa GPT-4o, na may system prompt na nililimitahan ang output sa haba na angkop sa interview. Ina-stream ng rendering ang sagot sa floating overlay window na nasa labas ng window ng conferencing app — pwede mo itong i-drag kahit saan, kasama sa labas ng screen-share area.

Ang end-to-end first-token latency budget ay sub-400 milliseconds. Lampas doon, lumilihis ang tingin mo sa kamera habang binabasa mo ang sagot, na talo ang pakay. Sinasaklaw ng mga sagot sa ibaba ang bawat yugto sa detalye, anong nangyayari kapag lampas sa budget, at ang mga trade-off na pinili namin. (Para sa mas malalim na konteksto kung bakit-namin-ginawa, tingnan ang founder letter.)

← Lahat ng paksa