運作原理

機制：雙路音訊擷取、即時語音轉寫、延遲，以及答案建議如何生成。

這一簇是給那些「想先弄懂管線再決定要不要把面試託付給它」的人看的。合理。

端到端來看，一次答案建議要經過四步：擷取、轉寫、生成、渲染。擷取走 OS 原生——macOS 用 ScreenCaptureKit、Windows 用 WASAPI——在 OS 層抽取系統音訊，讓 AI 聽到面試官的聲音的方式和你的喇叭一樣。麥克風單獨擷取，讓 AI 也能拿到你的音訊作為情境以及面試後的轉寫紀錄。轉寫是即時語音轉文字。生成階段把問題加上你的履歷、職務描述、當前對話歷史一起送給 GPT-4o，配一個系統提示詞把輸出限制在適合面試的篇幅。渲染階段把答案串流寫進一個懸浮視窗——這個視窗存在於會議 App 的視窗之外，你可以隨便拖動，包括拖出畫面分享區域。

端到端首 token 延遲預算是 sub-400 milliseconds。超過這一點，你讀答案時眼神就會離鏡，整件事就失去意義。下面的解答覆蓋每一階段的細節、超預算時發生什麼、以及我們做過的取捨。（想看更深層的「為什麼做」語境，看創辦人信。）

← 全部解答主題