工作原理

机制：双路音频采集、实时语音转写、延迟，以及答案建议如何生成。

这一簇是给那些"想先弄懂管线再决定要不要把面试托付给它"的人看的。合理。

端到端来看，一次答案建议要经过四步：捕获、转写、生成、渲染。捕获走 OS 原生——macOS 用 ScreenCaptureKit、Windows 用 WASAPI——在 OS 层抽取系统音频，让 AI 听到面试官的声音的方式和你的扬声器一样。麦克风单独捕获，让 AI 也能拿到你的音频作为上下文以及面试后的转写记录。转写是实时语音转文字。生成阶段把问题加上你的简历、岗位描述、当前对话历史一起送给 GPT-4o，配一个系统提示词把输出限制在适合面试的篇幅。渲染阶段把答案流式写进一个悬浮窗——这个窗口存在于会议 App 的窗口之外，你可以随便拖动，包括拖出屏幕共享区域。

端到端首 token 延迟预算是 sub-400 milliseconds。超过这一点，你读答案时眼神就会离镜，整件事就失去意义。下面的解答覆盖每一阶段的细节、超预算时发生什么、以及我们做过的取舍。（想看更深层的"为什么做"语境，看创始人信。）

← 全部解答主题