工作原理

机制:双路音频采集、实时语音转写、延迟,以及答案建议如何生成。

这一簇是给那些"想先弄懂管线再决定要不要把面试托付给它"的人看的。合理。

端到端来看,一次答案建议要经过四步:捕获、转写、生成、渲染。捕获走 OS 原生——macOS 用 ScreenCaptureKit、Windows 用 WASAPI——在 OS 层抽取系统音频,让 AI 听到面试官的声音的方式和你的扬声器一样。麦克风单独捕获,让 AI 也能拿到你的音频作为上下文以及面试后的转写记录。转写是实时语音转文字。生成阶段把问题加上你的简历、岗位描述、当前对话历史一起送给 GPT-4o,配一个系统提示词把输出限制在适合面试的篇幅。渲染阶段把答案流式写进一个悬浮窗——这个窗口存在于会议 App 的窗口之外,你可以随便拖动,包括拖出屏幕共享区域。

端到端首 token 延迟预算是 sub-400 milliseconds。超过这一点,你读答案时眼神就会离镜,整件事就失去意义。下面的解答覆盖每一阶段的细节、超预算时发生什么、以及我们做过的取舍。(想看更深层的"为什么做"语境,看创始人信。)

← 全部解答主题