AI 面试助手如何捕获系统音频?
作者 Aaron Cao · 更新于

AI 面试助手通过操作系统的音频 API 在你的电脑本地捕获系统音频——从 Zoom、Google Meet 或 Teams 截取输出流——同时用另一路麦克风流捕获你的声音。没有任何会议机器人加入通话。
在面试场景下,“系统音频”指的是什么
在视频面试中,你的电脑上存在两路截然不同的音频流:
- 麦克风输入——你自己的声音,由麦克风采集。
- 系统音频输出——你的电脑通过扬声器播放的所有内容,包括来自 Zoom、Google Meet 或 Microsoft Teams 的面试官声音。
AI 面试助手需要同时获取两路音频才能跟上对话:面试官的提问(系统音频)和你的回答(麦克风)。只捕获其中一路会产生不完整的转录文本,并削弱建议质量。
系统音频在 macOS 和 Windows 上是如何捕获的
系统音频捕获依赖于操作系统的音频 API,而不是会议应用本身。具体机制因平台而异:
- macOS——较新版本通过 Core Audio 暴露进程和系统音频抽取(audio tap)接口。较早的做法使用虚拟音频设备(loopback 驱动),把系统输出作为输入回环回来。
- Windows——Windows Audio Session API(WASAPI)支持 loopback 捕获,允许应用程序录制所选输出设备正在播放的任何声音。
无论哪种方式,捕获都发生在你设备的本地。助手不需要“进入”Zoom 或 Teams 内部;它在会议应用解码音频进行播放之后再读取。你可以在 SubcueAI homepage 或 tutorial 上了解整体流程的更多信息。
SubcueAI 如何实现双路音频捕获
SubcueAI 是一款面向 macOS 和 Windows 的原生桌面应用。它采用双路音频捕获:一路用于你的麦克风,一路用于来自会议应用的系统音频。两路都会被转录,以便助手能够区分谁说了什么。
- 没有会议机器人作为参与者加入通话。
- 没有浏览器插件或扩展被安装到 Zoom、Google Meet 或 Teams 中。
- 建议显示在你自己屏幕上的本地悬浮覆盖层中。
由于覆盖层是在本地渲染的,它不会成为你发送给面试官的视频流的一部分。关于这背后的设计考量,请参阅 About SubcueAI 或 how it compares to alternatives。
系统音频捕获的诚实边界
系统音频捕获工作在你自己的个人电脑上。它无法改变面试官在以下情形中所能观察到的内容:
- 屏幕共享——如果你共享整个屏幕,任何本地覆盖窗口都会被面试官看到。
- 屏幕录制或在线监考考试——录制工具和监考软件可以捕获覆盖层和正在运行的进程,与音频如何被抽取无关。
- 公司管理或受限设备——IT 策略可能会阻止第三方应用的安装或对音频 API 的访问。
- 仅使用耳机的场景——如果会议应用以操作系统未暴露的方式将音频路由到蓝牙耳机,loopback 捕获可能不稳定。
关于哪些内容可被观察、哪些不可,请参阅 Security。
常见问题
AI 面试助手是否需要一个机器人加入会议才能听到面试官的声音?
不需要。系统音频是通过操作系统级别的音频 API(macOS 上的 Core Audio、Windows 上的 WASAPI loopback)在你的电脑本地捕获的。会议应用本身不需要被修改,也不需要任何机器人作为参与者加入。
Zoom、Google Meet 或 Teams 能否检测到系统音频正在被捕获?
会议应用通常无法察觉到另一个本地应用正在读取系统音频输出,因为这发生在它们的进程之外。但它们可以看到你通过屏幕共享主动分享的任何内容,或被录制、监考工具所捕获的内容。
SubcueAI 需要哪些权限才能捕获音频?
在 macOS 上,需要麦克风访问权限以及近期 macOS 版本引入的系统音频权限。在 Windows 上,需要麦克风访问权限以及在你的输出设备上使用 loopback 捕获的权限。/tutorial 上的教程会引导你完成授权。
双路音频捕获在蓝牙耳机上能正常工作吗?
通常可以,但取决于操作系统如何暴露输出设备。有线耳机和默认系统输出最为可靠。如果音频路由比较特殊,将会议应用的扬声器切换为默认设备通常能解决捕获问题。
捕获到的音频会被上传到某处吗?
SubcueAI 会处理音频以生成实时转录和建议。关于数据处理和留存的细节在 /security 页面有说明;在决定该工具是否适合你的情况之前,请先查阅该页面。