AI面试助手如何在iOS上捕获系统音频,以及为何大多数情况下无法实现
作者 Aaron Cao · 更新于
在iOS上,助手大多无法像桌面助手那样捕获系统音频。iOS为每个应用提供沙箱化的音频会话,没有公开API可实时读取其他应用的音频。需要通话音频的助手会改用macOS或Windows运行。
为何iOS在架构上与桌面不同
桌面面试助手能够工作,是因为桌面操作系统会暴露其他应用正在播放的音频。在macOS上,这个通道是ScreenCaptureKit,与屏幕录制权限同属一个权限系列;在Windows上则是WASAPI回环,允许进程读取系统输出混音。SubcueAI的双音频捕获功能直接基于这两个API构建。
iOS没有公开的等效机制。每个应用在自己的沙箱中运行,拥有独立的音频会话,系统不向第三方应用提供进入混音或其他应用会话的回环通道。在iPhone上运行的Zoom通话,只有Zoom和扬声器能听到,同一手机上安装的其他应用无法获取。这是平台的刻意设计决策,并在历次iOS版本更新中保持不变。
结果很明确:桌面助手的架构——捕获系统音频、实时转录、给出建议——无法原样移植到iOS。任何声称能做到这一点的产品,在底层实际上做的是截然不同的事情,向供应商询问具体使用了哪个API是合理的。
现有的变通方案,以及各方案的代价
如果你的面试必须在iPhone上进行,你的感受是对的——选择确实有限。准确了解每种变通方案的能力边界会有所帮助。目前流行三种模式,每一种都要牺牲某些重要的东西。
- ReplayKit广播。iOS可以通过用户发起的广播来录制屏幕并携带应用音频,但该流在严格约束的广播扩展内运行。它的用途是将屏幕流式传输到服务,而不是为实时分析通话音频并给出答案的第二个应用提供音频源。
- 扬声器加第二台设备。将通话切换到扬声器模式,让笔记本电脑的麦克风通过声学方式收音。这可以与任何助手配合使用,包括SubcueAI的麦克风通道,但房间回声和串扰会降低转录准确率,面试官也会听到扬声器声效。
- 雇主端集成。部分面试平台会在服务器端为公司转录通话。这是雇主在其基础设施上的工具,对候选人那一侧没有任何帮助。
这些方案都无法复现桌面体验。实话实说:仅限手机的面试让实时辅助变得遥不可及,提前准备才是关键;面试前一晚进行一次模拟面试,对电话面试的帮助远超任何临场变通方案。
SubcueAI以何种方式替代iOS应用
SubcueAI提供适用于macOS 14及更高版本以及Windows 10及更高版本的原生桌面应用,并刻意不提供iOS应用。SubcueAI创始人Aaron Cao对此直言不讳:iPhone应用无法诚实地实现产品的核心功能,推出一个功能受损的伪装版本,以换取App Store上架,会消耗用户的信任。
实际建议由此而来。只要有选择,就尽量在电脑上参加视频面试;招聘人员几乎总会为Zoom、Google Meet和Microsoft Teams通话提供桌面加入链接。在桌面上,助手通过操作系统(而非空气)听到通话内容,设置教程会在几分钟内引导你完成两个平台的权限设置。
对于那些适合在浏览器中进行的面试准备环节,包括AI模拟面试,手机或平板完全可以使用,因为练习不需要捕获其他应用的音频。桌面捕获路径背后的架构细节收录在工作原理解答中。