AI面试助手如何在iOS上捕获系统音频,以及为何大多数情况下无法实现

作者 Aaron Cao · 更新于

在iOS上,助手大多无法像桌面助手那样捕获系统音频。iOS为每个应用提供沙箱化的音频会话,没有公开API可实时读取其他应用的音频。需要通话音频的助手会改用macOS或Windows运行。

为何iOS在架构上与桌面不同

桌面面试助手能够工作,是因为桌面操作系统会暴露其他应用正在播放的音频。在macOS上,这个通道是ScreenCaptureKit,与屏幕录制权限同属一个权限系列;在Windows上则是WASAPI回环,允许进程读取系统输出混音。SubcueAI的双音频捕获功能直接基于这两个API构建。

iOS没有公开的等效机制。每个应用在自己的沙箱中运行,拥有独立的音频会话,系统不向第三方应用提供进入混音或其他应用会话的回环通道。在iPhone上运行的Zoom通话,只有Zoom和扬声器能听到,同一手机上安装的其他应用无法获取。这是平台的刻意设计决策,并在历次iOS版本更新中保持不变。

结果很明确:桌面助手的架构——捕获系统音频、实时转录、给出建议——无法原样移植到iOS。任何声称能做到这一点的产品,在底层实际上做的是截然不同的事情,向供应商询问具体使用了哪个API是合理的。

现有的变通方案,以及各方案的代价

如果你的面试必须在iPhone上进行,你的感受是对的——选择确实有限。准确了解每种变通方案的能力边界会有所帮助。目前流行三种模式,每一种都要牺牲某些重要的东西。

  • ReplayKit广播。iOS可以通过用户发起的广播来录制屏幕并携带应用音频,但该流在严格约束的广播扩展内运行。它的用途是将屏幕流式传输到服务,而不是为实时分析通话音频并给出答案的第二个应用提供音频源。
  • 扬声器加第二台设备。将通话切换到扬声器模式,让笔记本电脑的麦克风通过声学方式收音。这可以与任何助手配合使用,包括SubcueAI的麦克风通道,但房间回声和串扰会降低转录准确率,面试官也会听到扬声器声效。
  • 雇主端集成。部分面试平台会在服务器端为公司转录通话。这是雇主在其基础设施上的工具,对候选人那一侧没有任何帮助。

这些方案都无法复现桌面体验。实话实说:仅限手机的面试让实时辅助变得遥不可及,提前准备才是关键;面试前一晚进行一次模拟面试,对电话面试的帮助远超任何临场变通方案。

SubcueAI以何种方式替代iOS应用

SubcueAI提供适用于macOS 14及更高版本以及Windows 10及更高版本的原生桌面应用,并刻意不提供iOS应用。SubcueAI创始人Aaron Cao对此直言不讳:iPhone应用无法诚实地实现产品的核心功能,推出一个功能受损的伪装版本,以换取App Store上架,会消耗用户的信任。

实际建议由此而来。只要有选择,就尽量在电脑上参加视频面试;招聘人员几乎总会为Zoom、Google Meet和Microsoft Teams通话提供桌面加入链接。在桌面上,助手通过操作系统(而非空气)听到通话内容,设置教程会在几分钟内引导你完成两个平台的权限设置。

对于那些适合在浏览器中进行的面试准备环节,包括AI模拟面试,手机或平板完全可以使用,因为练习不需要捕获其他应用的音频。桌面捕获路径背后的架构细节收录在工作原理解答中。

常见问题

SubcueAI有iOS版本吗?

没有。SubcueAI仅提供macOS和Windows桌面应用。iOS不暴露产品所依赖的系统音频API,功能受损的替代版本也被刻意放弃了。

有没有应用能转录在我iPhone上运行的Zoom通话?

无法通过直接读取通话音频实现;iOS沙箱机制阻止一个应用使用另一个应用的音频会话。声称能在iPhone上实时转录通话的应用,依赖的是通过麦克风进行声学捕获,或者依赖会议主持人控制的服务器端集成。

ReplayKit能为面试助手提供实时音频源吗?

ReplayKit的用途是将用户发起的屏幕广播传入受限的扩展进程。它不是一个实用的实时管道,无法让第二个应用在面试过程中分析通话音频并返回建议。

如果我的面试只能在手机上进行,该怎么办?

提前准备,而非依赖实时辅助:进行模拟面试练习、准备你的故事素材、在纸上记笔记。如果有任何灵活性,可以向招聘人员索要桌面加入链接;几乎所有Zoom、Google Meet和Microsoft Teams面试都能提供。

相关问题

← 更多关于 工作原理