实时面试助手:现场答案建议究竟如何运作

作者 Aaron Cao · 更新于

实时面试助手是一种软件,它会聆听你的现场面试,在数秒内转写面试官的话,并在屏幕上给出建议答案。SubcueAI 以原生桌面应用加本地悬浮窗的形式实现这一点,而不是会议机器人。

实时面试助手究竟做什么

你担心现场面试节奏太快,来不及获得帮助。本节将一步步解释实时面试助手究竟做什么。简而言之,它把口头问题转成文字,并在你开口之前递给你一份答案草稿。

这个循环始终是同样的四个阶段:采集音频、把它转写成文字、生成一份建议答案,并把它显示出来。实时这个词正是关键所在——只有当这四个阶段都在面试官说完问题到你开始回答之间的几秒内完成,价值才会存在。

SubcueAI 被定位为带本地悬浮窗的原生桌面应用,而不是浏览器插件,也不是加入通话的参与者。如果你想先看产品的营销层面概览,主页把它定位为一款 AI 面试助手。

音频如何被采集:双路采集

任何现场助手最难的部分都是同时听到对话的双方。实时面试助手既需要面试官的声音(它从你的扬声器发出),需要你自己的声音(来自你的麦克风)。SubcueAI 把这称为双路音频采集:它同时读取系统音频输出和麦克风输入。

这正是原生桌面应用重要的原因。macOSWindows 上的系统音频采集是一种操作系统级别的能力——浏览器标签页通常无法接入另一个独立的 ZoomGoogle MeetMicrosoft Teams 窗口的音频。由于 SubcueAI 不以机器人身份加入会议,面试官的参与者列表不会多出一名与会者。关于采集模型更深入的拆解,见 工作原理专题

从语音到一份建议答案

音频被采集后,助手会把它流式传送给一个语音转文字引擎,该引擎持续输出文字,而不是等待一整句话。部分转写让答案生成步骤可以提早开始。生成步骤随后取用转写出来的问题,加上你提供的任何上下文(例如简历或职位描述),生成一份答案草稿。

设想一名后端工程师正在面试某家公有云厂商的 L5 职位。当面试官问他会如何设计一个限流器时,转写会在几秒内出现,而一份结构化提纲——令牌桶、分布式计数器、各种权衡——会浮现在悬浮窗中。候选人仍然必须用自己的话来作答;助手是一个提示,而不是一份台词。

关键在于,这一输出渲染在由桌面应用在你自己的机器上绘制的本地悬浮窗中。它不会被注入到视频画面里,也不属于共享的会议窗口,所以共享通话屏幕本身并不会共享该悬浮窗。

延迟、限制,以及“实时”做不到什么

对现场助手而言,端到端延迟——从面试官说完一句话到一条可用建议出现的总时间——比底层模型的原始大小更重要。一个稍小、能在一秒内响应的模型,胜过一个要花十秒的更大模型,因为到了十秒,作答的时机早已过去。

对边界要诚实。当你正在共享自己的屏幕时、当会话被面试官一方录制并以某种方式捕捉到你整个显示画面时、在锁定或监控你机器的受监考考试期间,或在你无法安装软件的受公司管控的设备上,实时面试助手都不在适用范围内。在这些情况下没有任何工具是安全的,SubcueAI 也并不声称自己普遍不可被检测。围绕隐私的各种权衡在 可检测性专题 中有讨论,安全模型则在 安全页面 上作了概述。

常见问题

实时面试助手和会议机器人是一回事吗?

不是。会议机器人会作为可见的参与者加入通话,并常常对其进行录制。SubcueAI 是带本地悬浮窗的原生桌面应用,所以它不会出现在参与者列表中,也不会加入会议。

答案多快会出现?

目标是面试官说完问题到你回答之间那几秒的间隙。具体时间取决于你的网络和机器,但端到端延迟经过优化,使建议在你必须开口之前就可用。

它能在 Zoom、Google Meet 和 Microsoft Teams 中使用吗?

可以。由于双路音频采集在操作系统级别读取系统音频,它与具体的会议应用无关,所以 Zoom、Google Meet 和 Microsoft Teams 都以同样的方式工作。

面试官能看到助手吗?

建议渲染在你自己机器上的本地悬浮窗中,而不是视频画面里。不过,如果你共享屏幕,悬浮窗就在你的显示画面上,可能会被看到,所以在共享屏幕时它不在适用范围内。

我在哪里设置它?

安装和首次运行步骤在 /tutorial 页面,套餐和积分详情在 /pricing 页面。

相关问题

← 更多关于 工作原理