实时面试助手:现场答案建议究竟如何运作
作者 Aaron Cao · 更新于
实时面试助手是一种软件,它会聆听你的现场面试,在数秒内转写面试官的话,并在屏幕上给出建议答案。SubcueAI 以原生桌面应用加本地悬浮窗的形式实现这一点,而不是会议机器人。
实时面试助手究竟做什么
你担心现场面试节奏太快,来不及获得帮助。本节将一步步解释实时面试助手究竟做什么。简而言之,它把口头问题转成文字,并在你开口之前递给你一份答案草稿。
这个循环始终是同样的四个阶段:采集音频、把它转写成文字、生成一份建议答案,并把它显示出来。实时这个词正是关键所在——只有当这四个阶段都在面试官说完问题到你开始回答之间的几秒内完成,价值才会存在。
SubcueAI 被定位为带本地悬浮窗的原生桌面应用,而不是浏览器插件,也不是加入通话的参与者。如果你想先看产品的营销层面概览,主页把它定位为一款 AI 面试助手。
音频如何被采集:双路采集
任何现场助手最难的部分都是同时听到对话的双方。实时面试助手既需要面试官的声音(它从你的扬声器发出),也需要你自己的声音(来自你的麦克风)。SubcueAI 把这称为双路音频采集:它同时读取系统音频输出和麦克风输入。
这正是原生桌面应用重要的原因。macOS 和 Windows 上的系统音频采集是一种操作系统级别的能力——浏览器标签页通常无法接入另一个独立的 Zoom、Google Meet 或 Microsoft Teams 窗口的音频。由于 SubcueAI 不以机器人身份加入会议,面试官的参与者列表不会多出一名与会者。关于采集模型更深入的拆解,见 工作原理专题。
从语音到一份建议答案
音频被采集后,助手会把它流式传送给一个语音转文字引擎,该引擎持续输出文字,而不是等待一整句话。部分转写让答案生成步骤可以提早开始。生成步骤随后取用转写出来的问题,加上你提供的任何上下文(例如简历或职位描述),生成一份答案草稿。
设想一名后端工程师正在面试某家公有云厂商的 L5 职位。当面试官问他会如何设计一个限流器时,转写会在几秒内出现,而一份结构化提纲——令牌桶、分布式计数器、各种权衡——会浮现在悬浮窗中。候选人仍然必须用自己的话来作答;助手是一个提示,而不是一份台词。
关键在于,这一输出渲染在由桌面应用在你自己的机器上绘制的本地悬浮窗中。它不会被注入到视频画面里,也不属于共享的会议窗口,所以共享通话屏幕本身并不会共享该悬浮窗。