AIインタビューアシスタントは面接官と候補者の両方を文字起こしできますか?
文責 Aaron Cao · 更新
はい。システム音声(スピーカーから聞こえる面接官の声)とマイクを同時にキャプチャすることで、AIインタビューアシスタントは会話の両サイドをリアルタイムで文字起こしできます。SubcueAI はネイティブのデュアルオーディオキャプチャでこれを実現しており、ミーティングボットは不要です。
両者を文字起こしするためにオーディオソースが2つ必要な理由
単一のマイクで面接を録音しようとしたことがあれば、この問題はよくご存知でしょう。自分の声は大きくクリアに入る一方、スピーカーやヘッドフォンから聞こえる面接官の声は小さく、エコーがかかったり、まったく拾えなかったりします。両者の声をクリアに文字起こしするには、2つの独立したオーディオソースが必要です。
AIインタビューアシスタントは2つのストリームを同時にキャプチャすることでこの問題を解決します。システム音声(Zoom、Google Meet、または Microsoft Teams での面接官の声を含む、コンピューターが再生するすべての音)と、あなたのマイク(あなた自身の回答)です。各ストリームは独立して文字起こしされるため、発言は1つの混濁したトラックにまとめられるのではなく、正しい話者に紐付けられます。
SubcueAI が面接官とあなたの両方をキャプチャする仕組み
SubcueAI は macOS と Windows 上で動作するネイティブデスクトップアプリです——ブラウザプラグインでも、ミーティングに参加するボットでもありません。macOS ではオペレーティングシステムのスクリーンキャプチャ音声 API を通じてシステム音声をキャプチャし、Windows ではシステムループバックデバイスを使用します。マイクは通常の入力デバイスを通じて並行してキャプチャされます。
シニアポジションに Zoom で面接を受けるバックエンドエンジニアを考えてみましょう。採用担当者の質問はシステム音声として届き、候補者の口頭回答はマイク音声として届き、SubcueAI はそれぞれをリアルタイムで文字起こしします。2つのストリームが独立しているため、トランスクリプトは区別のない1つのブロックではなく、ラベル付きの会話として読めます。
キャプチャはすべてあなたのマシン上で完結し、トランスクリプトを表示するフローティングオーバーレイもデスクトップローカルです。セットアップウォークスルーでインストール手順を確認できます。
話者分離、レイテンシ、精度
面接官と候補者を独立したチャンネルに保つことは、トランスクリプトを整理するだけでなく、アシスタントがどのターンに対応すべきかを判断できるようにします。面接官チャンネルの質問が回答提案の対象であり、自分のチャンネルはコンテキストであって、新しいプロンプトではありません。
- 話者ラベリングは、各ストリームに既知のオーナーがいるため、2ソース設計から自然に生まれます。
- レイテンシは音声テキスト変換のパスに依存します。ストリーミング文字起こしは話者が話している間に部分的なテキストを返します。
- 精度はシステム音声のシグナルがクリアなときに最も高くなります——良いヘッドセットと静かな部屋は両チャンネルに有効です。
キャプチャから提案までの全体的な流れについては、仕組みハブをご覧ください。
デュアル文字起こしが適用されないケース
両サイドの文字起こしは、音声が実際にコンピューターの出力・入力デバイスに届くことを前提としています。すべての状況をカバーするわけではなく、正直にお伝えします。
- あなたが管理できない会社管理のデバイスでは、デスクトップアプリをインストールすること自体ができない場合があります。
- 監視付き環境やリモートモニタリングソフトウェアは、バックグラウンドアプリや画面の操作を制限することがあります。
- 相手側でセッションが画面録画されている場合、その録画はあなたのアシスタントがローカルで行うことと無関係です。
- 音声がコンピューターを通過しない対面ラウンドは、システム音声キャプチャの対象外です。
SubcueAI はご自身のマシンでのリモート面接向けに構築されています。その制限については、検出可能性ハブで説明しています。