AIインタビューアシスタントはどのようにシステム音声をキャプチャするのか?
文責 Aaron Cao · 更新

AIインタビューアシスタントは、オペレーティングシステムのオーディオAPIを使用してコンピュータ上でローカルにシステム音声をキャプチャします。Zoom、Google Meet、Teamsの出力ストリームをタップしつつ、別途マイクストリームであなたの声をキャプチャします。会議ボットが通話に参加することはありません。
面接の文脈における「システム音声」とは
ビデオ面接では、お使いのマシン上に2つの異なる音声ストリームが存在します:
- マイク入力 — マイクでキャプチャされる自分自身の声。
- システム音声出力 — Zoom、Google Meet、Microsoft Teamsから聞こえる面接官の声を含む、コンピュータがスピーカーから再生しているすべての音声。
AIインタビューアシスタントは会話を追跡するために両方のストリームを必要とします:面接官の質問(システム音声)とあなたの回答(マイク)です。片方だけをキャプチャすると、部分的な文字起こしになり、提案の質も低下します。
macOSとWindowsにおけるシステム音声のキャプチャ方法
システム音声のキャプチャは会議アプリ自体ではなく、オペレーティングシステムのオーディオAPIに依存します。正確な仕組みはプラットフォームによって異なります:
- macOS — 最近のバージョンでは、Core Audioを通じてプロセスおよびシステムの音声タップが公開されています。古いアプローチでは、システム出力を入力として戻す仮想オーディオデバイス(ループバックドライバ)を使用していました。
- Windows — Windows Audio Session API (WASAPI) はループバックキャプチャをサポートしており、選択した出力デバイスから再生されている音声をアプリケーションが録音できるようにします。
いずれの場合も、キャプチャはお使いのデバイス上でローカルに行われます。アシスタントはZoomやTeamsの「内側」にいる必要はなく、会議アプリが再生用にデコードした後の音声を読み取ります。全体的なパイプラインの詳細については、SubcueAIホームページまたはチュートリアルをご覧ください。
SubcueAIのデュアル音声キャプチャへのアプローチ
SubcueAIはmacOSとWindows向けのネイティブデスクトップアプリです。デュアル音声キャプチャを使用します:マイク用のストリームと、会議アプリから送られてくるシステム音声用のストリームの2つです。両方のストリームが文字起こしされるため、アシスタントは誰が何を言ったかを区別できます。
- 会議ボットが参加者として通話に参加することはありません。
- Zoom、Google Meet、Teamsにブラウザプラグインや拡張機能をインストールすることはありません。
- 提案は自分の画面上のフローティングローカルオーバーレイに表示されます。
オーバーレイはローカルにレンダリングされるため、面接官に送信するビデオストリームには含まれません。この設計上の選択の背景について詳しくは、About SubcueAIまたは代替手段との比較をご覧ください。
システム音声キャプチャの正直な限界
システム音声キャプチャはあなた自身の個人用コンピュータで動作します。次のような状況において、面接官が観察できる内容を変えるものではありません:
- 画面共有 — 画面全体を共有すると、ローカルのオーバーレイウィンドウは面接官から見えます。
- 画面録画または監督付き試験 — 録画ツールや監督ソフトウェアは、音声がどのようにタップされているかに関わらず、オーバーレイや実行中のプロセスをキャプチャできます。
- 会社管理または制限されたデバイス — IT ポリシーによって、サードパーティ製アプリのインストールやオーディオAPIへのアクセスがブロックされる場合があります。
- ヘッドホンのみのセットアップ — 会議アプリがOSが公開しない方法でBluetoothヘッドセットに音声をルーティングする場合、ループバックキャプチャは不安定になることがあります。
何が観察可能で何が観察可能でないかの詳細については、Securityをご覧ください。