AIインタビューアシスタントはどのようにシステム音声をキャプチャするのか?

文責 Aaron Cao · 更新

AIインタビューアシスタントはどのようにシステム音声をキャプチャするのか?
AIインタビューアシスタントは、オペレーティングシステムのオーディオAPIを使用してコンピュータ上でローカルにシステム音声をキャプチャします。Zoom、Google Meet、Teamsの出力ストリームをタップしつつ、別途マイクストリームであなたの声をキャプチャします。会議ボットが通話に参加することはありません。

AIインタビューアシスタントは、オペレーティングシステムのオーディオAPIを使用してコンピュータ上でローカルにシステム音声をキャプチャします。Zoom、Google Meet、Teamsの出力ストリームをタップしつつ、別途マイクストリームであなたの声をキャプチャします。会議ボットが通話に参加することはありません。

面接の文脈における「システム音声」とは

ビデオ面接では、お使いのマシン上に2つの異なる音声ストリームが存在します:

  • マイク入力 — マイクでキャプチャされる自分自身の声。
  • システム音声出力 — Zoom、Google Meet、Microsoft Teamsから聞こえる面接官の声を含む、コンピュータがスピーカーから再生しているすべての音声。

AIインタビューアシスタントは会話を追跡するために両方のストリームを必要とします:面接官の質問(システム音声)とあなたの回答(マイク)です。片方だけをキャプチャすると、部分的な文字起こしになり、提案の質も低下します。

macOSとWindowsにおけるシステム音声のキャプチャ方法

システム音声のキャプチャは会議アプリ自体ではなく、オペレーティングシステムのオーディオAPIに依存します。正確な仕組みはプラットフォームによって異なります:

  • macOS — 最近のバージョンでは、Core Audioを通じてプロセスおよびシステムの音声タップが公開されています。古いアプローチでは、システム出力を入力として戻す仮想オーディオデバイス(ループバックドライバ)を使用していました。
  • Windows — Windows Audio Session API (WASAPI) はループバックキャプチャをサポートしており、選択した出力デバイスから再生されている音声をアプリケーションが録音できるようにします。

いずれの場合も、キャプチャはお使いのデバイス上でローカルに行われます。アシスタントはZoomやTeamsの「内側」にいる必要はなく、会議アプリが再生用にデコードした後の音声を読み取ります。全体的なパイプラインの詳細については、SubcueAIホームページまたはチュートリアルをご覧ください。

SubcueAIのデュアル音声キャプチャへのアプローチ

SubcueAIはmacOSとWindows向けのネイティブデスクトップアプリです。デュアル音声キャプチャを使用します:マイク用のストリームと、会議アプリから送られてくるシステム音声用のストリームの2つです。両方のストリームが文字起こしされるため、アシスタントは誰が何を言ったかを区別できます。

  • 会議ボットが参加者として通話に参加することはありません。
  • Zoom、Google Meet、Teamsにブラウザプラグインや拡張機能をインストールすることはありません。
  • 提案は自分の画面上のフローティングローカルオーバーレイに表示されます。

オーバーレイはローカルにレンダリングされるため、面接官に送信するビデオストリームには含まれません。この設計上の選択の背景について詳しくは、About SubcueAIまたは代替手段との比較をご覧ください。

システム音声キャプチャの正直な限界

システム音声キャプチャはあなた自身の個人用コンピュータで動作します。次のような状況において、面接官が観察できる内容を変えるものではありません:

  • 画面共有 — 画面全体を共有すると、ローカルのオーバーレイウィンドウは面接官から見えます。
  • 画面録画または監督付き試験 — 録画ツールや監督ソフトウェアは、音声がどのようにタップされているかに関わらず、オーバーレイや実行中のプロセスをキャプチャできます。
  • 会社管理または制限されたデバイス — IT ポリシーによって、サードパーティ製アプリのインストールやオーディオAPIへのアクセスがブロックされる場合があります。
  • ヘッドホンのみのセットアップ — 会議アプリがOSが公開しない方法でBluetoothヘッドセットに音声をルーティングする場合、ループバックキャプチャは不安定になることがあります。

何が観察可能で何が観察可能でないかの詳細については、Securityをご覧ください。

よくある質問

AIインタビューアシスタントは、面接官の声を聞くために会議内のボットを必要としますか?

いいえ。システム音声はOSレベルのオーディオAPI(macOSではCore Audio、WindowsではWASAPIループバック)を介してコンピュータ上でローカルにキャプチャされます。会議アプリ自体を変更する必要はなく、ボットが参加者として参加する必要もありません。

Zoom、Google Meet、Teamsは、システム音声がキャプチャされていることを検出できますか?

会議アプリは、別のローカルアプリケーションがシステム音声出力を読み取っていることを通常検出できません。これは会議アプリのプロセス外で行われるためです。ただし、画面共有で共有することを選んだものや、録画・監督ツールがキャプチャするものは見ることができます。

SubcueAIが音声をキャプチャするにはどのような権限が必要ですか?

macOSでは、マイクアクセスと最近のmacOSバージョンで導入されたシステム音声の権限が必要です。Windowsでは、マイクアクセスと出力デバイスでループバックキャプチャを使用する権限が必要です。/tutorialのチュートリアルにこれらの付与方法が説明されています。

デュアル音声キャプチャはBluetoothヘッドホンでも動作しますか?

通常は動作しますが、OSが出力デバイスをどのように公開するかに依存します。有線ヘッドホンとデフォルトのシステム出力が最も信頼性が高いです。音声ルーティングが通常と異なる場合、会議アプリのスピーカーをデフォルトデバイスに切り替えるとキャプチャの問題は解消されます。

キャプチャされた音声はどこかにアップロードされますか?

SubcueAIはリアルタイムの文字起こしと提案を生成するために音声を処理します。データの取り扱いと保持に関する詳細は/securityページに記載されています。ツールがあなたの状況に適しているかを判断する前にご確認ください。

関連する質問

← 詳しく見る: 仕組み