AI面接アシスタントがiOSでシステムオーディオをキャプチャする方法と、ほとんどの場合にできない理由

文責 Aaron Cao · 更新

iOSでは、デスクトップアシスタントのような方法でのキャプチャはほとんどできません。iOSは各アプリにサンドボックス化されたオーディオセッションを提供しており、別のアプリのオーディオをリアルタイムで読み取るための公開APIはありません。通話音声が必要なアシスタントは、macOSまたはWindowsで動作します。

iOSがデスクトップとアーキテクチャ上異なる理由

デスクトップ面接アシスタントが機能するのは、デスクトップOSが他のアプリケーションが再生中のオーディオを公開しているからです。macOSではその入り口がScreenCaptureKitであり、画面録画を支える同じ権限ファミリーに属しています。Windowsでは、プロセスがシステム出力ミックスを読み取れるWASAPIループバックが使われます。SubcueAIのデュアルオーディオキャプチャはこれら2つのAPIに直接基づいて構築されています。

iOSには公開の同等機能がありません。各アプリは独自のオーディオセッションを持つサンドボックス内で動作しており、システムはサードパーティアプリにミックスや他のアプリのセッションへのループバックチャネルを提供しません。iPhoneで動作しているZoom通話は、Zoomとスピーカーだけが聞こえるものであり、同じ電話にインストールされた別のアプリには届きません。これは意図的なプラットフォームの設計判断であり、iOSのリリースを通じて一貫して維持されています。

結論は明快です。デスクトップアシスタントのアーキテクチャ——システムオーディオをキャプチャし、リアルタイムで文字起こしし、提案を表示する——はiOSにそのまま移植できません。それができると主張する製品は、内部で実質的に異なることをしており、ベンダーに具体的にどのAPIを使用しているか尋ねるのは正当です。

存在する回避策と、それぞれのコスト

面接をiPhoneで行わなければならない場合、選択肢が少なく感じるのは正しい認識です。各回避策ができることとできないことを正確に知っておくと役立ちます。現在3つのパターンが流通しており、それぞれ重要な何かを犠牲にしています。

  • ReplayKitブロードキャスト。iOSはユーザーが開始したブロードキャストを通じてアプリオーディオ付きで画面を録画できますが、そのストリームは厳しく制約されたブロードキャスト拡張機能内で動作します。画面をサービスにストリーミングするために構築されたものであり、通話音声をリアルタイムで分析して回答する第2のアプリに音声を提供するためのものではありません。
  • スピーカーフォンと第2デバイス。通話をスピーカーフォンにして、ノートパソコンのマイクが音響的に拾えるようにします。これはSubcueAIのマイクチャネルを含む任意のアシスタントで機能しますが、室内のエコーとクロストークが文字起こしの精度を下げ、面接官にはスピーカーフォンの音響が届きます。
  • 採用側のインテグレーション。一部の面接プラットフォームは、企業のために通話をサーバー側で文字起こしします。それは採用者側のインフラ上のツールであり、候補者側には何もしません。

これらのどれもデスクトップ体験を再現しません。正直なまとめとして、電話のみの面接ではリアルタイムの支援は望めず、事前準備がその分の重みを担います。前夜に模擬面接セッションを行うことは、電話面接に対して、当日の回避策よりもはるかに効果があります。

SubcueAIがiOSアプリの代わりにしていること

SubcueAIはmacOS 14以降およびWindows 10以降のネイティブデスクトップアプリを提供しており、意図的にiOSアプリを提供していません。SubcueAIの創業者Aaron Caoはその理由について率直に述べています。iPhoneアプリは製品のコア機能を誠実に実行できず、そうでないふりをした機能低下版を出荷することは、App Storeの掲載と引き換えにユーザーの信頼を犠牲にすることになります。

実践的な推奨はこのアーキテクチャから導かれます。選択肢がある限り、ビデオ面接はコンピューターで受けてください。採用担当者はほとんどの場合、Zoom、Google Meet、Microsoft Teamsの通話に対してデスクトップ参加リンクを提供しています。デスクトップでは、アシスタントは空気を通してではなくオペレーティングシステムを通して通話音声を聞き取ります。セットアップチュートリアルでは、両プラットフォームの権限設定を数分で説明しています。

ブラウザに適した面接準備の部分、AIモック面接を含む部分については、スマートフォンやタブレットでも問題なく使えます。練習では他のアプリのオーディオをキャプチャする必要がないからです。デスクトップキャプチャパスの背後にあるアーキテクチャの詳細は仕組みの解説にまとめられています。

よくある質問

SubcueAIのiOSバージョンはありますか?

いいえ。SubcueAIはmacOSおよびWindowsのデスクトップアプリのみを提供しています。iOSは製品が基盤とするシステムオーディオAPIを公開しておらず、機能を低下させた近似版も意図的に提供していません。

iPhoneで動作しているZoom通話を文字起こしできるアプリはありますか?

通話音声を直接読み取ることはできません。iOSのサンドボックス機能が、あるアプリが別のアプリのオーディオセッションを利用することを防いでいます。iPhoneでのライブ通話文字起こしを主張するアプリは、マイクを通じた音響キャプチャ、または会議ホストが制御するサーバー側のインテグレーションに依存しています。

ReplayKitは面接アシスタントにリアルタイムで音声を供給できますか?

ReplayKitはユーザーが開始した画面ブロードキャストを制約された拡張機能プロセスに送るために構築されています。面接中に第2のアプリが通話音声を分析して提案を返すための実用的なリアルタイムパイプラインではありません。

面接が電話でしか行えない場合はどうすればよいですか?

ライブの支援に頼るのではなく、事前に準備してください。模擬面接セッションを実施し、エピソードを準備し、紙にメモを取りましょう。柔軟性があれば、採用担当者にデスクトップ参加リンクを依頼してください。ほぼすべてのZoom、Google Meet、Microsoft Teamsの面接で利用可能です。

関連する質問

← 詳しく見る: 仕組み