仕組み

仕組み：デュアル音声キャプチャ、リアルタイム音声認識、遅延、回答候補の生成方法。

このクラスタは「面接を任せる前にまずパイプラインを理解したい」人向けだ。妥当だと思う。

エンドツーエンドで見ると、1 件の回答提案は 4 ステップを通る：キャプチャ、転写、生成、レンダリング。キャプチャは OS ネイティブ——macOS の ScreenCaptureKit、または Windows の WASAPI——OS レベルでシステム音声を引き出し、AI はあなたのスピーカーと同じ経路で面接官の声を聞く。マイクは別途キャプチャされ、AI はあなたの音声を文脈および面接後のトランスクリプト用に取得する。転写はリアルタイム音声テキスト変換。生成段階では、質問にあなたの履歴書、職務記述書、そしてここまでの会話履歴を加えて GPT-4o に渡し、システムプロンプトで出力を面接にふさわしい長さに制約する。レンダリングは回答をフローティングオーバーレイウィンドウへとストリームする——このウィンドウは会議アプリのウィンドウの外側に存在し、画面共有領域の外を含めどこへでもドラッグできる。

エンドツーエンド初トークン遅延の予算は sub-400 milliseconds だ。それを超えると、回答を読むためにあなたの視線がカメラから逸れ、目的が崩れる。以下の回答では各段階の詳細、予算超過時に何が起きるか、我々が選んだトレードオフを扱う。（もっと深い「なぜ作ったか」の文脈は創業者の手紙を参照。）

← すべての回答トピック