Cara Kerja

Mekanismenya: tangkapan audio ganda, speech-to-text real-time, latensi, dan cara saran dibuat.

Klaster ini untuk orang yang ingin memahami pipeline sebelum mempercayakan wawancara mereka padanya. Masuk akal.

End-to-end, satu saran jawaban melewati empat langkah: tangkap, transkripsi, hasilkan, render. Tangkap adalah OS-native — ScreenCaptureKit (macOS) atau WASAPI (Windows) — menarik audio sistem di tingkat OS sehingga AI mendengar pewawancara melalui jalur yang sama dengan speaker Anda. Mikrofon ditangkap terpisah sehingga AI juga memiliki audio Anda untuk konteks dan untuk transkrip pasca-wawancara. Transkripsi adalah konversi ucapan-ke-teks real-time. Generasi meneruskan pertanyaan bersama dengan resume Anda, deskripsi pekerjaan, dan riwayat percakapan sejauh ini ke GPT-4o, dengan system prompt yang membatasi output ke panjang yang sesuai wawancara. Rendering mengalirkan jawaban ke jendela overlay mengambang yang ada di luar jendela aplikasi konferensi — Anda dapat menyeretnya ke mana saja, termasuk di luar area berbagi layar.

Anggaran latensi token pertama end-to-end adalah sub-400 milliseconds. Di luar titik itu, mata Anda berpindah dari kamera saat Anda membaca jawaban, yang menggagalkan tujuannya. Jawaban di bawah membahas setiap tahap secara detail, apa yang terjadi ketika anggaran terlampaui, dan trade-off yang kami pilih. (Untuk konteks lebih dalam mengapa-kami-membangunnya, lihat surat pendiri.)

← Semua topik