Nasıl çalışır

Mekanik: çift ses yakalama, gerçek zamanlı konuşma-metin, gecikme ve önerilerin nasıl üretildiği.

Bu küme, mülakatlarını teslim etmeden önce pipeline'ı anlamak isteyenler içindir. Makul.

Uçtan uca bir yanıt önerisi dört adımdan geçer: yakalama, transkripsiyon, üretim, render. Yakalama OS-yerel — ScreenCaptureKit (macOS) veya WASAPI (Windows) — sistem sesini OS düzeyinde çeker, böylece AI mülakatçıyı hoparlörlerinizin duyduğu yoldan duyar. Mikrofon ayrı yakalanır, böylece AI ayrıca bağlam ve mülakat-sonrası transkript için sesinize sahip olur. Transkripsiyon gerçek zamanlı konuşma-metin dönüşümüdür. Üretim, soruyu özgeçmişiniz, iş tanımı ve şu ana kadarki konuşma geçmişiyle birlikte GPT-4o'ya iletir; çıktıyı mülakata uygun uzunlukla sınırlayan bir sistem promptu ile. Render, yanıtı konferans uygulamasının penceresi dışında var olan kayan bir kaplama penceresine akıtır — istediğiniz yere sürükleyebilirsiniz, ekran paylaşım alanının dışına dahil.

Uçtan uca ilk token gecikme bütçesi sub-400 milliseconds. Bu noktanın ötesinde, yanıtı okurken gözleriniz kameradan ayrılır, bu da amacı bozar. Aşağıdaki yanıtlar her aşamayı detaylı işler, bütçe aşıldığında ne olur ve seçtiğimiz takasları kapsar. (Daha derin "neden inşa ettik" bağlamı için kurucu mektubuna bakın.)

← Tüm konular