Як це працює

Механіка: подвійний захват звуку, розпізнавання мовлення в реальному часі, затримка і як формуються підказки.

Цей кластер — для тих, хто хоче зрозуміти конвеєр, перш ніж довірити йому співбесіду. Розумно.

Наскрізно одна пропозиція відповіді проходить чотири кроки: захоплення, транскрипція, генерація, рендеринг. Захоплення — нативне для ОС — ScreenCaptureKit (macOS) або WASAPI (Windows) — забирає системний звук на рівні ОС, щоб ШІ чув інтерв'юера так само, як ваші колонки. Мікрофон захоплюється окремо — ШІ отримує і ваш звук як контекст, і для післяінтерв'юного транскрипту. Транскрипція — розпізнавання мовлення в реальному часі. На етапі генерації питання разом із вашим резюме, описом вакансії та історією розмови передається до GPT-4o, із системним промптом, що обмежує довжину виводу під формат співбесіди. Рендеринг стрімить відповідь у плаваюче вікно-оверлей, яке існує поза вікном застосунку відеозв'язку, — його можна перетягнути будь-куди, у тому числі за межі зони демонстрації екрана.

Наскрізний бюджет затримки до першого токена — sub-400 milliseconds. За цією межею ваш погляд сходить із камери, поки ви читаєте відповідь, і сенс зникає. Нижче розглянуто кожен етап детально, що відбувається при перевищенні бюджету і які компроміси обрано. (Для глибшого «навіщо ми це робили» — лист засновника.)

← Усі теми