Как это работает

Механика: двойной захват звука, распознавание речи в реальном времени, задержка и как формируются подсказки.

Этот кластер — для тех, кто хочет понять конвейер, прежде чем доверить ему собеседование. Разумно.

От начала до конца предложение ответа проходит четыре шага: захват, транскрипция, генерация, рендеринг. Захват — нативный для ОС — ScreenCaptureKit (macOS) или WASAPI (Windows) — забирает системный звук на уровне ОС, чтобы ИИ слышал интервьюера так же, как ваши колонки. Микрофон захватывается отдельно — ИИ получает ваш звук как контекст и для пост-интервью-транскрипта. Транскрипция — это распознавание речи в реальном времени. На этапе генерации вопрос вместе с вашим резюме, описанием вакансии и историей разговора передаётся в GPT-4o, с системным промптом, ограничивающим длину вывода под формат собеседования. Рендеринг стримит ответ в плавающее окно-оверлей, существующее вне окна приложения видеосвязи, — его можно перетащить куда угодно, в том числе за пределы зоны демонстрации экрана.

Сквозной бюджет задержки до первого токена — sub-400 milliseconds. После этой границы ваш взгляд уходит с камеры, пока вы читаете ответ, и смысл теряется. Ниже разобран каждый этап подробно, что происходит при превышении бюджета и какие компромиссы выбраны. (Для более глубокого «зачем мы это сделали» см. письмо основателя.)

← Все темы