작동 방식

메커니즘: 듀얼 오디오 캡처, 실시간 음성 인식, 지연 시간, 답변 제안 생성 방식.

이 클러스터는 "면접을 맡기기 전에 파이프라인부터 이해하고 싶다"는 사람들을 위한 것이다. 합리적이다.

엔드 투 엔드로 보면 답변 제안 한 건은 네 단계를 거친다: 캡처, 전사, 생성, 렌더링. 캡처는 OS 네이티브—macOS의 ScreenCaptureKit, 또는 Windows의 WASAPI—OS 레벨에서 시스템 오디오를 끌어와 AI가 면접관의 목소리를 당신의 스피커가 듣는 것과 같은 경로로 듣게 한다. 마이크는 별도로 캡처되어 AI가 당신의 오디오를 문맥과 면접 후 전사용으로도 갖게 된다. 전사는 실시간 음성-텍스트 변환이다. 생성 단계는 질문에 당신의 이력서, 직무 설명, 지금까지의 대화 기록을 더해 GPT-4o로 전달하며, 시스템 프롬프트로 출력을 면접에 적절한 길이로 제약한다. 렌더링은 답변을 플로팅 오버레이 창으로 스트리밍한다—이 창은 화상회의 앱의 창 바깥에 존재하며 화면 공유 영역 밖을 포함해 어디로든 끌어 옮길 수 있다.

엔드 투 엔드 첫 토큰 지연 예산은 sub-400 milliseconds다. 그 지점을 넘으면 답변을 읽는 동안 시선이 카메라에서 벗어나 목적이 무너진다. 아래 답변들은 각 단계의 세부 사항, 예산을 초과했을 때 일어나는 일, 우리가 선택한 트레이드오프를 다룬다. (더 깊은 "왜 만들었나"의 맥락은 창업자의 편지를 참조.)

← 모든 답변 주제