Cách hoạt động

Cơ chế: thu âm kép, chuyển giọng nói thành văn bản thời gian thực, độ trễ và cách tạo gợi ý.

Cụm này dành cho những người muốn hiểu pipeline trước khi tin tưởng buổi phỏng vấn của họ vào nó. Hợp lý.

Từ đầu đến cuối, một gợi ý câu trả lời đi qua bốn bước: thu, phiên âm, tạo, kết xuất. Thu là gốc OS — ScreenCaptureKit (macOS) hoặc WASAPI (Windows) — kéo âm thanh hệ thống ở cấp OS để AI nghe người phỏng vấn theo cùng đường loa của bạn nghe. Microphone được thu riêng để AI cũng có âm thanh của bạn cho bối cảnh và cho bản ghi sau phỏng vấn. Phiên âm là chuyển giọng thành văn bản thời gian thực. Tạo chuyển câu hỏi cùng với CV, mô tả công việc và lịch sử hội thoại đến GPT-4o, với một system prompt giới hạn đầu ra ở độ dài phù hợp với buổi phỏng vấn. Kết xuất truyền câu trả lời vào một cửa sổ lớp phủ nổi tồn tại bên ngoài cửa sổ ứng dụng hội nghị — bạn có thể kéo nó đi bất kỳ đâu, kể cả ra khỏi vùng chia sẻ màn hình.

Ngân sách độ trễ token đầu tiên từ đầu đến cuối là sub-400 milliseconds. Vượt qua điểm đó, mắt bạn rời khỏi camera khi bạn đọc câu trả lời, điều đó làm hỏng mục đích. Các giải đáp bên dưới cover từng giai đoạn chi tiết, điều gì xảy ra khi vượt ngân sách, và những đánh đổi chúng tôi đã chọn. (Để có bối cảnh sâu hơn "vì sao chúng tôi xây dựng nó", xem thư người sáng lập.)

← Tất cả chủ đề