หลักการทำงาน

กลไก: การจับเสียงคู่ การแปลงเสียงเป็นข้อความแบบเรียลไทม์ ความหน่วง และการสร้างคำแนะนำ

คลัสเตอร์นี้สำหรับคนที่ต้องการเข้าใจไปป์ไลน์ก่อนมอบหมายการสัมภาษณ์ของพวกเขาให้กับมัน สมเหตุสมผล

โดยตลอดทั้งระบบ คำแนะนำคำตอบหนึ่งครั้งผ่านสี่ขั้นตอน: จับ, ถอดเสียง, สร้าง, เรนเดอร์ การจับเป็นแบบเนทีฟ OS — ScreenCaptureKit (macOS) หรือ WASAPI (Windows) — ดึงเสียงระบบในระดับ OS เพื่อให้ AI ได้ยินผู้สัมภาษณ์ในเส้นทางเดียวกับลำโพงของคุณ ไมโครโฟนถูกจับแยก เพื่อให้ AI ก็มีเสียงของคุณเป็นบริบทและสำหรับบันทึกหลังการสัมภาษณ์ การถอดเสียงเป็นการแปลงเสียงเป็นข้อความแบบเรียลไทม์ การสร้างส่งคำถามพร้อมประวัติย่อ คำอธิบายงาน และประวัติการสนทนาจนถึงตอนนี้ไปยัง GPT-4o ด้วย system prompt ที่จำกัดผลลัพธ์ให้มีความยาวเหมาะสมกับการสัมภาษณ์ การเรนเดอร์สตรีมคำตอบเข้าหน้าต่างโอเวอร์เลย์ลอยที่อยู่นอกหน้าต่างของแอปประชุม — คุณสามารถลากมันไปที่ไหนก็ได้ รวมถึงนอกพื้นที่แชร์หน้าจอ

งบประมาณความล่าช้าของโทเค็นแรกตลอดระบบคือ sub-400 milliseconds เกินจากจุดนั้น สายตาของคุณออกจากกล้องในระหว่างที่อ่านคำตอบ ซึ่งทำให้สูญเสียจุดประสงค์ คำตอบด้านล่างครอบคลุมแต่ละขั้นตอนโดยละเอียด สิ่งที่เกิดขึ้นเมื่องบประมาณถูกใช้เกิน และข้อแลกเปลี่ยนที่เราเลือก (สำหรับบริบทที่ลึกกว่าว่าเหตุใดเราจึงสร้างมัน ดูจดหมายผู้ก่อตั้ง)

← ทุกหัวข้อ