ผู้ช่วยสัมภาษณ์ AI จับเสียงระบบอย่างไร?

โดย Aaron Cao · อัปเดตเมื่อ

ผู้ช่วยสัมภาษณ์ AI จับเสียงระบบอย่างไร?
ผู้ช่วยสัมภาษณ์ AI จับเสียงระบบในเครื่องคอมพิวเตอร์ของคุณโดยใช้ API เสียงของระบบปฏิบัติการ — แตะสตรีมเอาต์พุตจาก Zoom, Google Meet, หรือ Teams — ขณะที่สตรีมไมโครโฟนแยกต่างหากจับเสียงของคุณ ไม่มีบอทประชุมเข้าร่วมการสนทนา

ผู้ช่วยสัมภาษณ์ AI จับเสียงระบบในเครื่องคอมพิวเตอร์ของคุณโดยใช้ API เสียงของระบบปฏิบัติการ — แตะสตรีมเอาต์พุตจาก Zoom, Google Meet, หรือ Teams — ขณะที่สตรีมไมโครโฟนแยกต่างหากจับเสียงของคุณ ไม่มีบอทประชุมเข้าร่วมการสนทนา

“เสียงระบบ” หมายถึงอะไรในบริบทการสัมภาษณ์

ในการสัมภาษณ์วิดีโอ มีสตรีมเสียงสองแบบที่แตกต่างกันในเครื่องของคุณ:

  • อินพุตไมโครโฟน — เสียงของคุณเอง ที่จับโดยไมโครโฟน
  • เอาต์พุตเสียงระบบ — ทุกอย่างที่คอมพิวเตอร์ของคุณกำลังเล่นผ่านลำโพง รวมถึงเสียงของผู้สัมภาษณ์ที่มาจาก Zoom, Google Meet, หรือ Microsoft Teams

ผู้ช่วยสัมภาษณ์ AI ต้องการทั้งสองสตรีมเพื่อติดตามการสนทนา: คำถามของผู้สัมภาษณ์ (เสียงระบบ) และคำตอบของคุณ (ไมโครโฟน) การจับเพียงด้านเดียวจะทำให้ได้ทรานสคริปต์ที่ไม่สมบูรณ์และคำแนะนำที่อ่อนแอลง

วิธีจับเสียงระบบบน macOS และ Windows

การจับเสียงระบบอาศัย API เสียงของระบบปฏิบัติการมากกว่าตัวแอปประชุมเอง กลไกที่แน่นอนแตกต่างกันตามแพลตฟอร์ม:

  • macOS — เวอร์ชันสมัยใหม่เปิดเผยการแตะเสียงกระบวนการและระบบผ่าน Core Audio วิธีเก่าใช้เครื่องมือเสียงเสมือน (ไดรเวอร์ลูปแบ็ก) ที่ส่งเอาต์พุตระบบกลับมาเป็นอินพุต
  • Windows — Windows Audio Session API (WASAPI) รองรับการจับแบบ loopback ซึ่งให้แอปพลิเคชันบันทึกสิ่งที่กำลังเล่นออกจากอุปกรณ์เอาต์พุตที่เลือก

ไม่ว่าจะอย่างไร การจับเกิดขึ้น ในเครื่อง บนอุปกรณ์ของคุณ ผู้ช่วยไม่จำเป็นต้องอยู่ “ภายใน” Zoom หรือ Teams; มันอ่านเสียงหลังจากแอปประชุมถอดรหัสเพื่อเล่นแล้ว คุณสามารถอ่านเพิ่มเติมเกี่ยวกับไปป์ไลน์โดยรวมได้ที่ หน้าแรกของ SubcueAI หรือ บทช่วยสอน

วิธีที่ SubcueAI จัดการการจับเสียงคู่

SubcueAI เป็น แอปเดสก์ท็อปเนทีฟ สำหรับ macOS และ Windows มันใช้การจับเสียงคู่: หนึ่งสตรีมสำหรับไมโครโฟนของคุณ และหนึ่งสตรีมสำหรับเสียงระบบที่มาจากแอปประชุม ทั้งสองสตรีมถูกถอดเสียงเพื่อให้ผู้ช่วยรู้ว่าใครพูดอะไร

  • ไม่มี บอทประชุม เข้าร่วมการสนทนาในฐานะผู้เข้าร่วม
  • ไม่มี ปลั๊กอินเบราว์เซอร์ หรือส่วนขยายที่ติดตั้งใน Zoom, Google Meet, หรือ Teams
  • คำแนะนำปรากฏใน โอเวอร์เลย์ลอยในเครื่อง บนหน้าจอของคุณเอง

เนื่องจากโอเวอร์เลย์เรนเดอร์ในเครื่อง มันจึงไม่ใช่ส่วนหนึ่งของสตรีมวิดีโอที่คุณส่งไปยังผู้สัมภาษณ์ สำหรับข้อมูลเพิ่มเติมเกี่ยวกับตัวเลือกการออกแบบเบื้องหลังนี้ โปรดดู เกี่ยวกับ SubcueAI หรือ วิธีเปรียบเทียบกับทางเลือกอื่น

ขีดจำกัดที่ซื่อสัตย์ของการจับเสียงระบบ

การจับเสียงระบบทำงานบนคอมพิวเตอร์ส่วนตัว ของคุณเอง มันไม่เปลี่ยนสิ่งที่ผู้สัมภาษณ์สามารถสังเกตได้ในสถานการณ์เหล่านี้:

  • การแชร์หน้าจอ — หากคุณแชร์หน้าจอทั้งหมด หน้าต่างโอเวอร์เลย์ในเครื่องจะมองเห็นได้โดยผู้สัมภาษณ์
  • การบันทึกหน้าจอหรือการสอบที่มีผู้คุม — เครื่องมือบันทึกและซอฟต์แวร์คุมสอบสามารถจับโอเวอร์เลย์และกระบวนการที่กำลังทำงานได้ไม่ว่าจะแตะเสียงอย่างไร
  • อุปกรณ์ที่บริษัทจัดการหรือล็อกดาวน์ — นโยบายไอทีอาจบล็อกแอปบุคคลที่สามไม่ให้ติดตั้งหรือเข้าถึง API เสียง
  • การตั้งค่าที่ใช้หูฟังเท่านั้น — หากแอปประชุมส่งเสียงไปยังหูฟังบลูทูธในลักษณะที่ระบบปฏิบัติการไม่เปิดเผย การจับแบบลูปแบ็กอาจไม่สม่ำเสมอ

สำหรับบริบทเพิ่มเติมเกี่ยวกับสิ่งที่สังเกตได้และไม่ได้ โปรดดู ความปลอดภัย

คำถามที่พบบ่อย

ผู้ช่วยสัมภาษณ์ AI ต้องมีบอทในประชุมเพื่อได้ยินผู้สัมภาษณ์หรือไม่?

ไม่ต้อง เสียงระบบถูกจับในเครื่องคอมพิวเตอร์ของคุณผ่าน API เสียงระดับระบบปฏิบัติการ (Core Audio บน macOS, WASAPI loopback บน Windows) ไม่จำเป็นต้องแก้ไขแอปประชุมเอง และไม่มีบอทต้องเข้าร่วมในฐานะผู้เข้าร่วม

Zoom, Google Meet, หรือ Teams สามารถตรวจจับการจับเสียงระบบได้หรือไม่?

โดยทั่วไปแอปประชุมไม่สามารถบอกได้ว่าแอปพลิเคชันในเครื่องอื่นกำลังอ่านเอาต์พุตเสียงระบบ เพราะสิ่งนั้นเกิดขึ้นนอกกระบวนการของพวกเขา อย่างไรก็ตาม พวกเขาสามารถเห็นทุกอย่างที่คุณเลือกแชร์ผ่านการแชร์หน้าจอหรือที่เครื่องมือบันทึกหรือคุมสอบจับได้

SubcueAI ต้องการสิทธิ์อะไรเพื่อจับเสียง?

บน macOS ต้องการการเข้าถึงไมโครโฟนและสิทธิ์เสียงระบบที่นำมาใช้ใน macOS เวอร์ชันล่าสุด บน Windows ต้องการการเข้าถึงไมโครโฟนและสิทธิ์ใช้การจับแบบลูปแบ็กบนอุปกรณ์เอาต์พุตของคุณ บทช่วยสอนที่ /tutorial จะอธิบายขั้นตอนการให้สิทธิ์เหล่านี้

การจับเสียงคู่ทำงานกับหูฟังบลูทูธได้หรือไม่?

โดยปกติได้ แต่ขึ้นอยู่กับวิธีที่ระบบปฏิบัติการเปิดเผยอุปกรณ์เอาต์พุต หูฟังแบบมีสายและเอาต์พุตระบบเริ่มต้นมีความน่าเชื่อถือที่สุด หากการกำหนดเส้นทางเสียงผิดปกติ การสลับลำโพงของแอปประชุมไปยังอุปกรณ์เริ่มต้นมักจะแก้ปัญหาการจับได้

เสียงที่จับได้ถูกอัปโหลดไปที่ใดหรือไม่?

SubcueAI ประมวลผลเสียงเพื่อสร้างทรานสคริปต์และคำแนะนำแบบเรียลไทม์ รายละเอียดเกี่ยวกับการจัดการและการเก็บรักษาข้อมูลอธิบายไว้ที่หน้า /security; โปรดตรวจสอบก่อนตัดสินใจว่าเครื่องมือนี้เหมาะกับสถานการณ์ของคุณหรือไม่

คำถามที่เกี่ยวข้อง

← เพิ่มเติมเกี่ยวกับ หลักการทำงาน