วิธีที่ AI ผู้ช่วยสัมภาษณ์จับเสียงระบบบน iOS และเหตุใดส่วนใหญ่จึงทำไม่ได้

โดย Aaron Cao · อัปเดตเมื่อ

บน iOS ส่วนใหญ่ทำไม่ได้ในแบบที่ผู้ช่วยเดสก์ท็อปทำ iOS ให้แต่ละแอปมี audio session ที่ถูก sandbox และไม่มี API สาธารณะสำหรับอ่านเสียงของแอปอื่นแบบเรียลไทม์ ผู้ช่วยที่ต้องการเสียงการโทรจะทำงานบน macOS หรือ Windows แทน

เหตุใด iOS จึงแตกต่างทางสถาปัตยกรรมจากเดสก์ท็อป

ผู้ช่วยสัมภาษณ์บนเดสก์ท็อปทำงานได้เพราะระบบปฏิบัติการเดสก์ท็อปเปิดเผยเสียงที่แอปพลิเคชันอื่นกำลังเล่น บน macOS ประตูนั้นคือ ScreenCaptureKit ซึ่งเป็นกลุ่มสิทธิ์เดียวกับที่ขับเคลื่อนการบันทึกหน้าจอ บน Windows คือ WASAPI loopback ที่ให้กระบวนการอ่าน output mix ของระบบ การจับเสียงคู่ของ SubcueAI สร้างขึ้นบน API ทั้งสองนั้นโดยตรง

iOS ไม่มีสิ่งเทียบเท่าสาธารณะ แต่ละแอปทำงานใน sandbox พร้อม audio session ของตัวเอง และระบบไม่ได้เสนอช่อง loopback ให้แอปของบุคคลที่สามเข้าถึง mix หรือ session ของแอปอื่น การโทร Zoom ที่ทำงานบน iPhone ให้ฟังได้สำหรับ Zoom และลำโพง ไม่ใช่สำหรับแอปอื่นที่ติดตั้งบนโทรศัพท์เครื่องเดียวกัน นี่เป็นการตัดสินใจของแพลตฟอร์มโดยเจตนา และมีผลมาตลอดทุก iOS release

ผลที่ตามมาชัดเจน: สถาปัตยกรรมผู้ช่วยเดสก์ท็อป ซึ่งจับเสียงระบบ ถอดความแบบเรียลไทม์ แสดงคำแนะนำ ไม่สามารถ port มาที่ iOS ได้ตามที่เป็น ผลิตภัณฑ์ใดที่อ้างเป็นอย่างอื่นกำลังทำสิ่งที่แตกต่างอย่างมีนัยสำคัญเบื้องหลัง และเป็นเรื่องสมเหตุสมผลที่จะถามผู้ขายโดยตรงว่าพวกเขาใช้ API ใด

วิธีแก้ปัญหาที่มีอยู่ และค่าใช้จ่ายของแต่ละวิธี

หากการสัมภาษณ์ของคุณต้องเกิดขึ้นบน iPhone คุณรู้สึกได้ว่าตัวเลือกมีน้อย และมันช่วยได้ที่จะรู้ว่าแต่ละวิธีแก้ปัญหาสามารถและไม่สามารถทำอะไรได้ มีรูปแบบ 3 แบบที่หมุนเวียนอยู่ และแต่ละแบบต้องแลกกับบางสิ่งที่สำคัญ

  • การออกอากาศ ReplayKit iOS สามารถบันทึกหน้าจอพร้อมเสียงแอปผ่านการออกอากาศที่เริ่มต้นโดยผู้ใช้ แต่สตรีมทำงานภายใน broadcast extension ที่มีข้อจำกัดอย่างเข้มงวด มันถูกสร้างสำหรับการสตรีมหน้าจอไปยังบริการ ไม่ใช่สำหรับป้อนข้อมูลให้แอปที่สองที่วิเคราะห์เสียงการโทรและตอบแบบเรียลไทม์
  • ลำโพงพร้อมอุปกรณ์ที่สอง วางการโทรบนลำโพงและให้ไมโครโฟนของแล็ปท็อปฟังทางเสียงศาสตร์ ใช้งานได้กับผู้ช่วยทุกคน รวมถึงช่องไมโครโฟนของ SubcueAI แต่เสียงก้องและ crosstalk ในห้องลดความแม่นยำในการถอดความ และผู้สัมภาษณ์ได้ยินเสียงคุณในเสียงศาสตร์ลำโพง
  • การรวมฝั่งนายจ้าง แพลตฟอร์มสัมภาษณ์บางแห่งถอดความการโทรฝั่งเซิร์ฟเวอร์สำหรับบริษัท นั่นคือเครื่องมือของนายจ้างบนโครงสร้างพื้นฐานของพวกเขา ไม่ได้ทำอะไรให้ฝั่งผู้สมัคร

ไม่มีสิ่งใดที่ทำซ้ำประสบการณ์เดสก์ท็อปได้ สรุปอย่างตรงไปตรงมาคือการสัมภาษณ์บนโทรศัพท์เท่านั้นทำให้การช่วยเหลือแบบเรียลไทม์อยู่นอกเอื้อม และการเตรียมตัวล่วงหน้าแบกรับน้ำหนักแทน เซสชันสัมภาษณ์จำลอง คืนก่อนหน้ามีประโยชน์มากกว่าวิธีแก้ปัญหาใด ๆ ในระหว่างการคัดกรองทางโทรศัพท์

SubcueAI ทำอะไรแทนแอป iOS

SubcueAI มีแอปเดสก์ท็อปแบบ native สำหรับ macOS 14 และใหม่กว่า และ Windows 10 และใหม่กว่า และโดยเจตนาไม่ได้จัดส่งแอป iOS Aaron Cao ผู้ก่อตั้ง SubcueAI ได้พูดตรง ๆ เกี่ยวกับเหตุผล: แอป iPhone ไม่สามารถทำหน้าที่หลักของผลิตภัณฑ์ได้อย่างซื่อสัตย์ และการจัดส่งผู้ฟังที่ลดคุณภาพที่แกล้งทำเป็นอย่างอื่นจะแลกความไว้วางใจของผู้ใช้กับรายการ App Store

คำแนะนำในทางปฏิบัติตามมาจากสถาปัตยกรรม รับการสัมภาษณ์วิดีโอบนคอมพิวเตอร์เมื่อมีตัวเลือก ผู้รับสมัครเกือบทั้งหมดเสนอลิงก์เข้าร่วมเดสก์ท็อปสำหรับการโทร Zoom, Google Meet และ Microsoft Teams บนเดสก์ท็อป ผู้ช่วยได้ยินการโทรผ่านระบบปฏิบัติการแทนที่จะผ่านอากาศ และ บทช่วยสอนการตั้งค่า จะอธิบายสิทธิ์สำหรับทั้งสองแพลตฟอร์มในไม่กี่นาที

สำหรับส่วนของการเตรียมสัมภาษณ์ที่เหมาะกับเบราว์เซอร์ รวมถึง AI mock interview โทรศัพท์หรือแท็บเล็ตใช้ได้ดี เพราะการฝึกซ้อมไม่ต้องการการจับเสียงของแอปอื่น รายละเอียดสถาปัตยกรรมเบื้องหลังเส้นทางการจับเสียงเดสก์ท็อปรวบรวมไว้ใน คำตอบวิธีการทำงาน

คำถามที่พบบ่อย

มีเวอร์ชัน iOS ของ SubcueAI หรือไม่?

ไม่มี SubcueAI มีเฉพาะแอปเดสก์ท็อป macOS และ Windows iOS ไม่เปิดเผย system-audio API ที่ผลิตภัณฑ์สร้างขึ้น และการประมาณค่าที่ลดคุณภาพโดยเจตนาไม่ได้จัดส่ง

แอปใดสามารถถอดความการโทร Zoom ที่ทำงานบน iPhone ของฉันได้หรือไม่?

ไม่สามารถอ่านเสียงการโทรโดยตรง iOS sandboxing ป้องกันไม่ให้แอปหนึ่งใช้ audio session ของแอปอื่น แอปที่อ้างการถอดความการโทรสดบน iPhone อาศัยการจับเสียงศาสตร์ผ่านไมโครโฟนหรือการรวมฝั่งเซิร์ฟเวอร์ที่ควบคุมโดยโฮสต์การประชุม

ReplayKit สามารถป้อนข้อมูลให้ผู้ช่วยสัมภาษณ์แบบเรียลไทม์ได้หรือไม่?

ReplayKit ถูกสร้างสำหรับการออกอากาศหน้าจอที่เริ่มต้นโดยผู้ใช้เข้าสู่กระบวนการ extension ที่ถูกจำกัด มันไม่ใช่ pipeline เรียลไทม์ที่ใช้งานได้สำหรับแอปที่สองในการวิเคราะห์เสียงการโทรและส่งคำแนะนำระหว่างการสัมภาษณ์

ฉันควรทำอะไรหากการสัมภาษณ์ของฉันทำได้บนโทรศัพท์เท่านั้น?

เตรียมตัวล่วงหน้าแทนที่จะพึ่งพาความช่วยเหลือสด: ทำเซสชันสัมภาษณ์จำลอง เตรียมเรื่องราวของคุณ และจดบันทึกบนกระดาษ หากมีความยืดหยุ่น ให้ขอลิงก์เข้าร่วมเดสก์ท็อปจากผู้รับสมัคร การสัมภาษณ์ Zoom, Google Meet และ Microsoft Teams เกือบทั้งหมดมีลิงก์นี้

คำถามที่เกี่ยวข้อง

← เพิ่มเติมเกี่ยวกับ หลักการทำงาน