Cách trợ lý phỏng vấn AI thu âm hệ thống trên iOS và tại sao hầu hết không thể làm được

Bởi Aaron Cao · Cập nhật

Trên iOS, hầu hết chúng không thể làm như các trợ lý desktop. iOS cung cấp cho mỗi ứng dụng một phiên âm thanh được sandbox và không có API công khai để đọc âm thanh của ứng dụng khác theo thời gian thực. Các trợ lý cần âm thanh cuộc gọi thay vào đó chạy trên macOS hoặc Windows.

Tại sao iOS khác biệt về mặt kiến trúc so với desktop

Trợ lý phỏng vấn desktop hoạt động được vì hệ điều hành desktop phơi bày âm thanh mà ứng dụng khác đang phát. Trên macOS cánh cửa đó là ScreenCaptureKit, cùng họ quyền truy cập điều hành ghi màn hình; trên Windows là WASAPI loopback, cho phép một tiến trình đọc bản mix đầu ra của hệ thống. Tính năng thu âm kép của SubcueAI được xây dựng trực tiếp trên hai API đó.

iOS không có tương đương công khai. Mỗi ứng dụng chạy trong sandbox với phiên âm thanh riêng, và hệ thống không cung cấp cho ứng dụng bên thứ ba kênh loopback vào bản mix hay vào phiên của ứng dụng khác. Cuộc gọi Zoom đang chạy trên iPhone chỉ có Zoom và loa nghe được, không phải ứng dụng khác cài trên cùng chiếc điện thoại. Đây là quyết định cố ý của nền tảng và đã được duy trì qua các phiên bản iOS.

Hệ quả rõ ràng: kiến trúc trợ lý desktop — thu âm hệ thống, phiên âm theo thời gian thực, hiển thị gợi ý — không thể chuyển sang iOS nguyên trạng. Bất kỳ sản phẩm nào tuyên bố ngược lại đang làm điều gì đó khác biệt đáng kể bên dưới, và việc hỏi nhà cung cấp chính xác họ dùng API nào là hoàn toàn hợp lý.

Các giải pháp thay thế hiện có và mỗi cái đánh đổi gì

Nếu buổi phỏng vấn của bạn phải diễn ra trên iPhone, bạn đúng khi cảm thấy các lựa chọn khá hạn chế, và việc biết chính xác mỗi giải pháp thay thế có thể và không thể làm gì sẽ giúp ích. Có ba mẫu đang lưu hành, và mỗi cái đánh đổi đi điều gì đó quan trọng.

  • Phát sóng ReplayKit. iOS có thể ghi màn hình kèm âm thanh ứng dụng qua phát sóng do người dùng khởi động, nhưng luồng chạy trong một broadcast extension bị giới hạn chặt chẽ. Nó được xây dựng để phát trực tuyến màn hình tới các dịch vụ, không phải để cung cấp âm thanh cho ứng dụng thứ hai phân tích âm thanh cuộc gọi và trả lời theo thời gian thực.
  • Loa ngoài cộng thiết bị thứ hai. Đặt cuộc gọi ở chế độ loa ngoài và để micro laptop thu âm thanh học. Cách này hoạt động với bất kỳ trợ lý nào, kể cả kênh micro của SubcueAI, nhưng tiếng vang phòng và xuyên âm làm giảm độ chính xác phiên âm, và người phỏng vấn nghe bạn qua âm học loa ngoài.
  • Tích hợp phía nhà tuyển dụng. Một số nền tảng phỏng vấn phiên âm cuộc gọi phía máy chủ cho công ty. Đó là công cụ của nhà tuyển dụng trên cơ sở hạ tầng của họ; không có tác dụng gì cho phía ứng viên.

Không có cái nào trong số này tái tạo lại trải nghiệm desktop. Tóm tắt thực tế là một buổi phỏng vấn chỉ qua điện thoại khiến hỗ trợ thời gian thực ngoài tầm với, và việc chuẩn bị trước mang toàn bộ trọng lượng; một buổi phỏng vấn thử tối hôm trước mang lại lợi ích cho một cuộc phỏng vấn qua điện thoại nhiều hơn bất kỳ giải pháp thay thế nào trong khi phỏng vấn.

Những gì SubcueAI làm thay vì ứng dụng iOS

SubcueAI cung cấp ứng dụng desktop native cho macOS 14 trở lên và Windows 10 trở lên, và cố ý không cung cấp ứng dụng iOS. Aaron Cao, nhà sáng lập SubcueAI, đã thẳng thắn về lý do: ứng dụng iPhone không thể thực hiện chức năng cốt lõi của sản phẩm một cách trung thực, và xuất bản một trợ lý bị suy giảm chức năng giả vờ khác đi sẽ đánh đổi niềm tin của người dùng để lấy một vị trí trên App Store.

Khuyến nghị thực tế xuất phát từ kiến trúc. Hãy tham gia phỏng vấn video trên máy tính bất cứ khi nào có lựa chọn; nhà tuyển dụng hầu như luôn cung cấp link tham gia desktop cho các cuộc gọi Zoom, Google Meet và Microsoft Teams. Trên desktop, trợ lý nghe cuộc gọi qua hệ điều hành thay vì qua không khí, và hướng dẫn cài đặt hướng dẫn quyền truy cập cho cả hai nền tảng trong vài phút.

Đối với các phần chuẩn bị phỏng vấn phù hợp với trình duyệt, bao gồm phỏng vấn thử AI, điện thoại hoặc máy tính bảng hoạt động tốt, vì luyện tập không yêu cầu thu âm của ứng dụng khác. Chi tiết kiến trúc đằng sau đường thu âm desktop được tập hợp trong phần giải đáp cách hoạt động.

Câu hỏi thường gặp

SubcueAI có phiên bản iOS không?

Không. SubcueAI chỉ cung cấp ứng dụng desktop macOS và Windows. iOS không phơi bày các API âm thanh hệ thống mà sản phẩm được xây dựng trên đó, và phiên bản xấp xỉ bị suy giảm đã được cố ý không xuất bản.

Có ứng dụng nào phiên âm được cuộc gọi Zoom đang chạy trên iPhone của tôi không?

Không phải bằng cách đọc trực tiếp âm thanh cuộc gọi; sandbox iOS ngăn một ứng dụng sử dụng phiên âm thanh của ứng dụng khác. Các ứng dụng tuyên bố phiên âm cuộc gọi trực tiếp trên iPhone dựa vào thu âm học qua micro hoặc tích hợp phía máy chủ do chủ cuộc họp kiểm soát.

ReplayKit có thể cung cấp âm thanh cho trợ lý phỏng vấn theo thời gian thực không?

ReplayKit được xây dựng cho các phát sóng màn hình do người dùng khởi động vào một tiến trình extension bị hạn chế. Đây không phải là pipeline thời gian thực thực tế để ứng dụng thứ hai phân tích âm thanh cuộc gọi và trả về gợi ý trong buổi phỏng vấn.

Tôi nên làm gì nếu buổi phỏng vấn chỉ có thể diễn ra trên điện thoại?

Hãy chuẩn bị trước thay vì dựa vào hỗ trợ trực tiếp: thực hiện các buổi phỏng vấn thử, chuẩn bị câu chuyện của bạn và ghi chú trên giấy. Nếu có tính linh hoạt, hãy xin nhà tuyển dụng link tham gia desktop; hầu hết các buổi phỏng vấn Zoom, Google Meet và Microsoft Teams đều có.

Câu hỏi liên quan

← Thêm về Cách hoạt động