Trợ lý phỏng vấn AI có thể phiên âm cả người phỏng vấn lẫn ứng viên không?

Bởi Aaron Cao · Cập nhật

Có. Bằng cách thu âm hệ thống (giọng của người phỏng vấn từ loa của bạn) và micrô cùng một lúc, trợ lý phỏng vấn AI có thể phiên âm cả hai bên cuộc trò chuyện theo thời gian thực. SubcueAI thực hiện điều này với tính năng thu âm kép gốc — không cần bot tham gia cuộc họp.

Tại sao phiên âm cả hai bên cần hai nguồn âm thanh

Nếu bạn đã từng cố ghi âm một buổi phỏng vấn với một micrô duy nhất, bạn đã biết vấn đề: giọng của bạn to và rõ ràng, nhưng người phỏng vấn — phát ra qua loa hoặc tai nghe của bạn — thì nhỏ, vang vọng hoặc bị bỏ sót hoàn toàn. Để phiên âm sạch sẽ cả hai bên cần hai nguồn âm thanh riêng biệt.

Trợ lý phỏng vấn AI giải quyết điều này bằng cách thu hai luồng cùng lúc: âm thanh hệ thống (mọi thứ máy tính của bạn phát ra, bao gồm giọng người phỏng vấn trong Zoom, Google Meet hoặc Microsoft Teams) và micrô của bạn (câu trả lời của chính bạn). Mỗi luồng được phiên âm độc lập, vì vậy các từ được gán cho đúng người nói thay vì bị trộn lẫn thành một bản ghi hỗn độn.

SubcueAI thu âm người phỏng vấn và bạn như thế nào

SubcueAI chạy như một ứng dụng desktop gốc trên macOSWindows — không phải plugin trình duyệt, và không phải bot tham gia cuộc họp. Trên macOS, nó truy cập âm thanh hệ thống qua các API thu âm màn hình của hệ điều hành; trên Windows, nó sử dụng thiết bị loopback hệ thống. Micrô của bạn được thu song song qua thiết bị đầu vào thông thường.

Hãy tưởng tượng một kỹ sư backend đang phỏng vấn cho vị trí senior qua Zoom: câu hỏi của hiring manager đến dưới dạng âm thanh hệ thống, câu trả lời bằng lời của ứng viên đến dưới dạng âm thanh micrô, và SubcueAI phiên âm mỗi thứ theo thời gian thực. Vì hai luồng vẫn riêng biệt, bản phiên âm được đọc như một cuộc trao đổi có nhãn thay vì một khối thống nhất.

Việc thu âm xảy ra hoàn toàn trên máy của bạn, và lớp phủ nổi hiển thị bản phiên âm là cục bộ trên máy tính để bàn của bạn. Một hướng dẫn thiết lập ngắn bao gồm phần cài đặt.

Phân tách người nói, độ trễ và độ chính xác

Giữ người phỏng vấn và ứng viên trên các kênh riêng biệt làm nhiều hơn là sắp xếp bản phiên âm — nó giúp trợ lý quyết định lượt nào cần xử lý. Một câu hỏi trên kênh của người phỏng vấn là thứ mà gợi ý câu trả lời cần phản hồi; kênh của bạn là ngữ cảnh, không phải lời nhắc mới.

  • Gán nhãn người nói xuất hiện tự nhiên từ thiết kế hai nguồn, vì mỗi luồng có chủ sở hữu đã biết.
  • Độ trễ phụ thuộc vào đường dẫn chuyển giọng nói thành văn bản; phiên âm trực tuyến trả về văn bản một phần trong khi người đó vẫn đang nói.
  • Độ chính xác tốt nhất với tín hiệu âm thanh hệ thống sạch — tai nghe tốt và phòng yên tĩnh giúp cả hai kênh.

Để xem toàn bộ đường dẫn từ thu âm đến gợi ý, hãy xem hub cách hoạt động.

Khi nào phiên âm kép không áp dụng

Phiên âm hai chiều giả định rằng âm thanh thực sự đến các thiết bị đầu ra và đầu vào của máy tính bạn. Nó không bao gồm mọi tình huống, và thành thật mà nói:

  • Trên thiết bị được quản lý bởi công ty mà bạn không kiểm soát, bạn có thể không thể cài đặt ứng dụng desktop.
  • Môi trường được giám sát và phần mềm giám sát từ xa có thể hạn chế ứng dụng chạy nền hoặc hoạt động màn hình.
  • Nếu một phiên được quay màn hình ở phía bên kia, bản ghi đó độc lập với bất cứ điều gì trợ lý của bạn thực hiện cục bộ.
  • Các vòng phỏng vấn trực tiếp, nơi âm thanh không bao giờ đi qua máy tính của bạn, nằm ngoài phạm vi thu âm hệ thống.

SubcueAI được xây dựng cho các buổi phỏng vấn từ xa của chính bạn trên máy của bạn; giới hạn của nó được trình bày trên hub khả năng phát hiện.

Câu hỏi thường gặp

Giọng của người phỏng vấn có được phiên âm không, hay chỉ giọng của tôi?

Cả hai. Giọng của người phỏng vấn được thu là âm thanh hệ thống (những gì máy tính của bạn phát ra) và giọng của bạn là âm thanh micrô, vì vậy bản phiên âm hiển thị cả hai bên cuộc trò chuyện.

Tôi có cần bot cuộc họp hoặc tiện ích mở rộng trình duyệt không?

Không. SubcueAI là ứng dụng desktop gốc thu âm hệ thống và micrô cục bộ — không có gì tham gia cuộc gọi, và không có plugin trình duyệt.

Nó có thể biết ai đã nói gì không?

Có. Vì người phỏng vấn và ứng viên đến trên hai luồng âm thanh riêng biệt, mỗi dòng được phiên âm đã có chủ sở hữu đã biết, vì vậy gán nhãn người nói được tích hợp sẵn.

Điều này có hoạt động trên Zoom, Google Meet và Microsoft Teams không?

Có. Thu âm hệ thống độc lập với nền tảng cuộc họp, vì vậy giọng của người phỏng vấn được phiên âm dù cuộc gọi chạy trên Zoom, Google Meet hay Microsoft Teams.

Nó có phiên âm cả hai bên của buổi phỏng vấn trực tiếp không?

Không. Thu âm hệ thống chỉ hoạt động khi âm thanh đi qua máy tính của bạn. Các vòng trực tiếp, nơi bạn không trong một cuộc gọi, nằm ngoài phạm vi.

Câu hỏi liên quan

← Thêm về Cách hoạt động