AI 면접 어시스턴트가 면접관과 지원자 양측을 전사할 수 있나요?

작성자 Aaron Cao · 업데이트

네. 시스템 오디오(스피커에서 들리는 면접관의 목소리)와 마이크를 동시에 캡처하여 AI 면접 어시스턴트는 대화 양측을 실시간으로 전사할 수 있습니다. SubcueAI는 네이티브 듀얼 오디오 캡처로 이를 구현하며, 미팅 봇이 필요하지 않습니다.

양측 전사에 두 개의 오디오 소스가 필요한 이유

단일 마이크로 면접을 녹음해 본 적이 있다면 이 문제를 잘 아실 겁니다. 내 목소리는 크고 선명하게 들리지만, 스피커나 헤드폰을 통해 들리는 면접관의 목소리는 작고 에코가 있거나 아예 잡히지 않습니다. 양측을 깨끗하게 전사하려면 두 개의 독립된 오디오 소스가 필요합니다.

AI 면접 어시스턴트는 두 스트림을 동시에 캡처하여 이 문제를 해결합니다. 시스템 오디오(Zoom, Google Meet, 또는 Microsoft Teams에서의 면접관 목소리를 포함해 컴퓨터가 재생하는 모든 소리)와 나의 마이크(내 답변)입니다. 각 스트림은 독립적으로 전사되므로 발언이 하나의 뒤섞인 트랙으로 합쳐지지 않고 올바른 화자에게 귀속됩니다.

SubcueAI가 면접관과 나를 동시에 캡처하는 방법

SubcueAI는 macOSWindows에서 실행되는 네이티브 데스크톱 앱입니다——브라우저 플러그인이 아니며, 미팅에 참가하는 봇도 아닙니다. macOS에서는 운영 체제의 화면 캡처 오디오 API를 통해 시스템 오디오를 캡처하고, Windows에서는 시스템 루프백 장치를 사용합니다. 마이크는 일반 입력 장치를 통해 병렬로 캡처됩니다.

Zoom을 통해 시니어 포지션에 면접을 보는 백엔드 엔지니어를 생각해 보세요. 채용 담당자의 질문은 시스템 오디오로 전달되고, 지원자의 구두 답변은 마이크 오디오로 전달되며, SubcueAI는 각각을 실시간으로 전사합니다. 두 스트림이 독립적으로 유지되기 때문에 전사본은 구분 없는 하나의 블록이 아니라 레이블이 붙은 대화로 읽힙니다.

캡처는 모두 내 기기에서 이루어지며, 전사 내용을 보여주는 플로팅 오버레이도 데스크톱 로컬에 있습니다. 설치 안내에서 설정 단계를 확인할 수 있습니다.

화자 분리, 지연 시간, 정확도

면접관과 지원자를 독립 채널에 유지하면 전사본이 깔끔해질 뿐만 아니라 어시스턴트가 어느 턴에 반응해야 하는지 판단할 수 있습니다. 면접관 채널의 질문이 답변 제안이 응해야 할 내용이고, 내 채널은 컨텍스트이지 새로운 프롬프트가 아닙니다.

  • 화자 레이블링은 각 스트림의 소유자가 명확하므로 2-소스 설계에서 자연스럽게 이루어집니다.
  • 지연 시간은 음성-텍스트 변환 경로에 따라 다릅니다. 스트리밍 전사는 상대방이 말하는 동안 부분 텍스트를 반환합니다.
  • 정확도는 시스템 오디오 신호가 깨끗할 때 가장 높습니다——좋은 헤드셋과 조용한 환경은 두 채널 모두에 도움이 됩니다.

캡처부터 제안까지의 전체 경로는 작동 방식 허브를 참조하세요.

듀얼 전사가 적용되지 않는 경우

양측 전사는 오디오가 실제로 컴퓨터의 출력 및 입력 장치에 도달한다는 것을 전제로 합니다. 모든 상황을 커버하지는 않으며, 솔직하게 말씀드립니다.

  • 제어권이 없는 회사 관리 기기에서는 데스크톱 앱을 설치조차 할 수 없을 수 있습니다.
  • 감독 환경과 원격 모니터링 소프트웨어는 백그라운드 앱이나 화면 활동을 제한할 수 있습니다.
  • 세션이 상대방 측에서 화면 녹화되고 있다면, 그 녹화는 어시스턴트가 로컬에서 수행하는 것과 무관합니다.
  • 오디오가 컴퓨터를 통과하지 않는 대면 라운드는 시스템 오디오 캡처 범위에 포함되지 않습니다.

SubcueAI는 내 기기에서의 원격 면접을 위해 구축되었습니다. 한계는 탐지 가능성 허브에서 다룹니다.

자주 묻는 질문

면접관의 목소리도 전사되나요, 아니면 내 목소리만 전사되나요?

양쪽 모두입니다. 면접관의 목소리는 시스템 오디오(컴퓨터가 재생하는 소리)로 캡처되고, 내 목소리는 마이크 오디오로 캡처되므로 전사본에 대화 양측이 표시됩니다.

미팅 봇이나 브라우저 확장 프로그램이 필요한가요?

아니요. SubcueAI는 로컬에서 시스템 오디오와 마이크 오디오를 캡처하는 네이티브 데스크톱 앱입니다——통화에 참가하는 것은 없으며, 브라우저 플러그인도 없습니다.

누가 무엇을 말했는지 구별할 수 있나요?

네. 면접관과 지원자가 두 개의 독립 오디오 스트림으로 들어오기 때문에 각 전사 행에는 이미 명확한 소유자가 있어 화자 레이블링이 기본으로 제공됩니다.

Zoom, Google Meet, Microsoft Teams에서 작동하나요?

네. 시스템 오디오 캡처는 미팅 플랫폼에 독립적이므로 통화가 Zoom, Google Meet, 또는 Microsoft Teams에서 실행되어도 면접관의 목소리가 전사됩니다.

대면 면접의 양측을 전사할 수 있나요?

아니요. 시스템 오디오 캡처는 오디오가 컴퓨터를 통과할 때만 작동합니다. 통화를 하지 않는 대면 라운드는 지원 범위에 포함되지 않습니다.

관련 질문

← 더 보기: 작동 방식