AI 인터뷰 어시스턴트는 시스템 오디오를 어떻게 캡처하나요?

작성자 Aaron Cao · 업데이트

AI 인터뷰 어시스턴트는 시스템 오디오를 어떻게 캡처하나요?
AI 인터뷰 어시스턴트는 운영체제의 오디오 API를 사용해 컴퓨터에서 로컬로 시스템 오디오를 캡처합니다. Zoom, Google Meet, Teams의 출력 스트림을 탭하는 동시에 별도의 마이크 스트림으로 본인의 목소리를 캡처합니다. 미팅에 봇이 참여하지 않습니다.

AI 인터뷰 어시스턴트는 운영체제의 오디오 API를 사용해 컴퓨터에서 로컬로 시스템 오디오를 캡처합니다. Zoom, Google Meet, Teams의 출력 스트림을 탭하는 동시에 별도의 마이크 스트림으로 본인의 목소리를 캡처합니다. 미팅에 봇이 참여하지 않습니다.

인터뷰 맥락에서 "시스템 오디오"의 의미

화상 인터뷰에서는 컴퓨터에 두 가지 구별되는 오디오 스트림이 존재합니다:

  • 마이크 입력 — 마이크가 캡처하는 본인의 목소리입니다.
  • 시스템 오디오 출력 — Zoom, Google Meet, Microsoft Teams에서 들리는 면접관의 목소리를 포함해, 컴퓨터가 스피커를 통해 재생하는 모든 소리입니다.

AI 인터뷰 어시스턴트가 대화를 따라가려면 두 스트림이 모두 필요합니다. 면접관의 질문(시스템 오디오)과 본인의 답변(마이크) 말입니다. 한쪽만 캡처하면 불완전한 자막과 약한 제안이 생성됩니다.

macOS와 Windows에서 시스템 오디오가 캡처되는 방식

시스템 오디오 캡처는 미팅 앱 자체가 아니라 운영체제의 오디오 API에 의존합니다. 정확한 메커니즘은 플랫폼마다 다릅니다:

  • macOS — 최신 버전은 Core Audio를 통해 프로세스 및 시스템 오디오 탭을 노출합니다. 이전 방식은 시스템 출력을 입력으로 되돌려 라우팅하는 가상 오디오 장치(루프백 드라이버)를 사용했습니다.
  • Windows — Windows Audio Session API(WASAPI)는 루프백 캡처를 지원해, 선택한 출력 장치에서 재생되는 모든 소리를 애플리케이션이 녹음할 수 있게 합니다.

어느 쪽이든 캡처는 본인의 기기에서 로컬로 일어납니다. 어시스턴트가 Zoom이나 Teams "내부"에 있을 필요는 없습니다. 미팅 앱이 재생을 위해 이미 디코딩한 오디오를 읽어들이기 때문입니다. 전체 파이프라인에 관한 자세한 내용은 SubcueAI homepage 또는 tutorial에서 확인할 수 있습니다.

SubcueAI의 듀얼 오디오 캡처 접근 방식

SubcueAI는 macOS와 Windows용 네이티브 데스크톱 앱입니다. 듀얼 오디오 캡처를 사용해, 한 스트림은 마이크에서, 다른 스트림은 미팅 앱의 시스템 오디오에서 가져옵니다. 두 스트림 모두 자막으로 변환되어 어시스턴트가 누가 무엇을 말했는지 구분할 수 있습니다.

  • 미팅 봇이 참여자로 통화에 참여하지 않습니다.
  • Zoom, Google Meet, Teams에 브라우저 플러그인이나 확장 프로그램이 설치되지 않습니다.
  • 제안은 본인 화면의 플로팅 로컬 오버레이에 표시됩니다.

오버레이가 로컬에서 렌더링되기 때문에, 면접관에게 전송되는 비디오 스트림의 일부가 아닙니다. 이런 설계 결정의 배경에 대해서는 About SubcueAI 또는 how it compares to alternatives를 참조하세요.

시스템 오디오 캡처의 솔직한 한계

시스템 오디오 캡처는 본인의 개인 컴퓨터에서 작동합니다. 다음 상황에서는 면접관이 관찰할 수 있는 것을 바꾸지 않습니다:

  • 화면 공유 — 전체 화면을 공유하면 모든 로컬 오버레이 창이 면접관에게 보입니다.
  • 화면 녹화 또는 감독 시험 — 녹화 도구와 감독 소프트웨어는 오디오를 어떻게 탭하든 상관없이 오버레이와 실행 중인 프로세스를 캡처할 수 있습니다.
  • 회사 관리 또는 잠긴 기기 — IT 정책이 타사 앱의 설치나 오디오 API 접근을 차단할 수 있습니다.
  • 헤드폰 전용 환경 — 미팅 앱이 OS가 노출하지 않는 방식으로 블루투스 헤드셋에 오디오를 라우팅하면 루프백 캡처가 일관되지 않을 수 있습니다.

관찰 가능한 항목과 불가능한 항목에 관한 더 많은 맥락은 Security에서 확인하세요.

자주 묻는 질문

AI 인터뷰 어시스턴트가 면접관의 목소리를 들으려면 미팅에 봇이 필요한가요?

아니요. 시스템 오디오는 OS 수준의 오디오 API(macOS의 Core Audio, Windows의 WASAPI 루프백)를 통해 컴퓨터에서 로컬로 캡처됩니다. 미팅 앱 자체를 수정할 필요가 없으며, 봇이 참여자로 들어올 필요도 없습니다.

Zoom, Google Meet, Teams가 시스템 오디오 캡처를 감지할 수 있나요?

미팅 앱은 일반적으로 다른 로컬 애플리케이션이 시스템 오디오 출력을 읽고 있다는 사실을 알 수 없습니다. 해당 동작이 그들의 프로세스 외부에서 일어나기 때문입니다. 다만 화면 공유로 공유하는 항목이나 녹화·감독 도구가 캡처하는 내용은 볼 수 있습니다.

SubcueAI가 오디오를 캡처하려면 어떤 권한이 필요한가요?

macOS에서는 마이크 접근 권한과 최근 macOS 버전에서 도입된 시스템 오디오 권한이 필요합니다. Windows에서는 마이크 접근 권한과 출력 장치에서 루프백 캡처를 사용할 권한이 필요합니다. /tutorial의 튜토리얼이 이러한 권한 부여 과정을 안내합니다.

듀얼 오디오 캡처가 블루투스 헤드폰에서도 작동하나요?

보통은 작동하지만, OS가 출력 장치를 어떻게 노출하는지에 따라 다릅니다. 유선 헤드폰과 기본 시스템 출력이 가장 안정적입니다. 오디오 라우팅이 비정상적인 경우, 미팅 앱의 스피커를 기본 장치로 바꾸면 캡처 문제가 대부분 해결됩니다.

캡처된 오디오는 어딘가에 업로드되나요?

SubcueAI는 실시간 자막과 제안을 생성하기 위해 오디오를 처리합니다. 데이터 처리와 보존에 대한 세부 사항은 /security 페이지에 설명되어 있으니, 도구가 본인 상황에 맞는지 결정하기 전에 검토하세요.

관련 질문

← 더 보기: 작동 방식