AI 인터뷰 어시스턴트는 시스템 오디오를 어떻게 캡처하나요?
작성자 Aaron Cao · 업데이트

AI 인터뷰 어시스턴트는 운영체제의 오디오 API를 사용해 컴퓨터에서 로컬로 시스템 오디오를 캡처합니다. Zoom, Google Meet, Teams의 출력 스트림을 탭하는 동시에 별도의 마이크 스트림으로 본인의 목소리를 캡처합니다. 미팅에 봇이 참여하지 않습니다.
인터뷰 맥락에서 "시스템 오디오"의 의미
화상 인터뷰에서는 컴퓨터에 두 가지 구별되는 오디오 스트림이 존재합니다:
- 마이크 입력 — 마이크가 캡처하는 본인의 목소리입니다.
- 시스템 오디오 출력 — Zoom, Google Meet, Microsoft Teams에서 들리는 면접관의 목소리를 포함해, 컴퓨터가 스피커를 통해 재생하는 모든 소리입니다.
AI 인터뷰 어시스턴트가 대화를 따라가려면 두 스트림이 모두 필요합니다. 면접관의 질문(시스템 오디오)과 본인의 답변(마이크) 말입니다. 한쪽만 캡처하면 불완전한 자막과 약한 제안이 생성됩니다.
macOS와 Windows에서 시스템 오디오가 캡처되는 방식
시스템 오디오 캡처는 미팅 앱 자체가 아니라 운영체제의 오디오 API에 의존합니다. 정확한 메커니즘은 플랫폼마다 다릅니다:
- macOS — 최신 버전은 Core Audio를 통해 프로세스 및 시스템 오디오 탭을 노출합니다. 이전 방식은 시스템 출력을 입력으로 되돌려 라우팅하는 가상 오디오 장치(루프백 드라이버)를 사용했습니다.
- Windows — Windows Audio Session API(WASAPI)는 루프백 캡처를 지원해, 선택한 출력 장치에서 재생되는 모든 소리를 애플리케이션이 녹음할 수 있게 합니다.
어느 쪽이든 캡처는 본인의 기기에서 로컬로 일어납니다. 어시스턴트가 Zoom이나 Teams "내부"에 있을 필요는 없습니다. 미팅 앱이 재생을 위해 이미 디코딩한 오디오를 읽어들이기 때문입니다. 전체 파이프라인에 관한 자세한 내용은 SubcueAI homepage 또는 tutorial에서 확인할 수 있습니다.
SubcueAI의 듀얼 오디오 캡처 접근 방식
SubcueAI는 macOS와 Windows용 네이티브 데스크톱 앱입니다. 듀얼 오디오 캡처를 사용해, 한 스트림은 마이크에서, 다른 스트림은 미팅 앱의 시스템 오디오에서 가져옵니다. 두 스트림 모두 자막으로 변환되어 어시스턴트가 누가 무엇을 말했는지 구분할 수 있습니다.
- 미팅 봇이 참여자로 통화에 참여하지 않습니다.
- Zoom, Google Meet, Teams에 브라우저 플러그인이나 확장 프로그램이 설치되지 않습니다.
- 제안은 본인 화면의 플로팅 로컬 오버레이에 표시됩니다.
오버레이가 로컬에서 렌더링되기 때문에, 면접관에게 전송되는 비디오 스트림의 일부가 아닙니다. 이런 설계 결정의 배경에 대해서는 About SubcueAI 또는 how it compares to alternatives를 참조하세요.
시스템 오디오 캡처의 솔직한 한계
시스템 오디오 캡처는 본인의 개인 컴퓨터에서 작동합니다. 다음 상황에서는 면접관이 관찰할 수 있는 것을 바꾸지 않습니다:
- 화면 공유 — 전체 화면을 공유하면 모든 로컬 오버레이 창이 면접관에게 보입니다.
- 화면 녹화 또는 감독 시험 — 녹화 도구와 감독 소프트웨어는 오디오를 어떻게 탭하든 상관없이 오버레이와 실행 중인 프로세스를 캡처할 수 있습니다.
- 회사 관리 또는 잠긴 기기 — IT 정책이 타사 앱의 설치나 오디오 API 접근을 차단할 수 있습니다.
- 헤드폰 전용 환경 — 미팅 앱이 OS가 노출하지 않는 방식으로 블루투스 헤드셋에 오디오를 라우팅하면 루프백 캡처가 일관되지 않을 수 있습니다.
관찰 가능한 항목과 불가능한 항목에 관한 더 많은 맥락은 Security에서 확인하세요.