Como os assistentes de entrevista com IA capturam áudio do sistema?

Por Aaron Cao · Atualizado em

Como os assistentes de entrevista com IA capturam áudio do sistema?
Os assistentes de entrevista com IA capturam o áudio do sistema localmente no seu computador usando as APIs de áudio do sistema operacional — interceptando o fluxo de saída do Zoom, Google Meet ou Teams — enquanto um fluxo separado do microfone captura sua voz. Nenhum bot de reunião entra na chamada.

Os assistentes de entrevista com IA capturam o áudio do sistema localmente no seu computador usando as APIs de áudio do sistema operacional — interceptando o fluxo de saída do Zoom, Google Meet ou Teams — enquanto um fluxo separado do microfone captura sua voz. Nenhum bot de reunião entra na chamada.

O que significa "áudio do sistema" no contexto de uma entrevista

Em uma entrevista em vídeo, há dois fluxos de áudio distintos na sua máquina:

  • Entrada do microfone — sua própria voz, capturada pelo microfone.
  • Saída de áudio do sistema — tudo o que seu computador está reproduzindo pelos alto-falantes, incluindo a voz do entrevistador vinda do Zoom, Google Meet ou Microsoft Teams.

Um assistente de entrevista com IA precisa de ambos os fluxos para acompanhar a conversa: as perguntas do entrevistador (áudio do sistema) e suas respostas (microfone). Capturar apenas um lado produz uma transcrição parcial e sugestões mais fracas.

Como o áudio do sistema é capturado no macOS e Windows

A captura de áudio do sistema depende das APIs de áudio do sistema operacional, e não do aplicativo de reunião em si. O mecanismo exato varia conforme a plataforma:

  • macOS — versões modernas expõem taps de áudio de processo e de sistema através do Core Audio. Abordagens mais antigas usavam dispositivos de áudio virtuais (drivers de loopback) que redirecionam a saída do sistema de volta como uma entrada.
  • Windows — a Windows Audio Session API (WASAPI) suporta captura em loopback, o que permite que um aplicativo grave qualquer coisa que esteja sendo reproduzida por um dispositivo de saída escolhido.

De qualquer forma, a captura acontece localmente no seu dispositivo. O assistente não precisa estar "dentro" do Zoom ou Teams; ele lê o áudio depois que o aplicativo de reunião já o decodificou para reprodução. Você pode ler mais sobre o pipeline geral na página inicial do SubcueAI ou no tutorial.

Como o SubcueAI aborda a captura dupla de áudio

O SubcueAI é um aplicativo desktop nativo para macOS e Windows. Ele usa captura dupla de áudio: um fluxo para seu microfone e um fluxo para o áudio do sistema vindo do aplicativo de reunião. Ambos os fluxos são transcritos para que o assistente possa identificar quem disse o quê.

  • Nenhum bot de reunião entra na chamada como participante.
  • Nenhum plugin de navegador ou extensão é instalado no Zoom, Google Meet ou Teams.
  • As sugestões aparecem em um overlay local flutuante na sua própria tela.

Como o overlay é renderizado localmente, ele não faz parte do fluxo de vídeo que você envia ao entrevistador. Para mais detalhes sobre as decisões de design por trás disso, consulte Sobre o SubcueAI ou como ele se compara a alternativas.

Limites honestos da captura de áudio do sistema

A captura de áudio do sistema funciona no seu próprio computador pessoal. Ela não altera o que um entrevistador pode observar nestas situações:

  • Compartilhamento de tela — se você compartilhar a tela inteira, qualquer janela de overlay local fica visível para o entrevistador.
  • Gravação de tela ou provas com supervisão — ferramentas de gravação e softwares de proctoring podem capturar overlays e processos em execução independentemente de como o áudio é interceptado.
  • Dispositivos gerenciados pela empresa ou bloqueados — políticas de TI podem impedir a instalação de aplicativos de terceiros ou o acesso às APIs de áudio.
  • Configurações apenas com fones de ouvido — se o aplicativo de reunião encaminhar o áudio para um fone Bluetooth de uma forma que o SO não exponha, a captura em loopback pode ser inconsistente.

Para mais contexto sobre o que é e o que não é observável, consulte Segurança.

FAQ

Um assistente de entrevista com IA precisa de um bot na reunião para ouvir o entrevistador?

Não. O áudio do sistema é capturado localmente no seu computador através de APIs de áudio em nível de SO (Core Audio no macOS, loopback WASAPI no Windows). O próprio aplicativo de reunião não precisa ser modificado, e nenhum bot precisa entrar como participante.

O Zoom, Google Meet ou Teams podem detectar que o áudio do sistema está sendo capturado?

Os aplicativos de reunião geralmente não conseguem identificar que outro aplicativo local está lendo a saída de áudio do sistema, porque isso acontece fora do processo deles. No entanto, eles podem ver qualquer coisa que você escolher compartilhar via compartilhamento de tela ou que uma ferramenta de gravação ou proctoring capture.

Quais permissões o SubcueAI precisa para capturar áudio?

No macOS, acesso ao microfone e a permissão de áudio do sistema introduzida em versões recentes do macOS. No Windows, acesso ao microfone e permissão para usar captura em loopback no seu dispositivo de saída. O tutorial em /tutorial mostra como conceder essas permissões.

A captura dupla de áudio funciona com fones de ouvido Bluetooth?

Normalmente sim, mas depende de como o SO expõe o dispositivo de saída. Fones com fio e a saída padrão do sistema são os mais confiáveis. Se o roteamento de áudio for incomum, mudar o alto-falante do aplicativo de reunião para o dispositivo padrão geralmente resolve problemas de captura.

O áudio capturado é enviado para algum lugar?

O SubcueAI processa o áudio para produzir transcrições e sugestões em tempo real. Detalhes sobre o tratamento e retenção de dados são descritos na página /security; revise-a antes de decidir se a ferramenta se adequa à sua situação.

Perguntas relacionadas

← Mais sobre Como funciona