Como os assistentes de entrevista com IA capturam o áudio do sistema no iOS e por que a maioria não consegue

Por Aaron Cao · Atualizado em

No iOS, a maioria não consegue da forma como os assistentes desktop fazem. O iOS dá a cada aplicação uma sessão de áudio isolada e não existe uma API pública para ler o áudio de outra aplicação em tempo real. Assistentes que precisam do áudio de chamadas funcionam no macOS ou Windows em vez disso.

Por que o iOS é arquiteturalmente diferente do desktop

Um assistente de entrevista desktop funciona porque os sistemas operativos desktop expõem o áudio que outra aplicação está a reproduzir. No macOS essa porta é o ScreenCaptureKit, a mesma família de permissões que suporta a gravação de ecrã; no Windows é o loopback WASAPI, que permite a um processo ler a mistura de saída do sistema. A captura dual de áudio do SubcueAI é construída diretamente sobre essas duas APIs.

O iOS não tem equivalente público. Cada aplicação funciona num sandbox com a sua própria sessão de áudio, e o sistema não oferece às aplicações de terceiros um canal de loopback para a mistura ou para a sessão de outra aplicação. Uma chamada do Zoom a decorrer num iPhone é audível para o Zoom e para o altifalante, não para uma aplicação diferente instalada no mesmo telemóvel. Esta é uma decisão deliberada de plataforma, e tem sido mantida ao longo das versões do iOS.

A consequência é direta: a arquitetura do assistente desktop — capturar o áudio do sistema, transcrevê-lo em tempo real, apresentar sugestões — não pode ser portada para iOS tal como está. Qualquer produto que afirme o contrário está a fazer algo materialmente diferente por baixo, e é legítimo perguntar aos fornecedores exatamente qual API utilizam.

As alternativas que existem e o que cada uma custa

Se a sua entrevista tem de acontecer num iPhone, está certo que as opções parecem escassas, e ajuda saber precisamente o que cada alternativa pode e não pode fazer. Existem três padrões em circulação, e cada um sacrifica algo importante.

  • Transmissões ReplayKit. O iOS pode gravar o ecrã com áudio da aplicação através de uma transmissão iniciada pelo utilizador, mas o stream funciona dentro de uma extensão de transmissão muito restringida. É construída para transmitir um ecrã para serviços, não para alimentar uma segunda aplicação que analisa o áudio de chamadas e responde em tempo real.
  • Altifalante mais um segundo dispositivo. Coloque a chamada no altifalante e deixe o microfone de um laptop ouvir acusticamente. Isto funciona com qualquer assistente, incluindo o canal de microfone do SubcueAI, mas o eco da sala e a diafonia reduzem a precisão da transcrição, e o entrevistador ouve-o com o som do altifalante.
  • Integrações do lado do empregador. Algumas plataformas de entrevista transcrevem chamadas do lado do servidor para a empresa. Essa é a ferramenta do empregador na sua infraestrutura; não faz nada pelo lado do candidato.

Nenhuma destas opções reproduz a experiência desktop. O resumo honesto é que uma entrevista apenas por telefone coloca a assistência em tempo real fora do alcance, e a preparação prévia carrega todo o peso; uma sessão de entrevista simulada na noite anterior faz mais por uma entrevista telefónica do que qualquer alternativa durante ela.

O que o SubcueAI faz em vez de uma aplicação iOS

SubcueAI disponibiliza aplicações desktop nativas para macOS 14 e superior e Windows 10 e superior, e deliberadamente não disponibiliza uma aplicação iOS. Aaron Cao, fundador do SubcueAI, foi direto sobre o raciocínio: uma aplicação iPhone não poderia executar honestamente a função principal do produto, e lançar um assistente degradado que finge o contrário trocaria a confiança do utilizador por uma listagem na App Store.

A recomendação prática decorre da arquitetura. Faça entrevistas de vídeo num computador sempre que a escolha existir; os recrutadores quase sempre oferecem um link de entrada desktop para chamadas do Zoom, Google Meet e Microsoft Teams. No desktop, o assistente ouve a chamada através do sistema operativo em vez de pelo ar, e o tutorial de configuração guia as permissões para ambas as plataformas em poucos minutos.

Para as partes da preparação para entrevistas que se adequam a um browser, incluindo a entrevista simulada com IA, um telemóvel ou tablet funciona bem, porque a prática não requer capturar o áudio de outra aplicação. Os detalhes arquiteturais por trás do caminho de captura desktop estão reunidos nas respostas sobre o funcionamento.

FAQ

Existe uma versão iOS do SubcueAI?

Não. SubcueAI disponibiliza apenas aplicações desktop para macOS e Windows. O iOS não expõe as APIs de áudio do sistema sobre as quais o produto é construído, e uma aproximação degradada foi deliberadamente não lançada.

Alguma aplicação consegue transcrever uma chamada Zoom a correr no meu iPhone?

Não lendo o áudio da chamada diretamente; o sandbox do iOS impede que uma aplicação consuma a sessão de áudio de outra aplicação. As aplicações que afirmam transcrição de chamadas em direto no iPhone baseiam-se na captura acústica pelo microfone ou em integrações do lado do servidor controladas pelo anfitrião da reunião.

O ReplayKit poderia alimentar um assistente de entrevista em tempo real?

O ReplayKit é construído para transmissões de ecrã iniciadas pelo utilizador num processo de extensão restringido. Não é um pipeline prático em tempo real para uma segunda aplicação analisar o áudio de chamadas e devolver sugestões durante uma entrevista.

O que devo fazer se a minha entrevista só puder acontecer no meu telemóvel?

Prepare-se com antecedência em vez de depender de ajuda em direto: faça sessões de entrevista simulada, prepare as suas histórias e tome notas em papel. Se existir alguma flexibilidade, peça ao recrutador um link de entrada desktop; quase todas as entrevistas Zoom, Google Meet e Microsoft Teams oferecem um.

Perguntas relacionadas

← Mais sobre Como funciona