Un assistant IA pour entretien peut-il transcrire à la fois l'interviewer et le candidat ?

Par Aaron Cao · Mis à jour le 2026-06-02

Oui. En capturant simultanément l'audio système (la voix de l'interviewer provenant de vos haut-parleurs) et votre microphone, un assistant IA pour entretien peut transcrire les deux côtés de la conversation en temps réel. SubcueAI le fait grâce à une capture audio double native — aucun bot de réunion n'est nécessaire.

Pourquoi transcrire les deux côtés nécessite deux sources audio

Si vous avez déjà tenté d'enregistrer un entretien avec un seul microphone, vous connaissez déjà le problème : votre propre voix est forte et claire, mais l'interviewer — dont la voix passe par vos haut-parleurs ou votre casque — est faible, avec de l'écho, ou n'est pas capturé du tout. Pour transcrire les deux côtés proprement, il faut deux sources audio distinctes.

Un assistant IA pour entretien résout ce problème en capturant deux flux simultanément : l'audio système (tout ce que votre ordinateur diffuse, y compris la voix de l'interviewer sur Zoom, Google Meet, ou Microsoft Teams) et votre microphone (vos propres réponses). Chaque flux est transcrit indépendamment, de sorte que les mots sont attribués au bon interlocuteur plutôt que d'être mélangés en une seule piste confuse.

Comment SubcueAI capture à la fois l'interviewer et vous

SubcueAI fonctionne comme une application de bureau native sur macOS et Windows — pas un plugin de navigateur, et pas un bot qui rejoint la réunion. Sur macOS, il accède à l'audio système via les API de capture audio de l'écran du système d'exploitation ; sur Windows, il utilise le périphérique de loopback système. Votre microphone est capturé en parallèle via le périphérique d'entrée habituel.

Imaginez un ingénieur back-end passant un entretien pour un poste senior sur Zoom : les questions du responsable du recrutement arrivent comme audio système, les réponses orales du candidat arrivent comme audio microphone, et SubcueAI transcrit chacun en temps réel. Parce que les deux flux restent séparés, la transcription se lit comme un échange étiqueté plutôt qu'un bloc indifférencié.

La capture s'effectue entièrement sur votre machine, et l'overlay flottant qui affiche la transcription est local à votre bureau. Un guide d'installation couvre la mise en place.

Séparation des interlocuteurs, latence et précision

Maintenir l'interviewer et le candidat sur des canaux séparés ne fait pas que rendre la transcription plus lisible — cela permet à l'assistant de décider sur quel tour il doit réagir. Une question sur le canal de l'interviewer est ce à quoi une suggestion de réponse doit répondre ; votre propre canal est un contexte, pas un nouveau prompt.

L'étiquetage des interlocuteurs découle naturellement de la conception à deux sources, puisque chaque flux a un propriétaire connu.
La latence dépend du chemin de reconnaissance vocale ; la transcription en streaming renvoie du texte partiel pendant que la personne parle encore.
La précision est meilleure avec un signal audio système propre — un bon casque et une pièce calme aident les deux canaux.

Pour l'ensemble du chemin de la capture à la suggestion, voir le hub comment ça fonctionne.

Cas où la transcription double ne s'applique pas

La transcription des deux côtés suppose que l'audio atteint réellement les périphériques de sortie et d'entrée de votre ordinateur. Elle ne couvre pas toutes les situations, et il est honnête de le préciser :

Sur un appareil géré par une entreprise que vous ne contrôlez pas, vous ne pourrez peut-être pas du tout installer une application de bureau.
Les environnements surveillés et les logiciels de surveillance à distance peuvent restreindre les applications en arrière-plan ou l'activité à l'écran.
Si une session est enregistrée à l'écran de l'autre côté, cet enregistrement est indépendant de ce que votre assistant fait localement.
Les tours en présentiel, où l'audio ne passe jamais par votre ordinateur, sont hors du champ de la capture audio système.

SubcueAI est conçu pour vos propres entretiens à distance sur votre propre machine ; ses limites sont couvertes sur le hub détectabilité.

FAQ

La voix de l'interviewer est-elle aussi transcrite, ou uniquement la mienne ?

Les deux. La voix de l'interviewer est capturée comme audio système (ce que votre ordinateur diffuse) et votre voix comme audio microphone, donc la transcription montre les deux côtés de la conversation.

Ai-je besoin d'un bot de réunion ou d'une extension de navigateur pour cela ?

Non. SubcueAI est une application de bureau native qui capture l'audio système et le microphone localement — rien ne rejoint l'appel, et il n'y a pas de plugin de navigateur.

Peut-il identifier qui a dit quoi ?

Oui. Comme l'interviewer et le candidat arrivent sur deux flux audio distincts, chaque ligne transcrite a déjà un propriétaire connu, donc l'étiquetage des interlocuteurs est intégré.

Cela fonctionne-t-il sur Zoom, Google Meet et Microsoft Teams ?

Oui. La capture audio système est indépendante de la plateforme de réunion, donc la voix de l'interviewer est transcrite que l'appel se déroule sur Zoom, Google Meet, ou Microsoft Teams.

Peut-il transcrire les deux côtés d'un entretien en personne ?

Non. La capture audio système ne fonctionne que lorsque l'audio passe par votre ordinateur. Les tours en présentiel, où vous n'êtes pas en appel, ne sont pas pris en charge.

Questions liées

← Plus sur Fonctionnement