Kann ein KI-Interview-Assistent sowohl den Interviewer als auch den Kandidaten transkribieren?

Von Aaron Cao · Aktualisiert am 2026-06-02

Ja. Indem er den Systemton (die Stimme des Interviewers aus deinen Lautsprechern) und dein Mikrofon gleichzeitig aufnimmt, kann ein KI-Interview-Assistent beide Seiten des Gesprächs in Echtzeit transkribieren. SubcueAI leistet dies mit nativer dualer Audioaufnahme – kein Meeting-Bot erforderlich.

Warum das Transkribieren beider Seiten zwei Audioquellen benötigt

Wenn du jemals versucht hast, ein Interview mit einem einzigen Mikrofon aufzuzeichnen, kennst du das Problem bereits: Deine eigene Stimme ist laut und klar, aber der Interviewer – der durch deine Lautsprecher oder Kopfhörer kommt – ist leise, hallig oder wird ganz verpasst. Um beide Seiten sauber zu transkribieren, werden zwei separate Audioquellen benötigt.

Ein KI-Interview-Assistent löst dies, indem er zwei Streams gleichzeitig aufnimmt: Systemton (alles, was dein Computer abspielt, einschließlich der Stimme des Interviewers in Zoom, Google Meet oder Microsoft Teams) und dein Mikrofon (deine eigenen Antworten). Jeder Stream wird unabhängig transkribiert, sodass Wörter dem richtigen Sprecher zugeordnet werden, anstatt in einer einzigen, unverständlichen Spur vermischt zu werden.

Wie SubcueAI sowohl den Interviewer als auch dich aufnimmt

SubcueAI läuft als native Desktop-App auf macOS und Windows – kein Browser-Plugin und kein Bot, der dem Meeting beitritt. Auf macOS zapft es den Systemton über die Bildschirmaufnahme-Audio-APIs des Betriebssystems an; auf Windows verwendet es das System-Loopback-Gerät. Dein Mikrofon wird parallel über das normale Eingabegerät aufgenommen.

Stell dir einen Backend-Ingenieur vor, der sich über Zoom für eine Senior-Stelle bewirbt: Die Fragen des Einstellungsleiters kommen als Systemton an, die gesprochenen Antworten des Kandidaten als Mikrofon-Audio, und SubcueAI transkribiert jedes in Echtzeit. Da die zwei Streams getrennt bleiben, liest sich das Transkript als beschrifteter Dialog statt als ein undifferenzierter Block.

Die Aufnahme findet vollständig auf deinem Gerät statt, und das schwebende Overlay, das das Transkript anzeigt, ist lokal auf deinem Desktop. Ein kurzes Einrichtungs-Tutorial deckt die Installation ab.

Sprechertrennung, Latenz und Genauigkeit

Den Interviewer und den Kandidaten auf separaten Kanälen zu halten, tut mehr als das Transkript zu ordnen – es ermöglicht dem Assistenten zu entscheiden, auf welchen Turn er reagieren soll. Eine Frage auf dem Kanal des Interviewers ist das, worauf ein Antwortvorschlag reagieren sollte; dein eigener Kanal ist Kontext, kein neuer Prompt.

Sprecherbeschriftung ergibt sich natürlich aus dem Zwei-Quellen-Design, da jeder Stream einen bekannten Eigentümer hat.
Latenz hängt vom Sprache-zu-Text-Pfad ab; Streaming-Transkription gibt Teiltext zurück, während die Person noch spricht.
Genauigkeit ist am besten mit einem sauberen Systemton-Signal – ein gutes Headset und ein ruhiger Raum helfen beiden Kanälen.

Für den vollständigen Aufnahme-zu-Vorschlag-Pfad, siehe den Wie es funktioniert-Hub.

Wo die duale Transkription nicht gilt

Die zweiseitige Transkription setzt voraus, dass das Audio tatsächlich die Ausgabe- und Eingabegeräte deines Computers erreicht. Sie deckt nicht jede Situation ab, und das sollte ehrlich gesagt werden:

Auf einem unternehmensgesteuerten Gerät, das du nicht kontrollierst, kannst du möglicherweise keine Desktop-App installieren.
Überwachte Umgebungen und Remote-Monitoring-Software können Hintergrundanwendungen oder Bildschirmaktivitäten einschränken.
Wenn eine Sitzung auf der anderen Seite bildschirmaufgezeichnet wird, ist diese Aufzeichnung unabhängig von dem, was dein Assistent lokal tut.
Persönliche Runden, bei denen Audio niemals durch deinen Computer läuft, liegen außerhalb des Geltungsbereichs der Systemton-Aufnahme.

SubcueAI ist für deine eigenen Remote-Interviews auf deinem eigenen Gerät gebaut; seine Grenzen werden im Erkennbarkeits-Hub behandelt.

FAQ

Wird auch die Stimme des Interviewers transkribiert, oder nur meine?

Beide. Die Stimme des Interviewers wird als Systemton aufgenommen (was dein Computer abspielt) und deine Stimme als Mikrofon-Audio, sodass das Transkript beide Seiten des Gesprächs zeigt.

Brauche ich einen Meeting-Bot oder eine Browser-Erweiterung dafür?

Nein. SubcueAI ist eine native Desktop-App, die System- und Mikrofon-Audio lokal aufnimmt – nichts tritt dem Anruf bei, und es gibt kein Browser-Plugin.

Kann sie erkennen, wer was gesagt hat?

Ja. Da Interviewer und Kandidat auf zwei separaten Audio-Streams ankommen, hat jede transkribierte Zeile bereits einen bekannten Eigentümer, sodass Sprecherbeschriftung eingebaut ist.

Funktioniert das mit Zoom, Google Meet und Microsoft Teams?

Ja. Die Systemton-Aufnahme ist unabhängig von der Meeting-Plattform, sodass die Stimme des Interviewers transkribiert wird, egal ob der Anruf über Zoom, Google Meet oder Microsoft Teams läuft.

Werden beide Seiten eines persönlichen Interviews transkribiert?

Nein. Die Systemton-Aufnahme funktioniert nur, wenn das Audio durch deinen Computer läuft. Persönliche Runden, bei denen du nicht in einem Anruf bist, liegen außerhalb des Geltungsbereichs.