Wie Echtzeit-Interview-Spracherkennung funktioniert
By Aaron Cao · Updated 2026-05-19
Ihr Mikrofon und der System-Audio werden gleichzeitig erfasst, in nahezu Echtzeit von einer Spracherkennungs-Engine in Text umgewandelt und an ein KI-Modell weitergegeben, das Antwortvorschläge generiert — alles in einem privaten Overlay angezeigt, das nur Sie sehen können.
Die zwei Audioströme, die es ermöglichen
Die Echtzeit-Transkription von Interviews hängt davon ab, zwei separate Audioströme gleichzeitig zu erfassen:
- System-Audio (Loopback) — die Stimme des Interviewers, die über Zoom, Google Meet oder Microsoft Teams ankommt.
- Mikrofon-Audio — Ihre eigene Stimme, während Sie sprechen.
Die native Desktop-App von SubcueAI erfasst beide Ströme gleichzeitig mithilfe standardmäßiger Betriebssystem-Audio-APIs, die auf macOS und Windows verfügbar sind. Da die Erfassung auf OS-Ebene erfolgt — nicht innerhalb der Meeting-App selbst — ist kein Browser-Plugin oder Meeting-Bot erforderlich. Der kombinierte Stream wird dann an die Spracherkennungs-Engine weitergegeben.
Von Roh-Audio zu Text: Die Transkriptions-Pipeline
Sobald das Audio erfasst ist, durchläuft es eine Streaming-Sprache-zu-Text-Pipeline, die mit kurzen, überlappenden Audio-Chunks arbeitet, anstatt auf einen vollständigen Satz zu warten. Dieser Ansatz hält die Latenz niedrig — typischerweise nur wenige Sekunden von der Sprache bis zum lesbaren Text.
- Voice Activity Detection (VAD) filtert Stille, sodass die Engine nur Frames mit Sprache verarbeitet, was Rauschen reduziert und Verarbeitungszeit spart.
- Akustische Modellierung ordnet Audio-Features Phonemen und dann Wörtern zu, mithilfe eines neuronalen Netzes, das auf großen Sprachdatensätzen trainiert wurde.
- Sprachmodellierung bewertet Wortsequenzen nach Wahrscheinlichkeit und verbessert die Genauigkeit für technisches Vokabular und Eigennamen, die in Interviews häufig vorkommen.
Das Ergebnis ist ein rollendes Transkript, das sich kontinuierlich aktualisiert, während das Gespräch fortschreitet.
Vom Transkript zu KI-Antwortvorschlägen
Das Live-Transkript ist die Eingabe für die Antwortvorschlags-Schicht von SubcueAI. Wenn das System erkennt, dass eine Frage gestellt wurde — basierend auf Satzstruktur und Interpunktionshinweisen — sendet es den relevanten Kontext an ein Large Language Model (LLM), das eine vorgeschlagene Antwort generiert.
- Vorschläge erscheinen im schwebenden lokalen Overlay von SubcueAI, das nur auf Ihrem Bildschirm sichtbar ist — nicht im Meeting-Fenster geteilt.
- Das Overlay ist so gestaltet, dass es außerhalb jedes geteilten Bildschirmbereichs bleibt, sodass es für Teilnehmer, die Ihr Screen-Sharing beobachten, nicht sichtbar ist.
- Sie können jeden Vorschlag lesen, anpassen oder ignorieren; das Tool soll Ihr Denken unterstützen, nicht es Wort für Wort vorgeben.
Sehen Sie sich das Setup-Tutorial für Hinweise zur Positionierung des Overlays vor Ihrem Interview an.
Latenz, Genauigkeit und ehrliche Grenzen
Die Qualität der Echtzeit-Transkription hängt von mehreren Faktoren ab, die außerhalb der vollständigen Kontrolle einer App liegen:
- Mikrofonqualität und Hintergrundgeräusche — ein Headset-Mikrofon verbessert die Genauigkeit erheblich gegenüber dem eingebauten Laptop-Mikrofon.
- Internetverbindung — wenn der KI-Inferenzschritt cloud-unterstützt ist, addiert die Netzwerklatenz zur Antwortzeit.
- Akzente und Sprechgeschwindigkeit — moderne neuronale Sprachmodelle verarbeiten eine breite Palette von Akzenten, sind aber nicht perfekt.
- Überwachte oder aufgezeichnete Interviews — Das Overlay von SubcueAI ist lokal und privat, aber in Bildschirm-aufgezeichneten oder überwachten Umgebungen könnte das Overlay in einer Aufnahme erscheinen, wenn es nicht sorgfältig positioniert oder ausgeblendet wird. Überprüfen Sie immer die Regeln Ihres spezifischen Interviews, bevor Sie ein Hilfsmittel verwenden.
Für einen umfassenderen Blick auf Datenschutz und was Interviewer sehen können, besuchen Sie die Sicherheits- und Datenschutzseite.