Hur realtidsintervju tal-till-text fungerar
By Aaron Cao · Updated 2026-05-19
Din mikrofon och systemljud fångas samtidigt, konverteras till text av en taligenkänningsmotor i nära realtid och matas in i en AI-modell som genererar svarsförslag — allt visas i en privat overlay som bara du kan se.
De två ljudströmmarna som gör det möjligt
Realtidsintervjutranskription bygger på att fånga två separata ljudströmmar samtidigt:
- Systemljud (loopback) — intervjuarens röst som kommer via Zoom, Google Meet eller Microsoft Teams.
- Mikrofonljud — din egen röst när du talar.
SubcueAIs inbyggda skrivbordsapp fångar båda strömmarna samtidigt med hjälp av standard-API:er för ljud på operativsystemsnivå som finns tillgängliga på macOS och Windows. Eftersom upptagningen sker på OS-nivå — inte inne i mötesappen själv — krävs ingen webbläsarplugin eller mötesbot. Den kombinerade strömmen skickas sedan vidare till taligenkänningsmotorn.
Från råljud till text: Transkriptionspipelinen
När ljudet har fångats går det igenom en strömmande tal-till-text-pipeline som arbetar med korta, överlappande ljudklipp i stället för att vänta på en hel mening. Detta håller latensen låg — vanligtvis några sekunder från tal till läsbar text.
- Voice Activity Detection (VAD) filtrerar bort tystnad så att motorn bara bearbetar ramar som innehåller tal, vilket minskar brus och sparar bearbetningstid.
- Akustisk modellering mappar ljudfunktioner till fonem och sedan till ord med hjälp av ett neuralt nätverk som tränats på stora taldatamängder.
- Språkmodellering rangordnar ordsekvenser efter sannolikhet, vilket förbättrar noggrannheten för teknisk vokabulär och egennamn som är vanliga i intervjuer.
Resultatet är ett rullande transkript som uppdateras kontinuerligt i takt med att samtalet fortskrider.
Från transkript till AI-svarsförslag
Det levande transkriptet är indata till SubcueAIs svarsförslagsskikt. När systemet upptäcker att en fråga har ställts — baserat på meningsstruktur och interpunktion — skickar det relevant kontext till en stor språkmodell (LLM) som genererar ett föreslaget svar.
- Förslagen visas i SubcueAIs flytande lokala overlay, synlig endast på din skärm — inte delad till mötesfönstret.
- Overlayen är utformad för att ligga utanför alla delade skärmområden så att den inte syns för deltagare som tittar på din skärmdelning.
- Du kan läsa, anpassa eller ignorera vilket förslag som helst; verktyget är avsett att stödja ditt tänkande, inte att skriva det ord för ord.
Se installationsguiden för råd om hur du placerar overlayen före intervjun.
Latens, noggrannhet och ärliga begränsningar
Kvaliteten på realtidstranskription beror på flera faktorer som ligger utanför en apps fullständiga kontroll:
- Mikrofonkvalitet och bakgrundsljud — en headsetmikrofon förbättrar noggrannheten betydligt jämfört med en inbyggd laptopmikrofon.
- Internetanslutning — om AI-inferenssteget är molnassisterat lägger nätverkslatens till svarstiden.
- Accenter och taltempo — moderna neurala talmodeller hanterar ett brett spektrum av accenter men är inte perfekta.
- Övervakade eller inspelade intervjuer — SubcueAIs overlay är lokal och privat, men i skärminspelade eller övervakade miljöer kan overlayen synas i en inspelning om den inte placeras eller döljs noggrant. Granska alltid reglerna för din specifika intervju innan du använder något hjälpmedel.
För en bredare överblick över integritet och vad intervjuare kan se, besök säkerhets- och integritetssidan.