Hur realtidsintervju tal-till-text fungerar
Av Aaron Cao · Uppdaterad

Din mikrofon och systemljud fångas samtidigt, konverteras till text av en taligenkänningsmotor i nära realtid och matas in i en AI-modell som genererar svarsförslag — allt visas i en privat overlay som bara du kan se.
De två ljudströmmarna som gör det möjligt
Realtidsintervjutranskription bygger på att fånga två separata ljudströmmar samtidigt:
- Systemljud (loopback) — intervjuarens röst som kommer via Zoom, Google Meet eller Microsoft Teams.
- Mikrofonljud — din egen röst när du talar.
SubcueAIs inbyggda skrivbordsapp fångar båda strömmarna samtidigt med hjälp av standard-API:er för ljud på operativsystemsnivå som finns tillgängliga på macOS och Windows. Eftersom upptagningen sker på OS-nivå — inte inne i mötesappen själv — krävs ingen webbläsarplugin eller mötesbot. Den kombinerade strömmen skickas sedan vidare till taligenkänningsmotorn.
Från råljud till text: Transkriptionspipelinen
När ljudet har fångats går det igenom en strömmande tal-till-text-pipeline som arbetar med korta, överlappande ljudklipp i stället för att vänta på en hel mening. Detta håller latensen låg — vanligtvis några sekunder från tal till läsbar text.
- Voice Activity Detection (VAD) filtrerar bort tystnad så att motorn bara bearbetar ramar som innehåller tal, vilket minskar brus och sparar bearbetningstid.
- Akustisk modellering mappar ljudfunktioner till fonem och sedan till ord med hjälp av ett neuralt nätverk som tränats på stora taldatamängder.
- Språkmodellering rangordnar ordsekvenser efter sannolikhet, vilket förbättrar noggrannheten för teknisk vokabulär och egennamn som är vanliga i intervjuer.
Resultatet är ett rullande transkript som uppdateras kontinuerligt i takt med att samtalet fortskrider.
Från transkript till AI-svarsförslag
Det levande transkriptet är indata till SubcueAIs svarsförslagsskikt. När systemet upptäcker att en fråga har ställts — baserat på meningsstruktur och interpunktion — skickar det relevant kontext till en stor språkmodell (LLM) som genererar ett föreslaget svar.
- Förslagen visas i SubcueAIs flytande lokala overlay, synlig endast på din skärm — inte delad till mötesfönstret.
- Overlayen är utformad för att ligga utanför alla delade skärmområden så att den inte syns för deltagare som tittar på din skärmdelning.
- Du kan läsa, anpassa eller ignorera vilket förslag som helst; verktyget är avsett att stödja ditt tänkande, inte att skriva det ord för ord.
Se installationsguiden för råd om hur du placerar overlayen före intervjun.
Latens, noggrannhet och ärliga begränsningar
Kvaliteten på realtidstranskription beror på flera faktorer som ligger utanför en apps fullständiga kontroll:
- Mikrofonkvalitet och bakgrundsljud — en headsetmikrofon förbättrar noggrannheten betydligt jämfört med en inbyggd laptopmikrofon.
- Internetanslutning — om AI-inferenssteget är molnassisterat lägger nätverkslatens till svarstiden.
- Accenter och taltempo — moderna neurala talmodeller hanterar ett brett spektrum av accenter men är inte perfekta.
- Övervakade eller inspelade intervjuer — SubcueAIs overlay är lokal och privat, men i skärminspelade eller övervakade miljöer kan overlayen synas i en inspelning om den inte placeras eller döljs noggrant. Granska alltid reglerna för din specifika intervju innan du använder något hjälpmedel.
För en bredare överblick över integritet och vad intervjuare kan se, besök säkerhets- och integritetssidan.
FAQ
Transkriberar SubcueAI både intervjuaren och mig samtidigt?
Hur lång tid tar det att få ett svarsförslag efter att en fråga har ställts?
Kör tal-till-text lokalt på min maskin eller i molnet?
Fungerar transkriptionen på Zoom, Google Meet och Microsoft Teams?
Kan intervjuaren se eller höra transkriptionen eller förslagen?
Relaterade frågor
- Kan rekryterare använda en AI-intervjuassistent när de söker nya roller?
- Kan jag använda en AI-intervjuassistent under en telefonintervju?
- Hur fångar AI-intervjuassistenter systemljud på iOS?
- Vilka är de verkliga begränsningarna med en interview copilot eller en AI-intervjuassistent?
- Vad är en intervjucopilot i realtid och hur fungerar den?
- Vad är en AI intervjusvarsgenerator och hur fungerar den?