Hogyan működik a valós idejű interjú beszédfelismerés
By Aaron Cao · Updated 2026-05-19
A mikrofon és a rendszerhang egyidejűleg rögzítésre kerül, közel valós időben szöveggé alakítja egy beszédfelismerő motor, majd egy AI-modellhez kerül, amely válaszjavaslatokat generál — mindez egy privát átfedésben jelenik meg, amelyet csak Ön láthat.
A két hangfolyam, amely működőképessé teszi
A valós idejű interjúátírás két külön hangfolyam egyidejű rögzítésétől függ:
- Rendszerhang (loopback) — az interjúztató hangja, amely Zoom, Google Meet vagy Microsoft Teams közvetítésével érkezik.
- Mikrofonhang — a saját hangja, amikor beszél.
SubcueAI natív asztali alkalmazása mindkét folyamot egyidejűleg rögzíti a macOS és Windows operációs rendszerek szabványos hang API-jai segítségével. Mivel a rögzítés az operációs rendszer szintjén történik — nem magában a megbeszélés-alkalmazásban —, nincs szükség böngészőbővítményre vagy megbeszélés-botra. A kombinált folyamot ezután a beszédfelismerő motorhoz továbbítja.
A nyers hangtól a szövegig: az átírási folyamat
A hang rögzítése után egy streamelő beszéd-szöveg folyamat halad át, amely rövid, átfedő hangdarabokban dolgozik ahelyett, hogy egy teljes mondatra várna. Ez a megközelítés alacsony késleltetést tart fenn — jellemzően néhány másodperc a beszédtől az olvasható szövegig.
- Hangtevékenység-érzékelés (VAD) kiszűri a csendet, így a motor csak a beszédet tartalmazó kereteket dolgozza fel, csökkentve a zajt és megtakarítva a feldolgozási időt.
- Akusztikus modellezés az audiojellemzőket fonémákra, majd szavakra képezi le egy nagy beszéddatabázisokon betanított neurális hálózat segítségével.
- Nyelvi modellezés a szószekvenciákat valószínűség szerint rangsorolja, javítva a pontosságot az interjúkban gyakori technikai szókincs és tulajdonnevek esetében.
Az eredmény egy folyamatosan frissülő átirat, amely a beszélgetés előrehaladtával folyamatosan frissül.
Az átirattól az AI válaszjavaslatokig
Az élő átirat a SubcueAI válaszjavaslati rétegének bemenete. Amikor a rendszer észleli, hogy kérdést tettek fel — mondatszerkezet és írásjelek alapján —, a releváns kontextust egy nagy nyelvi modellhez (LLM) küldi, amely javasolt választ generál.
- A javaslatok SubcueAI lebegő helyi átfedésében jelennek meg, csak az Ön képernyőjén láthatóak — nem kerülnek megosztásra a megbeszélés ablakával.
- Az átfedés úgy van kialakítva, hogy ne kerüljön semmilyen megosztott képernyő területére, így a képernyőmegosztást figyelő résztvevők számára nem látható.
- Bármely javaslatot elolvashatja, adaptálhatja vagy figyelmen kívül hagyhatja; az eszköz a gondolkodás támogatására szolgál, nem szó szerinti forgatókönyvként.
Lásd a beállítási útmutatót az átfedés interjú előtti pozicionálásához.
Késleltetés, pontosság és őszinte korlátok
A valós idejű átírás minősége több olyan tényezőtől függ, amelyek felett egyetlen alkalmazás sem rendelkezik teljes ellenőrzéssel:
- Mikrofon minősége és háttérzaj — egy fejhallgató-mikrofon jelentősen javítja a pontosságot a beépített laptop-mikrofonhoz képest.
- Internetes kapcsolat — ha az AI következtetési lépés felhőalapú, a hálózati késleltetés hozzáadódik a válaszidőhöz。
- Akcentusok és beszédtempó — a modern neurális beszédmodellek széles akcentustartományt kezelnek, de nem tökéletesek.
- Felügyelt vagy rögzített interjúk — SubcueAI átfedése helyi és privát, de képernyőn rögzített vagy felügyelt környezetekben az átfedés megjelenhet a felvételen, ha nem pozicionálják vagy rejtik el gondosan. Mindig tekintse át az adott interjú szabályait, mielőtt bármilyen segédeszközt használna.
A magánélet és az interjúztatók által látható dolgok szélesebb körű áttekintéséhez látogasson el a biztonsági és magánéleti oldalra.