Hogyan működik a valós idejű interjú beszédfelismerés

By Aaron Cao · Updated 2026-05-19

A mikrofon és a rendszerhang egyidejűleg rögzítésre kerül, közel valós időben szöveggé alakítja egy beszédfelismerő motor, majd egy AI-modellhez kerül, amely válaszjavaslatokat generál — mindez egy privát átfedésben jelenik meg, amelyet csak Ön láthat.

A két hangfolyam, amely működőképessé teszi

A valós idejű interjúátírás két külön hangfolyam egyidejű rögzítésétől függ:

  • Rendszerhang (loopback) — az interjúztató hangja, amely Zoom, Google Meet vagy Microsoft Teams közvetítésével érkezik.
  • Mikrofonhang — a saját hangja, amikor beszél.

SubcueAI natív asztali alkalmazása mindkét folyamot egyidejűleg rögzíti a macOS és Windows operációs rendszerek szabványos hang API-jai segítségével. Mivel a rögzítés az operációs rendszer szintjén történik — nem magában a megbeszélés-alkalmazásban —, nincs szükség böngészőbővítményre vagy megbeszélés-botra. A kombinált folyamot ezután a beszédfelismerő motorhoz továbbítja.

A nyers hangtól a szövegig: az átírási folyamat

A hang rögzítése után egy streamelő beszéd-szöveg folyamat halad át, amely rövid, átfedő hangdarabokban dolgozik ahelyett, hogy egy teljes mondatra várna. Ez a megközelítés alacsony késleltetést tart fenn — jellemzően néhány másodperc a beszédtől az olvasható szövegig.

  • Hangtevékenység-érzékelés (VAD) kiszűri a csendet, így a motor csak a beszédet tartalmazó kereteket dolgozza fel, csökkentve a zajt és megtakarítva a feldolgozási időt.
  • Akusztikus modellezés az audiojellemzőket fonémákra, majd szavakra képezi le egy nagy beszéddatabázisokon betanított neurális hálózat segítségével.
  • Nyelvi modellezés a szószekvenciákat valószínűség szerint rangsorolja, javítva a pontosságot az interjúkban gyakori technikai szókincs és tulajdonnevek esetében.

Az eredmény egy folyamatosan frissülő átirat, amely a beszélgetés előrehaladtával folyamatosan frissül.

Az átirattól az AI válaszjavaslatokig

Az élő átirat a SubcueAI válaszjavaslati rétegének bemenete. Amikor a rendszer észleli, hogy kérdést tettek fel — mondatszerkezet és írásjelek alapján —, a releváns kontextust egy nagy nyelvi modellhez (LLM) küldi, amely javasolt választ generál.

  • A javaslatok SubcueAI lebegő helyi átfedésében jelennek meg, csak az Ön képernyőjén láthatóak — nem kerülnek megosztásra a megbeszélés ablakával.
  • Az átfedés úgy van kialakítva, hogy ne kerüljön semmilyen megosztott képernyő területére, így a képernyőmegosztást figyelő résztvevők számára nem látható.
  • Bármely javaslatot elolvashatja, adaptálhatja vagy figyelmen kívül hagyhatja; az eszköz a gondolkodás támogatására szolgál, nem szó szerinti forgatókönyvként.

Lásd a beállítási útmutatót az átfedés interjú előtti pozicionálásához.

Késleltetés, pontosság és őszinte korlátok

A valós idejű átírás minősége több olyan tényezőtől függ, amelyek felett egyetlen alkalmazás sem rendelkezik teljes ellenőrzéssel:

  • Mikrofon minősége és háttérzaj — egy fejhallgató-mikrofon jelentősen javítja a pontosságot a beépített laptop-mikrofonhoz képest.
  • Internetes kapcsolat — ha az AI következtetési lépés felhőalapú, a hálózati késleltetés hozzáadódik a válaszidőhöz。
  • Akcentusok és beszédtempó — a modern neurális beszédmodellek széles akcentustartományt kezelnek, de nem tökéletesek.
  • Felügyelt vagy rögzített interjúk — SubcueAI átfedése helyi és privát, de képernyőn rögzített vagy felügyelt környezetekben az átfedés megjelenhet a felvételen, ha nem pozicionálják vagy rejtik el gondosan. Mindig tekintse át az adott interjú szabályait, mielőtt bármilyen segédeszközt használna.

A magánélet és az interjúztatók által látható dolgok szélesebb körű áttekintéséhez látogasson el a biztonsági és magánéleti oldalra.

GYIK

A SubcueAI egyszerre írja át az interjúztatót és engem?

Igen. A SubcueAI rögzíti a mikrofonját és a megbeszélés rendszerhangját (loopback) két külön folyamban, így a beszélgetés mindkét oldala valós időben átírásra kerül — teljes kontextust adva az AI-nak a javaslat generálása előtt.

Mennyi időbe telik, mire válaszjavaslatot kapok egy kérdés feltevése után?

A késleltetés az audio darab méretétől, a beszédfelismerés sebességétől és az AI következtetési idejétől függ. Tipikus körülmények között a javaslatok a kérdés átiratban történő észlelése után néhány másodpercen belül megjelennek — elég gyorsan ahhoz, hogy hasznos legyen, mielőtt válaszolni kezdene.

A beszéd-szöveg átalakítás helyben fut a gépen vagy a felhőben?

A SubcueAI natív asztali alkalmazás, amely helyben végzi a hangrögzítést. Egyes AI következtetési lépések felhőhívást igényelhetnek. A legfrissebb részletekért az adatkezelésről és arról, hogy mi hagyja el az eszközt, tekintse meg a biztonsági oldalt.

Működik az átírás Zoom, Google Meet és Microsoft Teams esetén?

Igen. Mivel a SubcueAI az operációs rendszer szintjén rögzít hangot ahelyett, hogy bármely megbeszélés-alkalmazásba kapcsolódna, működik Zoom, Google Meet és Microsoft Teams mellett anélkül, hogy integrációkra vagy bővítményekre lenne szükség azokban a platformokban.

Láthatja vagy hallhatja az interjúztató az átírást vagy a javaslatokat?

Nem. Az átirat és az átfedés csak a helyi képernyőn jelenik meg. A megbeszélés-alkalmazás csak a kamerafeedet és a mikrofonhangot továbbítja a többi résztvevőnek — nincs rálátása más ablakokra vagy az eszközön futó alkalmazásokra, feltéve, hogy nem osztja meg a teljes képernyőt az átfedés láthatóvá tételével.

Kapcsolódó kérdések

← Több erről: Hogyan működik