Jak funguje převod řeči na text v reálném čase během pohovoru
By Aaron Cao · Updated 2026-05-19
Váš mikrofon a systémový zvuk jsou zachycovány současně, převáděny na text pomocí enginu pro rozpoznávání řeči téměř v reálném čase a předávány AI modelu, který generuje návrhy odpovědí — vše se zobrazuje v soukromém překryvu, který vidíte jen vy.
Dvě zvukové stopy, které to umožňují
Přepis pohovoru v reálném čase závisí na zachycení dvou samostatných zvukových stop najednou:
- Systémový zvuk (loopback) — hlas tazatele přicházející přes Zoom, Google Meet nebo Microsoft Teams.
- Zvuk z mikrofonu — váš vlastní hlas, když mluvíte.
Nativní desktopová aplikace SubcueAI zachycuje obě stopy současně pomocí standardních API operačního systému dostupných na macOS a Windows. Protože zachycení probíhá na úrovni OS — nikoli uvnitř samotné aplikace pro schůzky — není vyžadován žádný plugin prohlížeče ani bot pro schůzky. Kombinovaná stopa je poté předána enginu pro rozpoznávání řeči.
Od surového zvuku k textu: Pipeline přepisu
Po zachycení zvuku prochází streamingovou pipeline převodu řeči na text, která pracuje s krátkými překrývajícími se zvukovými úseky namísto čekání na úplnou větu. Tento přístup udržuje latenci nízkou — obvykle jen několik sekund od řeči k čitelnému textu。
- Detekce hlasové aktivity (VAD) filtruje ticho, takže engine zpracovává pouze rámce obsahující řeč, čímž snižuje šum a šetří čas zpracování.
- Akustické modelování mapuje zvukové vlastnosti na fonémy a poté na slova pomocí neuronové sítě trénované na velkých datových sadách řeči.
- Jazykové modelování řadí posloupnosti slov podle pravděpodobnosti, čímž zlepšuje přesnost pro technickou slovní zásobu a vlastní jména běžná v pohovorech.
Výsledkem je průběžný přepis, který se průběžně aktualizuje, jak konverzace pokračuje.
Od přepisu k návrhům odpovědí AI
Živý přepis je vstupem do vrstvy návrhů odpovědí SubcueAI. Když systém detekuje, že byla položena otázka — na základě struktury věty a interpunkčních signálů — odešle relevantní kontext velkému jazykovému modelu (LLM), který vygeneruje navrhovanou odpověď.
- Návrhy se zobrazují v plovoucím lokálním překryvu SubcueAI, viditelném pouze na vaší obrazovce — nesdíleném do okna schůzky.
- Překryv je navržen tak, aby zůstal mimo jakoukoli oblast sdílené obrazovky, takže není viditelný pro účastníky sledující vaše sdílení obrazovky.
- Můžete jakýkoli návrh přečíst, upravit nebo ignorovat; nástroj má podporovat vaše myšlení, nikoli ho doslovně skriptovat.
Podívejte se na návod k nastavení pro pokyny k umístění překryvu před pohovorem.
Latence, přesnost a upřímná omezení
Kvalita přepisu v reálném čase závisí na několika faktorech mimo plnou kontrolu jakékoli aplikace:
- Kvalita mikrofonu a okolní šum — mikrofon na sluchátkách výrazně zlepšuje přesnost oproti vestavěnému mikrofonu notebooku.
- Internetové připojení — pokud je krok AI inference asistován cloudem, přidává se k době odezvy síťová latence.
- Přízvuky a tempo řeči — moderní neuronové modely řeči zvládají širokou škálu přízvuků, ale nejsou dokonalé.
- Dohlížené nebo nahrávané pohovory — překryv SubcueAI je lokální a soukromý, ale v prostředích se záznamem obrazovky nebo dohledem by se překryv mohl objevit v nahrávce, pokud není pečlivě umístěn nebo skryt. Vždy si před použitím jakéhokoli nástroje pro asistenci přečtěte pravidla vašeho konkrétního pohovoru.
Pro širší pohled na soukromí a to, co mohou tazatelé vidět, navštivte stránku o zabezpečení a soukromí.