Jak funguje převod řeči na text v reálném čase během pohovoru

Autor: Aaron Cao · Aktualizováno 2026-05-19

Váš mikrofon a systémový zvuk jsou zachycovány současně, převáděny na text pomocí enginu pro rozpoznávání řeči téměř v reálném čase a předávány AI modelu, který generuje návrhy odpovědí — vše se zobrazuje v soukromém překryvu, který vidíte jen vy.

Dvě zvukové stopy, které to umožňují

Přepis pohovoru v reálném čase závisí na zachycení dvou samostatných zvukových stop najednou:

Systémový zvuk (loopback) — hlas tazatele přicházející přes Zoom, Google Meet nebo Microsoft Teams.
Zvuk z mikrofonu — váš vlastní hlas, když mluvíte.

Nativní desktopová aplikace SubcueAI zachycuje obě stopy současně pomocí standardních API operačního systému dostupných na macOS a Windows. Protože zachycení probíhá na úrovni OS — nikoli uvnitř samotné aplikace pro schůzky — není vyžadován žádný plugin prohlížeče ani bot pro schůzky. Kombinovaná stopa je poté předána enginu pro rozpoznávání řeči.

Od surového zvuku k textu: Pipeline přepisu

Po zachycení zvuku prochází streamingovou pipeline převodu řeči na text, která pracuje s krátkými překrývajícími se zvukovými úseky namísto čekání na úplnou větu. Tento přístup udržuje latenci nízkou — obvykle jen několik sekund od řeči k čitelnému textu。

Detekce hlasové aktivity (VAD) filtruje ticho, takže engine zpracovává pouze rámce obsahující řeč, čímž snižuje šum a šetří čas zpracování.
Akustické modelování mapuje zvukové vlastnosti na fonémy a poté na slova pomocí neuronové sítě trénované na velkých datových sadách řeči.
Jazykové modelování řadí posloupnosti slov podle pravděpodobnosti, čímž zlepšuje přesnost pro technickou slovní zásobu a vlastní jména běžná v pohovorech.

Výsledkem je průběžný přepis, který se průběžně aktualizuje, jak konverzace pokračuje.

Od přepisu k návrhům odpovědí AI

Živý přepis je vstupem do vrstvy návrhů odpovědí SubcueAI. Když systém detekuje, že byla položena otázka — na základě struktury věty a interpunkčních signálů — odešle relevantní kontext velkému jazykovému modelu (LLM), který vygeneruje navrhovanou odpověď.

Návrhy se zobrazují v plovoucím lokálním překryvu SubcueAI, viditelném pouze na vaší obrazovce — nesdíleném do okna schůzky.
Překryv je navržen tak, aby zůstal mimo jakoukoli oblast sdílené obrazovky, takže není viditelný pro účastníky sledující vaše sdílení obrazovky.
Můžete jakýkoli návrh přečíst, upravit nebo ignorovat; nástroj má podporovat vaše myšlení, nikoli ho doslovně skriptovat.

Podívejte se na návod k nastavení pro pokyny k umístění překryvu před pohovorem.

Latence, přesnost a upřímná omezení

Kvalita přepisu v reálném čase závisí na několika faktorech mimo plnou kontrolu jakékoli aplikace:

Kvalita mikrofonu a okolní šum — mikrofon na sluchátkách výrazně zlepšuje přesnost oproti vestavěnému mikrofonu notebooku.
Internetové připojení — pokud je krok AI inference asistován cloudem, přidává se k době odezvy síťová latence.
Přízvuky a tempo řeči — moderní neuronové modely řeči zvládají širokou škálu přízvuků, ale nejsou dokonalé.
Dohlížené nebo nahrávané pohovory — překryv SubcueAI je lokální a soukromý, ale v prostředích se záznamem obrazovky nebo dohledem by se překryv mohl objevit v nahrávce, pokud není pečlivě umístěn nebo skryt. Vždy si před použitím jakéhokoli nástroje pro asistenci přečtěte pravidla vašeho konkrétního pohovoru.

Pro širší pohled na soukromí a to, co mohou tazatelé vidět, navštivte stránku o zabezpečení a soukromí.

Časté dotazy

Přepisuje SubcueAI současně tazatele i mě?

Ano. SubcueAI zachycuje váš mikrofon a systémový zvuk schůzky (loopback) jako dvě samostatné stopy, takže obě strany konverzace jsou přepisovány v reálném čase — což poskytuje AI plný kontext před vygenerováním návrhu.

Jak dlouho trvá, než se po položení otázky objeví návrh odpovědi?

Zpoždění závisí na velikosti zvukového úseku, rychlosti rozpoznávání řeči a době inference AI. Za typických podmínek se návrhy objeví během několika sekund od detekce otázky v přepisu — dostatečně rychle, aby byly užitečné, než začnete odpovídat.

Běží převod řeči na text lokálně na mém zařízení nebo v cloudu?

SubcueAI je nativní desktopová aplikace, která provádí zachycení zvuku lokálně. Některé kroky inference AI mohou zahrnovat volání do cloudu. Podrobnosti o zpracování dat a tom, co opouští vaše zařízení, najdete na stránce o zabezpečení.

Bude přepis fungovat na Zoom, Google Meet a Microsoft Teams?

Ano. Protože SubcueAI zachycuje zvuk na úrovni operačního systému namísto napojení na jakoukoli aplikaci pro schůzky, funguje vedle Zoom, Google Meet a Microsoft Teams bez nutnosti integrací nebo pluginů v těchto platformách.

Může tazatel vidět nebo slyšet přepis nebo návrhy?

Ne. Přepis a překryv se zobrazují pouze na vaší lokální obrazovce. Aplikace pro schůzku přenáší ostatním účastníkům pouze váš videozáznam a zvuk z mikrofonu — nemá žádný přístup k jiným oknům nebo aplikacím běžícím na vašem zařízení, pokud nesdílíte celou obrazovku s viditelným překryvem.

Související otázky

← Více o Jak to funguje