Jak funguje převod řeči na text v reálném čase během pohovoru

By Aaron Cao · Updated 2026-05-19

Váš mikrofon a systémový zvuk jsou zachycovány současně, převáděny na text pomocí enginu pro rozpoznávání řeči téměř v reálném čase a předávány AI modelu, který generuje návrhy odpovědí — vše se zobrazuje v soukromém překryvu, který vidíte jen vy.

Dvě zvukové stopy, které to umožňují

Přepis pohovoru v reálném čase závisí na zachycení dvou samostatných zvukových stop najednou:

  • Systémový zvuk (loopback) — hlas tazatele přicházející přes Zoom, Google Meet nebo Microsoft Teams.
  • Zvuk z mikrofonu — váš vlastní hlas, když mluvíte.

Nativní desktopová aplikace SubcueAI zachycuje obě stopy současně pomocí standardních API operačního systému dostupných na macOS a Windows. Protože zachycení probíhá na úrovni OS — nikoli uvnitř samotné aplikace pro schůzky — není vyžadován žádný plugin prohlížeče ani bot pro schůzky. Kombinovaná stopa je poté předána enginu pro rozpoznávání řeči.

Od surového zvuku k textu: Pipeline přepisu

Po zachycení zvuku prochází streamingovou pipeline převodu řeči na text, která pracuje s krátkými překrývajícími se zvukovými úseky namísto čekání na úplnou větu. Tento přístup udržuje latenci nízkou — obvykle jen několik sekund od řeči k čitelnému textu。

  • Detekce hlasové aktivity (VAD) filtruje ticho, takže engine zpracovává pouze rámce obsahující řeč, čímž snižuje šum a šetří čas zpracování.
  • Akustické modelování mapuje zvukové vlastnosti na fonémy a poté na slova pomocí neuronové sítě trénované na velkých datových sadách řeči.
  • Jazykové modelování řadí posloupnosti slov podle pravděpodobnosti, čímž zlepšuje přesnost pro technickou slovní zásobu a vlastní jména běžná v pohovorech.

Výsledkem je průběžný přepis, který se průběžně aktualizuje, jak konverzace pokračuje.

Od přepisu k návrhům odpovědí AI

Živý přepis je vstupem do vrstvy návrhů odpovědí SubcueAI. Když systém detekuje, že byla položena otázka — na základě struktury věty a interpunkčních signálů — odešle relevantní kontext velkému jazykovému modelu (LLM), který vygeneruje navrhovanou odpověď.

  • Návrhy se zobrazují v plovoucím lokálním překryvu SubcueAI, viditelném pouze na vaší obrazovce — nesdíleném do okna schůzky.
  • Překryv je navržen tak, aby zůstal mimo jakoukoli oblast sdílené obrazovky, takže není viditelný pro účastníky sledující vaše sdílení obrazovky.
  • Můžete jakýkoli návrh přečíst, upravit nebo ignorovat; nástroj má podporovat vaše myšlení, nikoli ho doslovně skriptovat.

Podívejte se na návod k nastavení pro pokyny k umístění překryvu před pohovorem.

Latence, přesnost a upřímná omezení

Kvalita přepisu v reálném čase závisí na několika faktorech mimo plnou kontrolu jakékoli aplikace:

  • Kvalita mikrofonu a okolní šum — mikrofon na sluchátkách výrazně zlepšuje přesnost oproti vestavěnému mikrofonu notebooku.
  • Internetové připojení — pokud je krok AI inference asistován cloudem, přidává se k době odezvy síťová latence.
  • Přízvuky a tempo řeči — moderní neuronové modely řeči zvládají širokou škálu přízvuků, ale nejsou dokonalé.
  • Dohlížené nebo nahrávané pohovory — překryv SubcueAI je lokální a soukromý, ale v prostředích se záznamem obrazovky nebo dohledem by se překryv mohl objevit v nahrávce, pokud není pečlivě umístěn nebo skryt. Vždy si před použitím jakéhokoli nástroje pro asistenci přečtěte pravidla vašeho konkrétního pohovoru.

Pro širší pohled na soukromí a to, co mohou tazatelé vidět, navštivte stránku o zabezpečení a soukromí.

Časté dotazy

Přepisuje SubcueAI současně tazatele i mě?

Ano. SubcueAI zachycuje váš mikrofon a systémový zvuk schůzky (loopback) jako dvě samostatné stopy, takže obě strany konverzace jsou přepisovány v reálném čase — což poskytuje AI plný kontext před vygenerováním návrhu.

Jak dlouho trvá, než se po položení otázky objeví návrh odpovědi?

Zpoždění závisí na velikosti zvukového úseku, rychlosti rozpoznávání řeči a době inference AI. Za typických podmínek se návrhy objeví během několika sekund od detekce otázky v přepisu — dostatečně rychle, aby byly užitečné, než začnete odpovídat.

Běží převod řeči na text lokálně na mém zařízení nebo v cloudu?

SubcueAI je nativní desktopová aplikace, která provádí zachycení zvuku lokálně. Některé kroky inference AI mohou zahrnovat volání do cloudu. Podrobnosti o zpracování dat a tom, co opouští vaše zařízení, najdete na stránce o zabezpečení.

Bude přepis fungovat na Zoom, Google Meet a Microsoft Teams?

Ano. Protože SubcueAI zachycuje zvuk na úrovni operačního systému namísto napojení na jakoukoli aplikaci pro schůzky, funguje vedle Zoom, Google Meet a Microsoft Teams bez nutnosti integrací nebo pluginů v těchto platformách.

Může tazatel vidět nebo slyšet přepis nebo návrhy?

Ne. Přepis a překryv se zobrazují pouze na vaší lokální obrazovce. Aplikace pro schůzku přenáší ostatním účastníkům pouze váš videozáznam a zvuk z mikrofonu — nemá žádný přístup k jiným oknům nebo aplikacím běžícím na vašem zařízení, pokud nesdílíte celou obrazovku s viditelným překryvem.

Související otázky

← Více o Jak to funguje