Kolik latence přidává asistent AI pro pohovory?

Autor: Aaron Cao · Aktualizováno 2026-06-02

Latence od začátku do konce obvykle běží od přibližně jedné do několika sekund: krátké zpoždění pro převod řeči na text, poté dodatečný čas na to, aby jazykový model vygeneroval odpověď. Přesná čísla závisejí na vaší síti, modelu a množství zpracovávaného kontextu.

Odkud latence ve skutečnosti pochází

Asistent AI pro pohovory je pipeline a každá fáze přidává malé zpoždění:

Zachycení zvuku — aplikace průběžně ukládá mikrofon a systémový zvuk do vyrovnávací paměti. To je obvykle zanedbatelné (desítky milisekund).
Řeč na text (STT) — streamovací přepis vrací částečné výsledky, zatímco tazatel ještě mluví, takže vidíte text s krátkým zpožděním místo čekání na celou větu.
Inference jazykového modelu — jakmile je otázka rozpoznána, model musí vygenerovat odpověď. Toto je obvykle největší jednotlivá složka latence a škáluje se s délkou odpovědi a množstvím zahrnutého kontextu (životopis, popis práce, předchozí tahy).
Síťové zpáteční cesty — volání cloudových poskytovatelů STT a LLM závisí na kvalitě vašeho připojení a fyzické vzdálenosti do oblasti poskytovatele.

Upřímná odpověď na „kolik latence" tedy zní: je to součet těchto fází, nikoli jediné číslo.

Typické rozsahy, které byste měli očekávat

Jako přibližný mentální model pro každého moderního asistenta AI pro pohovory, včetně SubcueAI:

První přepsaná slova se zobrazí přibližně do sekundy od řeči tazatele, protože streamovací STT vydává částečné výsledky.
První tokeny odpovědi obvykle začínají přicházet jednu až dvě sekundy po skončení otázky — to je číslo, které má největší význam, protože můžete okamžitě začít číst.
Úplná odpověď trvá déle, než se streamování dokončí, ale nemusíte čekat na dokončení, než začnete mluvit.

Tyto rozsahy předpokládají stabilní širokopásmové připojení. Při slabém Wi-Fi připojení, přetíženou kavárenskou sítí nebo při sdílení obrazovky a spouštění náročných aplikací se každá fáze zpomalí.

Jak je SubcueAI navržen, aby působil responzivně

SubcueAI je nativní desktopová aplikace pro macOS a Windows s dvojitým zachytáváním zvuku (váš mikrofon plus systémový zvuk schůzky) a lokální plovoucí překryvnou vrstvou. Několik designových rozhodnutí pomáhá udržovat vnímanou latenci nízkou:

Přímé zachytávání systémového zvuku zabraňuje opětovnému nahrávání reproduktorů přes mikrofon, což udržuje přepis čistší a snižuje potřebu opakování.
Streamovací přepis a streamovací odpovědi znamenají, že vidíte užitečný obsah předtím, než je úplná odpověď hotová.
Překryvná vrstva se vykresluje lokálně na vašem počítači, takže aktualizace rozhraní nezávisí na prohlížeči nebo schůzkám botovi připojujícím se k hovoru.

Více o architektuře si můžete přečíst na přehledové stránce nebo v tutoriálu.

Co můžete udělat pro snížení latence

Většina latence, kterou v praxi zaznamenáte, pochází z vašeho vlastního nastavení, nikoli od asistenta. Praktické věci, které pomáhají:

Použijte kabelové připojení nebo silný signál Wi-Fi 5 GHz místo okrajového.
Před pohovorem zavřete náročné aplikace na pozadí (velká IDE, která indexují, video editory, velké prohlížečové relace).
Zavřete ostatní záložky a aplikace, které streamují audio nebo video.
Předem proveďte zkušební spuštění, abyste věděli, jak se načasování skutečně cítí — viz tutoriál.

Stojí také za to být realistický: asistent AI není okamžitý. Zacházejte s ním jako s nápovědnou vrstvou, na kterou se letmo podíváte, nikoli jako s teleprompterem, který čtete slovo za slovem.

Časté dotazy

Je latence dostatečně nízká pro použití naživo během pohovoru?

Pro většinu lidí s normálním širokopásmovým připojením ano — částečné přepisy se zobrazí přibližně do sekundy a první slova navrhované odpovědi brzy následují. Je navržen tak, aby byl přehlédnutelný při mluvení, nikoli jako teleprompter v reálném čase.

Proč to není okamžité?

Protože probíhá skutečná práce: streamovací převod řeči na text, poté jazykový model generující odpověď token po tokenu. Obojí zahrnuje síťová volání poskytovatelům AI. Žádný současný asistent AI — SubcueAI nevyjímaje — nemá skutečně nulovou latenci.

Způsobuje delší kontext (životopis, popis práce) zpomalení?

Ano, mírně. Více kontextu obvykle znamená o něco pomalejší doby prvního tokenu, protože model má více ke čtení. Kompromisem jsou relevantnější, přizpůsobené odpovědi, což obvykle stojí za malé zpoždění.

Poškozuje špatné Wi-Fi připojení latenci?

Výrazně. Nestabilní Wi-Fi ovlivňuje jak kvalitu zvuku vaší schůzky, tak zpáteční cesty ke službám STT a LLM. Kabelové připojení nebo silný Wi-Fi signál je to nejdůležitější, co můžete ovlivnit.

Funguje SubcueAI stejně na Zoom, Google Meet a Microsoft Teams?

Ano. Protože SubcueAI zachytává systémový zvuk na úrovni operačního systému na macOS a Windows místo připojení jako schůzkový bot, jsou charakteristiky latence podobné napříč Zoom, Google Meet a Microsoft Teams.

Související otázky

← Více o Jak to funguje