Kolik latence přidává asistent AI pro pohovory?

Autor: Aaron Cao · Aktualizováno

Latence od začátku do konce obvykle běží od přibližně jedné do několika sekund: krátké zpoždění pro převod řeči na text, poté dodatečný čas na to, aby jazykový model vygeneroval odpověď. Přesná čísla závisejí na vaší síti, modelu a množství zpracovávaného kontextu.

Odkud latence ve skutečnosti pochází

Asistent AI pro pohovory je pipeline a každá fáze přidává malé zpoždění:

  • Zachycení zvuku — aplikace průběžně ukládá mikrofon a systémový zvuk do vyrovnávací paměti. To je obvykle zanedbatelné (desítky milisekund).
  • Řeč na text (STT) — streamovací přepis vrací částečné výsledky, zatímco tazatel ještě mluví, takže vidíte text s krátkým zpožděním místo čekání na celou větu.
  • Inference jazykového modelu — jakmile je otázka rozpoznána, model musí vygenerovat odpověď. Toto je obvykle největší jednotlivá složka latence a škáluje se s délkou odpovědi a množstvím zahrnutého kontextu (životopis, popis práce, předchozí tahy).
  • Síťové zpáteční cesty — volání cloudových poskytovatelů STT a LLM závisí na kvalitě vašeho připojení a fyzické vzdálenosti do oblasti poskytovatele.

Upřímná odpověď na „kolik latence" tedy zní: je to součet těchto fází, nikoli jediné číslo.

Typické rozsahy, které byste měli očekávat

Jako přibližný mentální model pro každého moderního asistenta AI pro pohovory, včetně SubcueAI:

  • První přepsaná slova se zobrazí přibližně do sekundy od řeči tazatele, protože streamovací STT vydává částečné výsledky.
  • První tokeny odpovědi obvykle začínají přicházet jednu až dvě sekundy po skončení otázky — to je číslo, které má největší význam, protože můžete okamžitě začít číst.
  • Úplná odpověď trvá déle, než se streamování dokončí, ale nemusíte čekat na dokončení, než začnete mluvit.

Tyto rozsahy předpokládají stabilní širokopásmové připojení. Při slabém Wi-Fi připojení, přetíženou kavárenskou sítí nebo při sdílení obrazovky a spouštění náročných aplikací se každá fáze zpomalí.

Jak je SubcueAI navržen, aby působil responzivně

SubcueAI je nativní desktopová aplikace pro macOS a Windows s dvojitým zachytáváním zvuku (váš mikrofon plus systémový zvuk schůzky) a lokální plovoucí překryvnou vrstvou. Několik designových rozhodnutí pomáhá udržovat vnímanou latenci nízkou:

  • Přímé zachytávání systémového zvuku zabraňuje opětovnému nahrávání reproduktorů přes mikrofon, což udržuje přepis čistší a snižuje potřebu opakování.
  • Streamovací přepis a streamovací odpovědi znamenají, že vidíte užitečný obsah předtím, než je úplná odpověď hotová.
  • Překryvná vrstva se vykresluje lokálně na vašem počítači, takže aktualizace rozhraní nezávisí na prohlížeči nebo schůzkám botovi připojujícím se k hovoru.

Více o architektuře si můžete přečíst na přehledové stránce nebo v tutoriálu.

Co můžete udělat pro snížení latence

Většina latence, kterou v praxi zaznamenáte, pochází z vašeho vlastního nastavení, nikoli od asistenta. Praktické věci, které pomáhají:

  • Použijte kabelové připojení nebo silný signál Wi-Fi 5 GHz místo okrajového.
  • Před pohovorem zavřete náročné aplikace na pozadí (velká IDE, která indexují, video editory, velké prohlížečové relace).
  • Zavřete ostatní záložky a aplikace, které streamují audio nebo video.
  • Předem proveďte zkušební spuštění, abyste věděli, jak se načasování skutečně cítí — viz tutoriál.

Stojí také za to být realistický: asistent AI není okamžitý. Zacházejte s ním jako s nápovědnou vrstvou, na kterou se letmo podíváte, nikoli jako s teleprompterem, který čtete slovo za slovem.

Časté dotazy

Je latence dostatečně nízká pro použití naživo během pohovoru?

Pro většinu lidí s normálním širokopásmovým připojením ano — částečné přepisy se zobrazí přibližně do sekundy a první slova navrhované odpovědi brzy následují. Je navržen tak, aby byl přehlédnutelný při mluvení, nikoli jako teleprompter v reálném čase.

Proč to není okamžité?

Protože probíhá skutečná práce: streamovací převod řeči na text, poté jazykový model generující odpověď token po tokenu. Obojí zahrnuje síťová volání poskytovatelům AI. Žádný současný asistent AI — SubcueAI nevyjímaje — nemá skutečně nulovou latenci.

Způsobuje delší kontext (životopis, popis práce) zpomalení?

Ano, mírně. Více kontextu obvykle znamená o něco pomalejší doby prvního tokenu, protože model má více ke čtení. Kompromisem jsou relevantnější, přizpůsobené odpovědi, což obvykle stojí za malé zpoždění.

Poškozuje špatné Wi-Fi připojení latenci?

Výrazně. Nestabilní Wi-Fi ovlivňuje jak kvalitu zvuku vaší schůzky, tak zpáteční cesty ke službám STT a LLM. Kabelové připojení nebo silný Wi-Fi signál je to nejdůležitější, co můžete ovlivnit.

Funguje SubcueAI stejně na Zoom, Google Meet a Microsoft Teams?

Ano. Protože SubcueAI zachytává systémový zvuk na úrovni operačního systému na macOS a Windows místo připojení jako schůzkový bot, jsou charakteristiky latence podobné napříč Zoom, Google Meet a Microsoft Teams.

Související otázky

← Více o Jak to funguje