Jak to funguje

Mechanika: duální záznam zvuku, přepis v reálném čase, latence a jak vznikají návrhy.

Tento klastr je pro lidi, kteří chtějí pochopit pipeline, než pohovoru svěří. Rozumné.

Od začátku do konce projde jeden návrh odpovědi čtyři kroky: záznam, přepis, generování, rendering. Záznam je OS-nativní — ScreenCaptureKit (macOS) nebo WASAPI (Windows) — tahá systémový zvuk na úrovni OS, aby AI slyšela tazatele stejnou cestou jako tvoje reproduktory. Mikrofon se zachytává zvlášť, aby AI měla i tvůj zvuk jako kontext a pro post-pohovorový přepis. Přepis je převod řeči na text v reálném čase. Při generování posíláme otázku spolu s tvým CV, popisem pozice a dosavadní historií rozhovoru do GPT-4o, se systémovým promptem omezujícím délku výstupu na formát pohovoru. Rendering streamuje odpověď do plovoucího okna překryvu, které existuje mimo okno konferenční aplikace — můžeš ho přetáhnout kamkoli, včetně mimo oblast sdílení obrazovky.

End-to-end latenční rozpočet prvního tokenu je sub-400 milliseconds. Za touto hranicí ti při čtení odpovědi sjede pohled z kamery, což ničí celý smysl. Odpovědi níže pokrývají každou fázi detailně, co se děje při překročení rozpočtu, a jaké kompromisy jsme zvolili. (Pro hlubší „proč jsme to dělali" viz dopis zakladatele.)

← Všechna témata