Hogyan működik

A mechanika: kettős hangrögzítés, valós idejű beszéd-szöveg, késleltetés és hogyan készülnek a javaslatok.

Ez a klaszter azoké, akik szeretnék érteni a pipeline-t, mielőtt az interjújukat rábízzák. Ésszerű.

Végponttól végpontig egy válaszjavaslat négy lépésen megy át: rögzítés, átírás, generálás, megjelenítés. A rögzítés OS-natív — ScreenCaptureKit (macOS) vagy WASAPI (Windows) — OS-szinten húzza a rendszerhangot, hogy az MI ugyanazon az úton hallja az interjúztatót, mint a hangszóróid. A mikrofont külön rögzítjük, hogy az MI a te hangodat is megkapja kontextusként és az interjú utáni átirathoz. Az átírás valós idejű beszéd-szöveg konverzió. A generálás a kérdést a CV-deddel, az állásleírással és az eddigi beszélgetés történetével együtt elküldi a GPT-4o-nak, egy rendszerprompt mellett, amely interjúhoz illő hosszra korlátozza a kimenetet. A megjelenítés a választ egy lebegő rárakásos ablakba streameli, amely a videókonferencia-alkalmazás ablakán kívül létezik — bárhová elhúzhatod, akár a képernyőmegosztás területén kívülre is.

A végponttól végpontig terjedő első token késleltetési költségvetése sub-400 milliseconds. Ezen túl a tekintet leesik a kameráról, miközben a választ olvasod, ami leveri az egész célt. Az alábbi válaszok minden szakaszt részletesen lefednek, mi történik, ha túllépjük a költségvetést, és milyen kompromisszumokat választottunk. (A mélyebb „miért építettük" kontextushoz lásd az alapító levelét.)

← Összes téma