Jak to działa

Mechanika: podwójne przechwytywanie dźwięku, transkrypcja w czasie rzeczywistym, opóźnienie i jak powstają sugestie.

Ten klaster jest dla osób, które chcą zrozumieć potok, zanim powierzą mu rozmowę kwalifikacyjną. Rozsądnie.

Od końca do końca jedna sugestia odpowiedzi przechodzi cztery kroki: przechwytywanie, transkrypcja, generowanie, renderowanie. Przechwytywanie jest natywne dla systemu — ScreenCaptureKit (macOS) lub WASAPI (Windows) — pobiera dźwięk systemowy na poziomie systemu operacyjnego, aby AI słyszała rekrutera tą samą drogą, którą słyszą twoje głośniki. Mikrofon przechwytywany jest osobno, by AI miała też twój dźwięk jako kontekst i do transkrypcji po rozmowie. Transkrypcja to konwersja mowy na tekst w czasie rzeczywistym. Generowanie przekazuje pytanie wraz z twoim CV, opisem stanowiska i historią rozmowy do GPT-4o, z systemowym promptem ograniczającym długość wyjścia do formatu rozmowy. Renderowanie streamuje odpowiedź do pływającego okna nakładki, które istnieje poza oknem aplikacji konferencyjnej — można je przeciągnąć gdziekolwiek, w tym poza obszar udostępnianego ekranu.

Budżet opóźnienia pierwszego tokena od końca do końca to sub-400 milliseconds. Powyżej tej granicy twój wzrok schodzi z kamery, gdy czytasz odpowiedź, co rujnuje cel. Odpowiedzi poniżej omawiają każdy etap szczegółowo, co dzieje się przy przekroczeniu budżetu i jakie kompromisy wybraliśmy. (Po głębszy kontekst „dlaczego to zrobiliśmy" zajrzyj do listu założyciela.)

← Wszystkie tematy