Hoe het werkt

De mechaniek: dubbele audiocapture, realtime spraak-naar-tekst, latentie en hoe suggesties ontstaan.

Dit cluster is voor mensen die de pipeline willen begrijpen voordat ze hun gesprek eraan toevertrouwen. Redelijk.

End-to-end doorloopt één antwoordsuggestie vier stappen: vastleggen, transcriberen, genereren, renderen. Vastleggen is OS-native — ScreenCaptureKit (macOS) of WASAPI (Windows) — trekt systeemgeluid op OS-niveau zodat de AI de interviewer langs dezelfde route hoort als jouw speakers. De microfoon wordt apart vastgelegd zodat de AI ook jouw audio heeft als context en voor het transcript na het gesprek. Transcriberen is realtime spraak-naar-tekst. De generatie geeft de vraag samen met je cv, de functieomschrijving en de gespreksgeschiedenis tot dat moment door aan GPT-4o, met een systeemprompt die de uitvoer beperkt tot een passende lengte voor een interview. De render streamt het antwoord naar een zwevend overlay-venster dat buiten het venster van de conferentie-app bestaat — je kunt het overal naartoe slepen, ook buiten het deelvenster van de schermdeling.

Het end-to-end-budget voor de eerste-token-latentie is sub-400 milliseconds. Voorbij dat punt dwalen je ogen weg van de camera terwijl je het antwoord leest, wat het doel ondermijnt. De antwoorden hieronder behandelen elke fase in detail, wat er gebeurt wanneer het budget wordt overschreden, en de afwegingen die we hebben gemaakt. (Voor de diepere „waarom-we-het-gebouwd-hebben"-context, zie de brief van de oprichter.)

← Alle onderwerpen