Så fungerar det

Mekaniken: dubbel ljudinspelning, tal-till-text i realtid, latens och hur förslag genereras.

Det här klustret är till för dem som vill förstå pipelinen innan de anförtror sin intervju åt den. Rimligt.

Från ände till ände går ett svarsförslag genom fyra steg: infångning, transkription, generering, rendering. Infångning är OS-nativ — ScreenCaptureKit (macOS) eller WASAPI (Windows) — drar systemljud på OS-nivå så att AI:n hör intervjuaren på samma väg som dina högtalare. Mikrofonen fångas separat så att AI:n också har ditt ljud som kontext och för efterintervju-transkriptet. Transkription är realtids tal-till-text. Genereringen skickar frågan tillsammans med ditt CV, jobbeskrivningen och samtalshistoriken så här långt till GPT-4o, med en systemprompt som begränsar utdata till intervjulämplig längd. Renderingen strömmar svaret in i ett flytande överläggsfönster som existerar utanför konferensappens fönster — du kan dra det vart som helst, även utanför området för skärmdelning.

Latensbudget från ände till ände för första token är sub-400 milliseconds. Bortom den punkten åker blicken bort från kameran medan du läser svaret, vilket omintetgör hela syftet. Svaren nedan täcker varje steg i detalj, vad som händer när budgeten överskrids, och de avvägningar vi valt. (För det djupare ”varför-vi-byggde-det”-sammanhanget, se grundarbrevet.)

← Alla ämnen