Funktionsweise

Die Mechanik: duale Audioaufnahme, Echtzeit-Spracherkennung, Latenz und wie Antwortvorschläge entstehen.

Dieses Cluster ist für Leute, die die Pipeline verstehen wollen, bevor sie ihr Interview darauf vertrauen. Vernünftig.

End-to-End durchläuft ein Antwortvorschlag vier Schritte: Aufnahme, Transkription, Generierung, Rendering. Die Aufnahme ist OS-nativ — ScreenCaptureKit (macOS) oder WASAPI (Windows) — und zieht Systemaudio auf OS-Ebene, sodass die KI den Interviewer auf demselben Weg hört wie deine Lautsprecher. Das Mikrofon wird separat aufgenommen, damit die KI auch deinen Audioteil als Kontext und für das Interview-Transkript hat. Die Transkription ist Echtzeit-Spracherkennung. Die Generierung übergibt die Frage zusammen mit deinem Lebenslauf, der Stellenbeschreibung und dem bisherigen Gesprächsverlauf an GPT-4o, mit einem System-Prompt, der die Ausgabe auf interviewgerechte Länge begrenzt. Das Rendering streamt die Antwort in ein schwebendes Overlay-Fenster, das außerhalb des Fensters der Konferenz-App existiert — du kannst es überallhin ziehen, auch aus dem Bildschirmfreigabebereich heraus.

Das End-to-End-Latenzbudget für das erste Token beträgt sub-400 milliseconds. Darüber hinaus verlässt dein Blick die Kamera, während du die Antwort liest, was den Sinn zunichtemacht. Die Antworten unten behandeln jede Stufe im Detail, was passiert, wenn das Budget überschritten wird, und welche Trade-offs wir gewählt haben. (Für den tieferen Warum-wir-es-gebaut-haben-Kontext siehe den Gründerbrief.)

← Alle Themen