Πώς λειτουργεί

Ο μηχανισμός: διπλή σύλληψη ήχου, μεταγραφή σε πραγματικό χρόνο, καθυστέρηση και πώς παράγονται οι προτάσεις.

Αυτό το cluster είναι για όσους θέλουν να καταλάβουν τον αγωγό πριν εμπιστευτούν τη συνέντευξή τους σε αυτόν. Λογικό.

Από άκρη σε άκρη, μια πρόταση απάντησης περνά από τέσσερα βήματα: σύλληψη, μεταγραφή, παραγωγή, απόδοση. Η σύλληψη είναι εγγενής στο OS — ScreenCaptureKit (macOS) ή WASAPI (Windows) — τραβά τον ήχο συστήματος σε επίπεδο OS ώστε το AI να ακούει τον συνεντευκτή από την ίδια διαδρομή με τα ηχεία σου. Το μικρόφωνο συλλαμβάνεται ξεχωριστά ώστε το AI να έχει επίσης τον ήχο σου ως πλαίσιο και για τη μεταγραφή μετά τη συνέντευξη. Η μεταγραφή είναι μετατροπή ομιλίας-σε-κείμενο σε πραγματικό χρόνο. Η παραγωγή περνά την ερώτηση μαζί με το βιογραφικό σου, την περιγραφή της θέσης και το ιστορικό συζήτησης μέχρι εκείνο το σημείο στο GPT-4o, με ένα system prompt που περιορίζει την έξοδο σε μήκος κατάλληλο για συνέντευξη. Η απόδοση κάνει streaming την απάντηση σε ένα κινητό παράθυρο overlay που υπάρχει έξω από το παράθυρο της εφαρμογής τηλεδιάσκεψης — μπορείς να το σύρεις οπουδήποτε, ακόμη και έξω από την περιοχή κοινής χρήσης οθόνης.

Ο προϋπολογισμός καθυστέρησης πρώτου token από άκρη σε άκρη είναι sub-400 milliseconds. Πέρα από αυτό το σημείο, το βλέμμα σου απομακρύνεται από την κάμερα ενώ διαβάζεις την απάντηση, κάτι που ακυρώνει τον σκοπό. Οι απαντήσεις παρακάτω καλύπτουν κάθε στάδιο λεπτομερώς, τι συμβαίνει όταν ξεπερνιέται ο προϋπολογισμός, και τους συμβιβασμούς που διαλέξαμε. (Για το βαθύτερο πλαίσιο «γιατί το φτιάξαμε», δες το γράμμα του ιδρυτή.)

← Όλα τα θέματα