यह कैसे काम करता है

तंत्र: दोहरी ऑडियो कैप्चर, रियल-टाइम स्पीच-टू-टेक्स्ट, विलंबता, और उत्तर सुझाव कैसे बनते हैं।

यह क्लस्टर उन लोगों के लिए है जो अपना इंटरव्यू सौंपने से पहले पाइपलाइन को समझना चाहते हैं। उचित।

एंड-टू-एंड, एक उत्तर सुझाव चार चरणों से गुज़रता है: कैप्चर, ट्रांसक्राइब, जनरेट, रेंडर। कैप्चर OS-नेटिव है — ScreenCaptureKit (macOS) या WASAPI (Windows) — OS स्तर पर सिस्टम ऑडियो खींचता है ताकि AI इंटरव्यूअर को उसी रास्ते से सुने जैसे आपके स्पीकर। माइक्रोफ़ोन अलग से कैप्चर किया जाता है ताकि AI के पास भी संदर्भ और इंटरव्यू-पश्चात ट्रांसक्रिप्ट के लिए आपका ऑडियो हो। ट्रांसक्रिप्शन रियल-टाइम स्पीच-टू-टेक्स्ट है। जनरेशन प्रश्न को आपके रिज़्यूमे, जॉब डिस्क्रिप्शन और अब तक के बातचीत इतिहास के साथ GPT-4o को भेजता है, एक सिस्टम प्रॉम्प्ट के साथ जो आउटपुट को इंटरव्यू-उपयुक्त लंबाई पर सीमित करता है। रेंडरिंग उत्तर को एक तैरते ओवरले विंडो में स्ट्रीम करता है जो कॉन्फ्रेंसिंग ऐप की विंडो के बाहर मौजूद है — आप इसे कहीं भी खींच सकते हैं, स्क्रीन-शेयर क्षेत्र के बाहर भी।

एंड-टू-एंड पहले टोकन की विलंबता का बजट sub-400 milliseconds है। उस बिंदु से आगे, उत्तर पढ़ते समय आपकी नज़र कैमरे से हट जाती है, जो उद्देश्य को विफल कर देती है। नीचे के उत्तर हर चरण को विस्तार से कवर करते हैं, बजट से बाहर जाने पर क्या होता है, और हमने जो ट्रेड-ऑफ़ चुने। (गहरे "हमने इसे क्यों बनाया" संदर्भ के लिए, संस्थापक का पत्र देखें।)

← सभी विषय