كيف يعمل

الآلية: التقاط صوت مزدوج، تحويل الكلام إلى نص فوريًا، زمن الاستجابة، وكيف تُولَّد الاقتراحات.

هذه المجموعة لمن يريدون فهم خط الأنابيب قبل ائتمان مقابلتهم له. معقول.

من البداية إلى النهاية، يمر اقتراح إجابة واحد بأربع خطوات: الالتقاط، النسخ، التوليد، العرض. الالتقاط أصلي لنظام التشغيل — ScreenCaptureKit (macOS) أو WASAPI (Windows) — يسحب صوت النظام على مستوى نظام التشغيل بحيث يسمع الذكاء الاصطناعي المُحاوِر من نفس المسار الذي تسمعه به سمّاعاتك. يُلتقط الميكروفون بشكل منفصل ليصبح للذكاء الاصطناعي أيضاً صوتك كسياق ولأجل نسخ ما بعد المقابلة. النسخ هو تحويل كلام-إلى-نص فوري. يمرّر التوليد السؤال مع سيرتك الذاتية ووصف الوظيفة وسجل المحادثة حتى الآن إلى GPT-4o، مع موجّه نظامي يقيّد الإخراج بطول مناسب للمقابلة. العرض يبثّ الإجابة إلى نافذة طبقة عرض عائمة موجودة خارج نافذة تطبيق المؤتمر — يمكنك سحبها إلى أي مكان، بما فيها خارج منطقة مشاركة الشاشة.

ميزانية تأخر الرمز الأول من البداية إلى النهاية هي sub-400 milliseconds. بعد تلك النقطة، تنحرف عيناك عن الكاميرا أثناء قراءة الإجابة، مما يلغي الغرض. تغطي الإجابات أدناه كل مرحلة بالتفصيل، وما يحدث حين تُتجاوَز الميزانية، والمقايضات التي اخترناها. (لسياق «لماذا بنينا هذا» الأعمق، انظر رسالة المؤسس.)

← كل المواضيع