نموذج GPT-Realtime-2
أعلنت شركة OpenAI عن إطلاق جيل جديد من نماذج الذكاء الاصطناعي الصوتية عبر واجهة برمجة التطبيقات (API)، في خطوة تهدف إلى تطوير مستقبل التفاعل الصوتي وجعل المحادثات مع الأنظمة الذكية أكثر طبيعية وذكاءً وقدرة على تنفيذ المهام بشكل فوري.
وتشمل الإعلانات الجديدة ثلاثة نماذج رئيسية: GPT-Realtime-2، وGPT-Realtime-Translate، وGPT-Realtime-Whisper، والتي تمثل نقلة نوعية في مجال الصوتيات المدعومة بالذكاء الاصطناعي.
GPT-Realtime-2: ذكاء صوتي بمستوى GPT-5.5
يعد GPT-Realtime-2 أول نموذج صوتي من OpenAI يجمع بين المحادثة الصوتية المباشرة وقدرات التفكير المتقدم بمستوى نماذج GPT الحديثة، ما يجعله قادرًا على فهم الطلبات المعقدة، متابعة سياق الحديث، وتصحيح المسار أثناء المحادثة دون فقدان الترابط.
أبرز مميزاته:
قدرة أعلى على التفكير واتخاذ القرار
يمكن للنموذج تحليل الطلبات المعقدة والتعامل معها بذكاء أكبر أثناء استمرار المحادثة.
استدعاء أدوات متعددة بالتوازي
أصبح بإمكانه تنفيذ أكثر من مهمة في الوقت نفسه، مثل البحث في التقويم أو قواعد البيانات أثناء الحديث.
تحسين التعامل مع الأخطاء والانقطاعات
إذا واجه النموذج مشكلة أثناء تنفيذ الطلب، يمكنه إبلاغ المستخدم بشكل طبيعي بدلًا من التوقف أو الفشل بصمت.
نافذة سياق أكبر
رفعت OpenAI سعة السياق من 32 ألف رمز إلى 128 ألف رمز، مما يسمح بجلسات أطول وأكثر تماسكًا.
فهم أفضل للمصطلحات المتخصصة
تم تحسين قدرته على التعامل مع المصطلحات التقنية والطبية والأسماء الخاصة.
تحكم أفضل في النبرة والأسلوب
يمكن للمطورين ضبط أسلوب الحديث بحسب السيناريو، سواء كان رسميًا، هادئًا، أو متعاطفًا.
مستويات تفكير قابلة للتعديل
توفر OpenAI خمس درجات مختلفة من قوة التفكير لتحقيق توازن بين السرعة والدقة.
GPT-Realtime-2
GPT-Realtime-Translate: ترجمة صوتية لحظية
كشفت OpenAI أيضًا عن نموذج GPT-Realtime-Translate، وهو مخصص للترجمة الصوتية الفورية أثناء المحادثة المباشرة.
النموذج يدعم أكثر من 70 لغة إدخال ويترجمها إلى 13 لغة إخراج، مع الحفاظ على سرعة التحدث الطبيعية دون تأخير ملحوظ.
أهم مميزاته:
- ترجمة مباشرة أثناء الحديث
- الحفاظ على معنى الكلام والسياق
- التعامل مع اللهجات المختلفة والنطق الإقليمي
- مناسب لخدمة العملاء والتعليم والاجتماعات الدولية
وتعمل شركات مثل Deutsche Telekom بالفعل على اختبار هذا النموذج لتقديم دعم متعدد اللغات بشكل طبيعي وفوري.
GPT-Realtime-Whisper: نسخ فوري منخفض التأخير
أما النموذج الثالث فهو GPT-Realtime-Whisper، وهو نسخة مطورة من تقنيات النسخ الصوتي الفوري، حيث يقوم بتحويل الكلام إلى نص لحظيًا أثناء حديث المستخدم.
استخداماته الرئيسية:
- كتابة الترجمة الفورية للاجتماعات
- تسجيل الملاحظات أثناء المحادثات
- دعم الفصول الدراسية والبث المباشر
- إنشاء ملخصات حية للمكالمات والاجتماعات
ويمتاز بسرعة استجابة أعلى مقارنة بالإصدارات السابقة، ما يجعله مناسبًا للتطبيقات الزمنية الحساسة.
استخدامات عملية للنماذج الجديدة
توضح OpenAI أن هذه النماذج تفتح الباب أمام ثلاث فئات رئيسية من التطبيقات:
Voice-to-Action
تحويل الكلام إلى أوامر فعلية وتنفيذ المهام مباشرة.
Systems-to-Voice
تحويل بيانات الأنظمة إلى توجيهات صوتية مباشرة للمستخدم.
Voice-to-Voice
محادثات صوتية مباشرة بين أشخاص يتحدثون لغات مختلفة مع ترجمة فورية.
ومن بين الشركات التي بدأت استخدام هذه التقنيات:
- Zillow لتطوير مساعد عقاري ذكي
- Priceline لإدارة الرحلات بالصوت
- Vimeo لترجمة الفيديوهات التعليمية لحظيًا
الأسعار والتوفر
أكدت OpenAI أن النماذج الثلاثة أصبحت متاحة رسميًا عبر Realtime API للمطورين، بأسعار مختلفة حسب نوع الاستخدام:
- GPT-Realtime-2:
32 دولارًا لكل مليون رمز إدخال صوتي
64 دولارًا لكل مليون رمز إخراج صوتي - GPT-Realtime-Translate:
0.034 دولار للدقيقة - GPT-Realtime-Whisper:
0.017 دولار للدقيقة
الخلاصة:
مع هذه الإطلاقات الجديدة، تؤكد OpenAI أن مستقبل التفاعل مع التطبيقات يتجه بقوة نحو الصوت، ليس فقط كمجرد وسيلة للتحدث، بل كواجهة ذكية قادرة على الفهم، التفكير، الترجمة، النسخ، وتنفيذ المهام في الوقت الحقيقي.
ويمثل GPT-Realtime-2 تحديدًا خطوة كبيرة نحو بناء مساعدين صوتيين أكثر ذكاءً وقربًا من المحادثات البشرية الحقيقية، مع إمكانيات واسعة للمطورين في مختلف القطاعات.
اقرأ أيضًا: شرح طريقة تغيير عنوان البريد الإلكتروني على Gmail دون فقدان بياناتك
المصدر: سعودي اندرويد
مواضيع مشابهة
اخر المواضيع