تعمل شركة أوبن إيه آي (OpenAI) على تسريع جهودها للسيطرة على سوق الذكاء الاصطناعي الناشئ؛ حيث كشفت الشركة هذا الأسبوع عن أحدث وأقوى نموذج لها تحت اسم GPT-4o. ويعتبر نموذج اللغة الكبيرة الجديد (LLM) هذا متعدّد الأنماط، حيث يمكنه فهم وإنشاء المحتوى “من وإلى” النصوص والصور والصوت بسرعةٍ غير مسبوقة.

ويمثل هذا الإطلاق أكبر قفزةٍ تقنيةٍ لـ OpenAI منذ إصدار GPT-4 العام الماضي وChatGPT في أواخر عام 2022. ويَعِدُ GPT-4o بتحسين أداء روبوت الدردشة الآلي الشهير من OpenAI وفتح آفاقٍ جديدة تماماً لمزيد من التفاعل الطبيعيّ متعدد الأنماط بين البشر وأنظمة الذكاء الاصطناعي.

وقالت ميرا موراتي (Mira Murati)، مديرة التكنولوجيا في OpenAI عند تقديمها المنتج الجديد للشركة: “بإمكان GPT-4o فهم المحتوى بأنماطه المتعدّدة سواءً كان على شكل صوتٍ أو كتابةٍ أو صورة وهوَ مهمٌّ للغاية، لأننا ننظر إلى طريقة التفاعل المستقبلية بيننا وبين الآلات”.

شركة أوبن إيه آي (OpenAI) تستعرض ميزات GPT-4o القوية خلال عرض مباشر

خلال عرض مباشر في سان فرانسيسكو، استعرضت موراتي وباحثون آخرون في شركة أوبن إيه آي (OpenAI) سرعة GPT-4o وطلاقته خلال عدة أساليب من التواصل. وأظهر النموذج قدرةً على الاستماع إلى الأوامر الصوتية والاستجابة بصوتٍ طبيعيّ خلال 232 ميللي ثانيةٍ فقط في المتوسط، وهي أقربُ سرعةٍ وصل إليها نموذجُ ذكاءٍ اصطناعي مقارنةً بمتوسط زمن استجابة البشر البالغ 200 ميللي ثانية.

ويمكن للنموذج الجديد تحليل الصور والفيديو بشكلٍ مباشر، وترجمة القوائم المكتوبة بلغةٍ أجنبية، وتقديم تعليق على الأحداث الرياضية المباشرة، والاطلاع على المخططات الفنية، إضافةً إلى القدرة على إنشاء مخرجاتٍ بتنسيقاتٍ مختلفةٍ بما في ذلك النصوص والصُور وغيرها.

والأمر الأكثرُ جاذبيةً هنا هو أن GPT-4o يُوحّد كلّ هذه القدرات في شبكةٍ عصبيةٍ واحدة بدلاً من الاعتماد على نماذجَ منفصلةٍ لكلّ نمط تفاعلٍ مختلف. ويُساهم هذا التغيير الكبير في بنية النموذج بالتخلص من التأخير ويتيح عمليات تواصلٍ سلسةٍ بأنماطٍ مختلفةٍ من البشر مع مُساعد الذكاء الاصطناعي.

وأكدت موراتي على ذلك بالقول: “عندما تعمل ثلاثة نماذج مختلفةٍ معاً، سيظهر تأخيرٌ في زمن الاستجابة، ما قد يؤثر سلباً على سلاسة تجربة التواصل، ولكن عندما يكون لدينا نموذجٌ واحدٌ يربط منطقياً بين الصوت والنص والرؤية، فهذا سيؤدي إلى تقليل زمن الاستجابة بحيث يمكننا التفاعل مع ChatGPT كما نتفاعل مع بعضنا الآن”.

كذلك بدأت الشركة بالفعل بطرح خواص GPT-4o لفهم النصوص والصور أمام مستخدمي الاشتراك المدفوع في ChatGPT Plus وزبائنهم المؤسساتيين، فيما تعتزم طرح نسخة الاختبار التجريبيّ لميزة التفاعل الصوتي المدعوم بالنموذج الجديد لمستخدمي Plus في الأسابيع المقبلة.

وعلّق سام ألتمان (Sam Altman)، الرئيس التنفيذي لشركة OpenAI قائلاً: “أعتقد أن وضع الصوت (والفيديو) الجديد هو أفضل واجهة كمبيوتر تم استخدامها على الإطلاق”. وأضاف: “يبدو الأمر وكأنه نفس الذكاء الاصطناعي الذي نشاهده في الأفلام، والأمر المُدهش هنا أنه حقيقيّ. لقد تبين أن الوصول إلى أوقات استجابةٍ وطلاقةٍ مماثلةٍ للقدرات البشرية يمثل تغييراً كبيراً”.

نموذج GPT-4o مقابل النماذج السابقة: التحديثات الرئيسية

مخطط بيانيّ يقارن عدة إصدارات من نماذج الذكاء الاصطناعي

رغم أن OpenAI أتاحت إدخالاتٍ متعدّدة الأنماط -مثل الصور- في الإصدارات السابقة من ChatGPT، فإن GPT-4 الأصليّ الذي تم إصداره في آذار/مارس 2023 بقيَ نموذجاً نصياً في الأساس، فمع أنه يتيح للمستخدمين مشاركة المعلومات المرئية، إلا أن الاستجابات التي قدّمها النموذج ظلت عبارةً عن مخرجاتٍ نصية.

وشكّل نموذج GPT-4 قفزةً نوعية مقارنةً بـ GPT-3.5 من خلال إظهاره مستوى معرفةٍ واقعياً محسَّناً وقدرات تفكير ودعم لغاتٍ متعدّدةً تتجاوز 20 لغة. إلى جانب ذلك، حصل نموذج GPT-4 على نسبة 90% في امتحان المحاماة الأمريكي المعروف بصعوبته الكبيرة، كما أظهر مهاراتٍ في البرمجة تمكّنه من منافسة معظم المبرمجين البشريين.

والآن، يأتي نموذج GPT-4o مع تحديثاتٍ على تلك القدرات النصية، ليحقق أيضاً خطواتٍ عملاقةً في الفهم الصوتيّ والمرئيّ الذي كانت تفتقر إليه النماذج السابقة. وفيما يلي ملخصٌ لأهم الاختلافات والتحسينات التي يتوفر عليها إصدار النموذج الجديد هذا.

تفاعلٌ صوتيٌّ لحظيٌّ بنبرة صوتٍ مشابهةٍ للبشر

قد تتمثل الميزة الجديدة الأكثرُ إثارة لدى نموذج GPT-4o في قدرته على الانخراط في محادثاتٍ صوتيةٍ مباشرة لا يمكن تمييزها تقريباً عند التحدث إلى شخصٍ آخر. وفي العرض التوضيحيّ، استجاب نموذج الذكاء الاصطناعي للأوامر اللفظية بردودٍ منطوقةٍ بطلاقةٍ وبصوتٍ بشريّ، كما أظهر قدرةً على تغيير نبرة الصوت من المزاح إلى الجديّة بطريقةٍ تنسجم مع مضمون المحادثة.

ويمتلك GPT-4o القدرة على تحليل المشاعر التي تنقلها نبرة صوت المتحدّث، وبالتالي تغيير طريقته هو في التحدث وفقاً لذلك. وفي مرحلةٍ ما، ترنّم بأغنية كردٍّ منه عندما تلقى أمراً ليروي قصّة ما قبل النوم. تمثل هذه الاستجابات المباشرة تحسناً كبيراً مقارنةً بـ “وضع الصوت”، وهي أول ميزة قائمةٍ على الصوت أطلقتها OpenAI لنموذج ChatGPT، حيث كان الإصدار التجريبيّ الخاص بالصوت يقوم ببساطةٍ بنسخ المدخلات الصوتية ويحولها إلى نص، ثم يقوم بتمريرها عبر نموذج لغة GPT، ثم يعود لتحويل مخرجات النص إلى كلام؛ وأدى ذلك إلى بطء زمن الاستجابة مقارنةً بالانسيابية الكاملة التي يُظهرها GPT-4o.

دعم لغاتٍ متعدّدة

في حين أن GPT-4 يمثل قفزةً كبيرة لشركة OpenAI في التعامل مع المدخلات بلغاتٍ عدّة تتجاوز 20 لغة، فإن GPT-4o يدعم الآن ما يصل إلى حوالي 50 لغةً كتابةً وتحدثاً، ما من شأنه توسيع نطاق التطبيقات العملية المُحتملة لنموذج الذكاء الاصطناعي بما في ذلك خدمات الترجمة الفورية.

 

خلال العرض التوضيحيّ، تمكنت موراتي من إجراء محادثةٍ مع نموذج الذكاء الاصطناعي على الرغم من الانتقال بين اللغتين الإنجليزية والإيطالية، حيث حصلت على ردودٍ مترجمةٍ بطلاقةٍ إلى اللغة المقابلة مدعومةً بالمهارات اللغوية المُحسّنة للنموذج.

المُدخلات والمُخرجات متعدّدة الأنماط

أحد الجوانب الأكثر تعبيراً عن مهارات نموذج GPT-4o هو قدرته على فهم مجموعاتٍ من النصوص والصور والصوت في وقتٍ واحدٍ كمُدخلات، ثم إنشاء المُخرَج المطلوب بالتنسيق الذي يفضّله المستخدم.

على سبيل المثال، يمكن إدخال وثيقةٍ مكتوبةٍ لنموذج الذكاء الاصطناعي ليقوم بإنشاء ملخص شفويّ يوضّح التفاصيل الرئيسية للوثيقة، كما يمكنه مشاهدة مقطع فيديو لشخص يعمل على حل معادلةٍ برمجيةٍ ليقوم بتقديم تعليقاتٍ توضيحيةٍ كتابياً حول منطق البرمجة والأخطاء والإصلاحات المقترحة.

هذه المرونة في المهارات ضمن أنماط تواصلٍ مختلفةٍ تفتح إمكانياتٍ كبيرةً عبر العديد من الصناعات والتطبيقات العملية بما يتجاوز ChatGPT نفسه، في مجالاتٍ مثل التعليم وإنتاج الوسائط الإبداعية والتمثيل البصريّ للبيانات وغيرها.

استجابة أسرع وكلفة أقل

على الرغم من تصميمها الذكاء الاصطناعي متعدّد الأنماط الأكثر تعقيداً؛ إلا أن شركة OpenAI تؤكد أن GPT-4o سيكون أكثر سرعةً وأوفر تكلفةً بالمقارنة مع GPT-4، حيث سيقدّم هذا النموذج الجديد ضعف الأداء بنصف الكلفة الإنتاجية مقارنةً بسلفه، ويأتي هذا التحسّن في الكفاءة بفضل الشبكة العصبية الموحَّدة متعدّدة الأنماط التي تلغي الحاجة لفصل معالجة البيانات ذات الصيغ المختلفة، وقد بدأت OpenAI بإطلاق GPT-4o عبر واجهة برمجة تطبيقات (API) خاصةٍ بها لتسمح للمطوّرين والشركات بالاستفادة من الذكاء الاصطناعي متعدّد الأنماط، الأسرع وذي الكلفة التشغيلية الأقل.

آبل (Apple) وجوجل (Google) قد تكشفان هذا الأسبوع عن ابتكاراتهما في مجال الذكاء الاصطناعي

قامت OpenAI -من خلال إطلاقها لـ GPT-4o- برفع مستوى المنافسة مجدّداً بين مختبرات الذكاء الاصطناعي ليستمرَّ سباق تطوير النموذج الأقوى في القطاع، ومن المتوقع أن تعلن جوجل هذا الأسبوع عن تحديثاتٍ في نموذج الذكاء الاصطناعي متعدّد الوسائط الخاص بها (Gemini) خلال مؤتمر جوجل السنوي للمطوّرين (I/O).

كما يُرجَّح أن تكشف شركة آبل عن آخر ابتكاراتها في المجال خلال مؤتمر المطوّرين العالمي (WWDC24) المخطط عقدُه في 5 حزيران/يونيو المقبل، فيما يستمر اللاعبون الصغار -مثل Anthropic- بتوسيع حدود الإنجازات الممكنة باستخدام الذكاء الاصطناعي التوليدي، حيث قامت Anthropic (مطوّر نموذج الذكاء الاصطناعي التأسيسي الشهير Claude) مؤخراً بالإعلان عن برمجيتها الجديدة التي ستتوفر الآن لمستخدمي الاتحاد الأوروبي ومستخدمي نظام تشغيل iOS عن طريق تطبيقٍ جديد على متجر تطبيقات آبل (App Store).

ولكنّ GPT-4o يمثّل قفزةً كبيرةً لـ OpenAI ومايكروسوفت (Microsoft-MSFT) الداعمة لها، ويؤكد هيمنتهما على هذا القطاع عالي التنافسية. وإذا ما مضت الأمور بهذا الإيقاع التنافسيّ فقد نكون على بُعد بضعة أشهرٍ من إنتاج نماذج الذكاء الاصطناعي العام (AGI)، أو ما يشابهها. ولكنّ تحقيق هذا الإنجاز يتطلّب تضمين قدرات معالجة الفيديو، وقد شكّل إطلاق Sora -في شباط/فبراير من هذا العام- خطوةً مهمةً في هذا الاتجاه.

وتحدّثت موراتي عن الموضوع بالقول: “نعلم أن هذه النماذج تزداد تعقيداً، ولكنّنا نطمح لتجربة تفاعلٍ أكثر طبيعيةً وسهولةً، ولا نريدكم أن تركزوا على واجهة الاستخدام أبداً، بل على التعامل مع ChatGPT… لقد قمنا في السنوات الأخيرة بالتركيز على تحسين ذكاء هذه النماذج، ولكننا الآن نقوم بالخطوة الأولى الكبيرة فيما يتعلق بسهولة الاستخدام”.

في النهاية، يبدو جلياً أن هذه التقنية -التي كشفت عنها OpenAI هذا الأسبوع- تقرّبنا عدة خطواتٍ من تحويل حلم الذكاء الاصطناعي العام إلى واقعٍ يمكننا العيش معه.