يُظهر نموذج MM1 AI من Apple أن العملاق النائم يستيقظ

تكلنوجيا

يُظهر نموذج MM1 AI من Apple أن العملاق النائم يستيقظ


في حين أن صناعة التكنولوجيا أصبحت منتجة الذكاء الاصطناعي، عملاق واحد أحجم عن ذلك: أبل. لم تقدم الشركة بعد الكثير من الرموز التعبيرية التي تم إنشاؤها بواسطة الذكاء الاصطناعي، ووفقًا لـ أ نيويورك تايمز تقرير اليوم و التقارير السابقة من بلومبرج، تجري محادثات أولية مع Google حول إضافة نموذج Gemini AI الخاص بشركة البحث إلى أجهزة iPhone.

بعد أ ورقة ابحاث يشير نشر مهندسي شركة Apple بهدوء على الإنترنت يوم الجمعة الماضي إلى أن الشركة تقوم باستثمارات جديدة كبيرة في الذكاء الاصطناعي والتي بدأت تؤتي ثمارها بالفعل. وهو يعرض تفاصيل تطوير نموذج ذكاء اصطناعي توليدي جديد يسمى MM1 قادر على العمل مع النصوص والصور. ويظهر الباحثون أنها تجيب على أسئلة حول الصور وتعرض نوع مهارات المعرفة العامة التي تظهرها روبوتات الدردشة مثل ChatGPT. لم يتم شرح اسم النموذج ولكن يمكن أن يرمز إلى MultiModal 1.

يبدو أن MM1 مشابه في التصميم والتطور لمجموعة متنوعة من نماذج الذكاء الاصطناعي الحديثة من عمالقة التكنولوجيا الآخرين، بما في ذلك Meta مفتوح المصدر Llama 2 و جوجل الجوزاء. يُظهر العمل الذي قام به منافسو شركة أبل والأكاديميون أن النماذج من هذا النوع يمكن استخدامها لتشغيل روبوتات الدردشة القادرة أو بناء “وكلاء” يمكنهم حل المهام عن طريق كتابة التعليمات البرمجية واتخاذ إجراءات مثل استخدام واجهات الكمبيوتر أو مواقع الويب. وهذا يشير إلى أن MM1 قد يجد طريقه إلى منتجات Apple.

يقول: “إن حقيقة قيامهم بذلك، تظهر أن لديهم القدرة على فهم كيفية التدريب وكيفية بناء هذه النماذج”. رسلان صلاح الدينوف، الأستاذ بجامعة كارنيجي ميلون الذي قاد أبحاث الذكاء الاصطناعي في شركة أبل منذ عدة سنوات. “يتطلب قدرًا معينًا من الخبرة.”

MM1 هو نموذج لغة كبير متعدد الوسائط، أو MLLM، مما يعني أنه تم تدريبه على الصور بالإضافة إلى النص. يتيح ذلك للنموذج الاستجابة للمطالبات النصية وكذلك الإجابة على الأسئلة المعقدة حول صور معينة.

يوضح أحد الأمثلة في ورقة بحث Apple ما حدث عندما تم تزويد MM1 بصورة لطاولة مطعم مشمسة مع زجاجتين من البيرة وأيضًا صورة لقائمة الطعام. عندما سئل عن المبلغ الذي يتوقع شخص ما أن يدفعه مقابل “كل البيرة الموجودة على الطاولة”، يقرأ النموذج بشكل صحيح السعر الصحيح ويحسب التكلفة.

عندما تم إطلاق ChatGPT في نوفمبر 2022، كان بإمكانه استيعاب النص وإنشاءه فقط، ولكن في الآونة الأخيرة، عمل منشئه OpenAI وآخرون على توسيع تقنية نموذج اللغة الكبيرة الأساسية للعمل مع أنواع أخرى من البيانات. متى أطلقت جوجل الجوزاء (النموذج الذي يشغله الآن الرد على ChatGPT) في ديسمبر الماضي، الشركة توصف بطبيعتها المتعددة الوسائط كبداية لاتجاه جديد مهم في الذكاء الاصطناعي. وتقول ورقة بحثية لشركة أبل: “بعد ظهور أصحاب الامتيازات في مجال إدارة الأعمال، بدأت شركات الامتيازات والرواتب في الظهور باعتبارها الحدود التالية في نماذج الأساس”.

يعد MM1 نموذجًا صغيرًا نسبيًا، حيث يتم قياسه بعدد “المعلمات” أو المتغيرات الداخلية التي يتم تعديلها أثناء تدريب النموذج. كيت ساينكويقول البروفيسور في جامعة بوسطن والمتخصص في رؤية الكمبيوتر والتعلم الآلي، إن هذا قد يسهل على مهندسي Apple تجربة أساليب التدريب والتحسينات المختلفة قبل التوسع عندما يصلون إلى شيء واعد.

يقول ساينكو إن ورقة MM1 توفر قدرًا مدهشًا من التفاصيل حول كيفية تدريب النموذج لنشره في إحدى الشركات. على سبيل المثال، يصف المهندسون الذين يعملون في MM1 حيلًا لتحسين أداء النموذج بما في ذلك زيادة دقة الصور وخلط بيانات النص والصورة. تشتهر شركة أبل بسريتها، لكنها فعلت ذلك أظهر سابقًا انفتاحًا غير عادي حول أبحاث الذكاء الاصطناعي حيث سعت إلى جذب المواهب اللازمة للمنافسة في التكنولوجيا الحيوية.



Source link

Back To Top