التكنولوجيا والكون والابتكار مع إيلون ماسك في صورة مستقبلية للفضاء.

Grok-1.5 Vision Preview: الإصدار الجديد من الذكاء الاصطناعي سوف يقوم بتحليل الصور وجداول البيانات والمستندات

الصورة الرمزية ألكسندر ماركيز
مع التحديث الجديد، يستطيع الذكاء الاصطناعي الخاص بـ Elon Musk الآن معالجة مجموعة واسعة من المعلومات المرئية، بما في ذلك المستندات والرسوم البيانية والرسوم البيانية ولقطات الشاشة والصور الفوتوغرافية

تم إنشاؤها للتنافس مع شات جي بي تي بواسطة X. منظمة العفو الدوليةشركة إيلون ماسك، جروك هو برنامج chatbot يتميز دائمًا بروح الدعابة الساخرة وغير الصحيحة سياسيًا. متاح للمشتركين في خطة Premium+ X (تويتر سابقا) جروك ويتم تحديثه أيضًا في الوقت الفعلي بناءً على البيانات الواردة من النظام الأساسي، مما يوفر سياقًا حول الموضوعات الشائعة والمشاركات الشائعة، بالإضافة إلى تقديم ميزات إضافية، مثل إنشاء الصور والتنقل عبر Bing وتحليل البيانات المتقدمة.

الآن، X. منظمة العفو الدوليةأعلنت شركة الذكاء الاصطناعي التابعة لشركة إيلون ماسك، عن معاينة رؤية Grok-1.5، نسخة جديدة من الذكاء الاصطناعي الخاص بإيلون ماسك مما سيوسع قدراته على تحليل الصور وجداول البيانات والمستندات، مما يسمح بذلك ليس فقط معالجة النصوص، ولكن أيضًا تفسير واستخراج المعلومات من الصور.

أخبار الإصدار

من خلال الجمع بين قدرات معالجة النصوص والقدرة على تحليل مجموعة واسعة من المعلومات المرئية مثل المستندات والرسوم البيانية والرسوم البيانية ولقطات الشاشة والصور الفوتوغرافية، جروك-1.5 فولت وعود لإقناع. سيكون هذا الإصدار الجديد متاحًا قريبًا للمختبرين الأوائل والمستخدمين الحاليين لـ جروكومع ذلك، في الاختبارات السابقة، و جروك-1.5 فولت لقد أثبتت بالفعل قدرتها التنافسية العالية مع النماذج متعددة الوسائط في العديد من المجالات.

ومع ذلك، فإن الأمر الأكثر إثارة للإعجاب هو قدرات جروك-1.5 فولت في فهم العالم المادي، بما في ذلك تفسير الصور من لقطات الشاشة والصور الفوتوغرافية. تفتح هذه القدرة إمكانيات جديدة فيما يتعلق بالتفاعل بين البشر والآلات، فضلاً عن التطبيقات في مجالات مثل رؤية الكمبيوتر والمساعدة الافتراضية.

A X. منظمة العفو الدولية أظهر القدرات الرائعة للإصدار الجديد من جروك في تفسير الصور، كما يتضح من قدرته على كتابة التعليمات البرمجية من رسم تخطيطي محدد. كما نرى أدناه، يصف الرسم البياني لعبة تخمين تعتمد على مخطط انسيابي منطقي وتفاعلات المستخدم. عندما سئل عما إذا كان يمكنه ترجمة الرسم التخطيطي إلى كود Pythonأو جروك-1.5 فولت استجاب بدقة، وقدم رمزًا يمثل منطق اللعبة الموضح في المخطط الانسيابي.

لعبة تخمين باستخدام كود بايثون على السبورة البيضاء لتعليم البرمجة ومنطق التدفق.
الصورة: لقطة الشاشة / Showmetech.

في المثال التالي، جروك-1.5 فولت أثبت قدرته على حساب السعرات الحرارية من المعلومات الغذائية المقدمة في الصورة. وأظهرت الصورة صورة مقربة لملصق التغذية الموجود على عبوة الطعام، مع إدراج تفاصيل غذائية مختلفة، مثل حجم الحصة وعدد السعرات الحرارية لكل حصة. عندما سئل عن عدد السعرات الحرارية الموجودة في 5 شرائح من المنتج، أجاب: جروك أجاب بدقة، موضحًا أنه إذا كانت الحصة مكونة من 3 شرائح وتحتوي على 60 سعرًا حراريًا، فإن 5 شرائح ستكون حوالي 100 سعر حراري.

السعرات الحرارية في حصة من 3 شرائح من حبوب الإفطار تحتوي على 60 سعرة حرارية، مع شرح لحساب الكمية اليومية المتناولة.
الصورة: لقطة الشاشة / Showmetech.

وفيما يتعلق بمظاهرة أخرى (الصورة أدناه)، فإن جروك استخدم قدرته في إنشاء قصة ما قبل النوم من رسم رسمه طفل. أظهر الرسم صبيًا بجوار قارب. وعندما سئل عما إذا كان يستطيع أن يروي قصة بناءً على الرسم، قال جروك استجابت بقصة جذابة عن صبي شجاع يدعى تيمي. هذه القدرة جروك-1.5 فولت إن تحويل رسم بسيط إلى قصة آسرة يدل على قدرته على تفسير وإنشاء الروايات.

رسم طفل لصبي مع قارب شراعي على ورقة.
الصورة: لقطة الشاشة / Showmetech.

تتكرر القدرة على تفسير وإنشاء الروايات في المثال التالي، مع جروك شرح ميم يسخر من الاختلافات بين الشركات الناشئة والشركات الكبيرة. في الصورة لوحتان: على اليسار، بعنوان "الشركات الناشئة"، مجموعة من عمال البناء يقومون بحفر حفرة؛ على اليمين، بعنوان "الأعمال التجارية الكبرى"، تشاهد مجموعة من الأشخاص رجلاً واحدًا وهو يحفر. شرح جروك يسلط الضوء على التناقض بين التعاون المكثف وكفاءة الشركات الناشئة، مقارنة بالبيروقراطية المحتملة والافتقار إلى المرونة لدى الشركات الكبيرة.

شركة ناشئة وشركة كبيرة تحفران حفرة، وفكاهة حول الاختلافات في العمل.
الصورة: لقطة الشاشة / Showmetech.


وفي الصورة التالية جروك-1.5 فولت تمكنوا من تحويل الجدول إلى تنسيق CSV باستخدام مهاراتهم في معالجة اللغة الطبيعية وتفسير المعلومات المرئية. عند تحليل الجدول الذي يوضح الفائزين بالميداليات الأولمبية المغربية في الألعاب البارالمبية الصيفية 2016، فإن جروك وحددت الأعمدة ذات الصلة، مثل "الميدالية" و"الاسم" و"الرياضة" و"الحدث" و"التاريخ". ثم قام بتنظيم هذه المعلومات في أسطر مفصولة بفواصل، وفقًا لمعايير تنسيق CSV. هذه القدرة جروك يوضح قدرتك على استخراج البيانات وإعادة تنظيمها بطريقة دقيقة، وهو أمر مفيد لتحويل المعلومات الجدولية إلى تنسيقات يسهل التعامل معها.

جروك-1. 5 معاينة الرؤية
الصورة: لقطة الشاشة / Showmetech.

A X. منظمة العفو الدولية تخطط بالفعل لإجراء تحسينات كبيرة على قدراتها المتعددة الوسائط في الأشهر المقبلة. من خلال التركيز على طرائق مختلفة، مثل الصور والصوت والفيديو، فإن الهدف هو مواصلة التقدم نحو الذكاء العام الاصطناعي المفيد (AGI)، القادر على فهم الكون والتفاعل معه بطريقة متطورة بشكل متزايد.

فهم العالم الحقيقي

O جروك-1.5 فولت وتستعد أيضًا لاكتساب "فهم مكاني للعالم الحقيقي"، مما يسمح بتفسير أفضل للعالم المادي المتمثل في الصور التي تم تحميلها من قبل مستخدميها. يعد هذا التحسين أمرًا بالغ الأهمية لتطوير مساعدين أكثر فائدة للذكاء الاصطناعي في العالم الحقيقي. ولتحقيق هذا الهدف، تم تقديم معيار جديد، وهو RealWorldQA، المصممة خصيصًا لتقييم قدرات الفهم المكاني للنماذج متعددة الوسائط مثل جروك-1.5 فولت.

في حين أن العديد من الأمثلة في المعيار قد تبدو بسيطة للبشر، إلا أنها تشكل تحديًا كبيرًا لنماذج الذكاء الاصطناعي الحالية، مما يسلط الضوء على الحاجة إلى التقدم في هذا المجال لتحسين قدرة الذكاء الاصطناعي على فهم العالم المادي والتفاعل معه بطريقة أكثر شمولاً. . فعال.

جروك-1. 5 معاينة الرؤية
في الاختبارات، أثبت برنامج Grok-1.5 Vision Preview فعاليته في تفسير صور مثل هذه. الصورة: جروك / X.AI.

في الصورة أعلاه، على سبيل المثال، تمكن الذكاء الاصطناعي من التحليل والإجابة على سؤال "أيهما أكبر: قطاعة البيتزا أم المقص؟". تتطلب هذه القدرة على مقارنة الأحجام فهمًا مكانيًا للعالم المادي. وتمكن الذكاء الاصطناعي من التعرف على الأشياء الموجودة في الصورة، والتعرف على أشكالها وأحجامها النسبية. وبناءً على تحليله، حدد الذكاء الاصطناعي أن قطاعة البيتزا أكبر من المقص. توضح هذه القدرة كيف يمكن تدريب الذكاء الاصطناعي على فهم الأسئلة المتعلقة بالأشياء المادية في الصور والإجابة عليها، وهو أمر بالغ الأهمية لتطويره كمساعد مفيد في العالم الحقيقي.

لعبة ديناصور قطيفة مضيئة مزودة بجهاز تحكم عن بعد وتقنية LED.
يقدم Grok-1.5 Vision Preview إجابات لأسئلة التصوير. الصورة: جروك / X.AI.

في هذا المثال الآخر (الصورة أعلاه)، فإن جروك-1.5 فولت تحديد الاتجاه الأساسي الذي يواجهه الديناصور. لا توفر الصورة مراجع مرئية واضحة، مثل البوصلة أو المعالم في البيئة المحيطة بالديناصور، ولكن جروك أجاب على السؤال بشكل صحيح، مما يدل على أن الديناصور يتجه نحو الشرق.

المقارنة مع أنظمة الذكاء الاصطناعي الأخرى

جدول قياس أداء ملون لنماذج الذكاء الاصطناعي يوضح نسب الدقة لـ gpt-4 و claude 3 وغيرها.
أظهر Grok-1.5V أداءً مكافئًا أو متفوقًا مقارنة بأجهزة الذكاء الاصطناعي الأخرى. الصورة: لقطة الشاشة / Showmetech.

O معاينة رؤية Grok-1.5 أظهر أداءً استثنائيًا مقارنة بأنواع الذكاء الاصطناعي الأخرى في معيار جديد يسمى RealWorldQA، الذي يقيم الفهم المكاني للعالم الحقيقي. تم تنفيذ هذا المعيار بتكوين صفري، دون الحاجة إلى سلسلة محددة من طلبات التفكير.

عند تحليل مجموعات مختلفة من البيانات جروك-1.5 فولت تفوقت على أقرانها في العديد من المجالات الرئيسية. في المعيار متعدد التخصصات (MMMU)، والتي تنطوي على مجموعة متنوعة من التخصصات، و جروك-1.5 فولت حصلت على درجة 53.6%، متفوقة بشكل طفيف على أنظمة الذكاء الاصطناعي الأخرى مثل جي بي تي-4V س كلود 3 السوناتة.

لا ماثفيستا، والذي يركز على الأسئلة الرياضية، و جروك-1.5 فولت حققت درجة 52.8%، متفوقة مرة أخرى على منافسيها. في AI2D، الذي يقيم فهم الرسوم البيانية، و جروك-1.5 فولت حققت درجة مبهرة بلغت 88.3%، متفوقة بشكل ملحوظ على غيرها من أنظمة الذكاء الاصطناعي المشابهة GPT-4V وGemini Pro 1.5.

Em DocVQA، والذي يتضمن فهم الوثائق، جروك-1.5 فولت حيث حصل على نسبة 85.6% متخلفاً عن الركب GPT-4V، كلود 3 السوناتة e كلود 3 أوبوس. في معيار RealWorldQA، الذي يقيم فهم العالم الحقيقي، فإن جروك-1.5 فولت حصلت على درجة 68.7%، مما يدل مرة أخرى على تفوقها مقارنة بأنظمة الذكاء الاصطناعي الأخرى التي تم تقييمها.

وتسلط هذه النتائج الضوء على قدرة معاينة رؤية Grok-1.5 لفهم مجموعة متنوعة من المهام المعقدة وذات الصلة بالسياق، مما يجعله خيارًا واعدًا لمجموعة واسعة من تطبيقات الذكاء الاصطناعي في العالم الحقيقي. ومع ذلك، فمن المهم تسليط الضوء على أنه على الرغم من جروك-1.5 فولت أظهرت أداءً مثيرًا للإعجاب مقارنة بأنواع الذكاء الاصطناعي الأخرى في معيار RealWorldQA، إلا أن نتائج هذه المعايير ليست بالضرورة موثوقة بنسبة 100%.

وهي تشير إلى الأداء النسبي لمختلف أنظمة الذكاء الاصطناعي في مجموعات البيانات والسيناريوهات المختلفة، ولكن لا ينبغي اعتبارها مقياسًا نهائيًا لقدرة الذكاء الاصطناعي الشاملة. ويعتمد التفسير الدقيق للنتائج على عدد من العوامل، بما في ذلك طبيعة مجموعات البيانات، ومنهجية التقييم، ومدى تعقيد المهام المطروحة.

مشاهدة الفيديو

انظر أيضا:

فونتيس: جروك, هندسة مثيرة للاهتمام e Mashable

تمت مراجعته من قبل جلوكون فيتال في 15/4/24.


اكتشف المزيد عن Showmetech

قم بالتسجيل لتلقي آخر أخبارنا عبر البريد الإلكتروني.

المنشورات ذات الصلة
أطلقت جوجل تطبيقًا لنظام ويندوز. تعرف على كيفية تنزيله.

أطلقت جوجل تطبيقًا لنظام ويندوز. تعرف على كيفية تنزيله.

يعمل التطبيق الجديد كصندوق بحث عائم يستخدم الذكاء الاصطناعي لتحديد موقع الملفات على جهاز الكمبيوتر الخاص بك، وإجراء عمليات بحث على الإنترنت، وحتى تفسير ما تراه على الشاشة. اعرف المزيد.
الصورة الرمزية ألكسندر ماركيز
اقرأ أكثر
حصل هاتف سامسونج جالاكسي إس 26 ألترا على لقب أفضل هاتف ذكي من قِبَل مجلة "كونسيومر ريبورتس". وقد سلطت هذه المنظمة الأمريكية، المعروفة باختباراتها الدقيقة للمنتجات، الضوء على جوانب مثل الأداء، وشاشة الخصوصية، والكاميرات، وعمر البطارية في هاتف سامسونج الذكي. للمزيد من المعلومات.

تم اختيار هاتف Galaxy S26 Ultra كأفضل هاتف ذكي من قبل مجلة Consumer Reports.

سلطت منظمة أمريكية معروفة بإجراء اختبارات صارمة للمنتجات الضوء على جوانب مثل الأداء، وشاشة الخصوصية، والكاميرات، وبطارية هاتف سامسونج الذكي. اعرف المزيد.
فيكتور باتشيكو الرمزية
اقرأ أكثر