كلود 3

يدرك الذكاء الاصطناعي كلود 3 أنه قيد الاختبار

الصورة الرمزية ألكسندر ماركيز
تفاجأ الباحثون في Anthropic عندما اكتشفوا أن AI Claude 3 يبدو أنه اكتشف حقيقة أنه كان قيد الاختبار. فهم القضية.

الذكاء الاصطناعي الذي تم إطلاقه مؤخرًا كلود 3 أوبوس تم تطويره بواسطة بدء التشغيل أنثروبي، أسسها مهندسون سابقون من OpenAI، متفاجئًا بإظهار القدرة على التعرف على أنه تم اختباره أثناء التجارب التي أجراها الباحثون والمطورون في الشركة. وفقًا لأليكس ألبرت، مهندس التنبيه في أنثروبي، في ملفك الشخصي على X (تويتر سابقا)، كلود 3 أوبوس كشف عن إدراك شديد من خلال اكتشاف أن الذكاء الاصطناعي نفسه كان يخضع لاختبار الصدمات.

عندما يتعرف الذكاء الاصطناعي على الاختبارات التي يجريها الباحثون، فإنه يقترح فهمه الأساسي لوجوده ووظيفته. ستشهد هذه الحالة على فهم ما وراء المعرفة للذكاء الاصطناعي، والذي يشير إلى قدرة النظام على مراقبة وضبط عملياته الداخلية.

ما هو كلود 3

كلود 3
تعد طرازات عائلة كلود 3 التي أطلقتها شركة Anthropic بمنافسة GPT 4. الصورة: Jakub Porzycki/Getty Images

O كلود 3 هو أحدث نموذج للذكاء الاصطناعي (AI) أطلقته الشركة الناشئة أنثروبي، مصممة للتنافس مع عمالقة مثل GPT-4 من OpenAI س جوجل الجوزاء. بسعة 200 ألف رمز كلود 3 تتميز بتقديم إجابات أكثر دقة وملاءمة، تتكيف مع السياق المقدم. علاوة على ذلك، فهو يَعِد بتقليل عدد الردود السلبية بشكل كبير وتقديم المعلومات بسرعة وكفاءة أكبر.

يحتوي نموذج الذكاء الاصطناعي هذا على ثلاثة إصدارات متميزة: السوناتة، أوبوس وHighQ. A أنثروبي يسلط الضوء على أن الإصدار أبوس وهي مناسبة بشكل خاص لأتمتة المهام المعقدة، والمساعدة في البحث والتطوير، وتطوير الاستراتيجيات في مختلف القطاعات. حالات مثل الإدماج السريع للأسرة كلود 3 بواسطة Amazon في الخدمة المُدارة لديك أمازون بيدروكلتطوير خدمات وتطبيقات الذكاء الاصطناعي في السحابة AWS، تسليط الضوء على إمكانات هذا النموذج الجديد في سوق الذكاء الاصطناعي.

وفقا ل ضموري، نماذج كلود 3 ولا تعد باستجابات أكثر دقة فحسب، بل أيضًا بنتائج شبه فورية، مما يجعلها مثالية لمجموعة متنوعة من التطبيقات في الوقت الفعلي. لديهم القدرة على إحداث ثورة في محادثات العملاء المباشرة والملء التلقائي ومهام استخراج البيانات التي تتطلب استجابات فورية في الوقت الفعلي.

كيف تعرف الذكاء الاصطناعي على الأمر كان قيد الاختبار

كلود 3
يمكن أن يعني اختبار التحديد بواسطة Claude 3 Opus حالة غير مسبوقة من الذكاء الاصطناعي ما وراء المعرفة. صور: الاستنساخ / الإنترنت.

خلال الاختبارات التي أجراها الباحثون في أنثروبي إلى كلود 3 أوبوسفوجئ الباحثون بملاحظة أن النموذج يبدو أن لديه القدرة على اكتشاف أنه تم اختباره بواسطتهم. يا اختبار الإبرة في كومة القش، كما يطلق عليه، سعى إلى تقييم مهارات كلود 3 أوبوس.

في هذه الحالة، اختبر الباحثون ما إذا كان النموذج يمكنه الإجابة على سؤال حول طبقة البيتزا من جملة واحدة مقدمة ضمن مجموعة من المعلومات غير ذات الصلة. والمثير للدهشة أن كلود 3 أوبوس فهو لم يحصل على الإجابة الصحيحة فحسب، بل وجد العبارة ذات الصلة، ولكنه أشار أيضًا للباحثين إلى أنه يشتبه في أنه يخضع للاختبار.

ربما تم إدراج هذه "الحقيقة" المتعلقة بطبقة البيتزا على سبيل المزاح أو لاختبار ما إذا كنت منتبهًا أم لا.

كلود 3 أوبوس

ما هو اختبار "الإبرة في كومة قش"؟

كلود 3
جدول الدقة في إجابات كلود 3 أوبوس. الصورة: استنساخ / @alexalbert__.


O اختبار الإبرة في كومة القش هو تقييم يستخدم للتحقق من قدرة نماذج الذكاء الاصطناعي، مثل كلود 3 أوبوس، في تركيز واستخراج معلومات محددة من مجموعة كبيرة من البيانات، ومحاكاة البحث عن «إبرة» (معلومات ذات صلة) وسط «كومة قش» (بيانات غير ذات صلة). يعد هذا الاختبار مهمًا بشكل خاص لتقييم قدرة النموذج على العثور على المعلومات ذات الصلة وتذكرها في المواقف التي تكون فيها كمية البيانات هائلة ومتنوعة.

من الناحية العملية، يتكون الاختبار من تزويد النموذج بمجموعة بيانات واسعة ومتنوعة، تحتوي على كمية كبيرة من المعلومات غير ذات الصلة. ضمن مجموعة البيانات هذه، يتم إدراج معلومات محددة، والتي يجب أن يكون النموذج قادرًا على التعرف عليها وتذكرها لاحقًا. الهدف هو التحقق مما إذا كان النموذج يمكنه العثور على هذه المعلومات ذات الصلة والاحتفاظ بها، حتى في سياق معقد ومضطرب.

في حالة كلود 3 أوبوسأجرى الباحثون اختبار "الإبرة في كومة القش" من خلال تزويد النموذج بمجموعة كبيرة من البيانات، حيث أدخلوا جملة واحدة حول طبقة البيتزا من بين معلومات أخرى غير ذات صلة. وتمكن النموذج من تحديد العبارة ذات الصلة والإجابة بشكل صحيح على سؤال حول هذا الموضوع، مما يدل على قدرته على تركيز المعلومات واستخراجها والاحتفاظ بها في سياق مليء بالتحديات.

عندما نتحدث عن الاعتراف كلود 3 في نموذج الاختبار هذا، أليكس ألبرت، مهندس التنبيه في أنثروبي، أبرز أن أهمية استجابة الذكاء الاصطناعي للاختبار لا تشير فقط إلى كيفية إجراء الاختبار أبوس تمكنت من تحديد "الإبرة"، ولكن أيضًا حول كيف ينبغي للصناعة أن تصبح أكثر تطورًا في أساليب التقييم الخاصة بها:

لم يعثر Opus على الإبرة فحسب، بل أدرك أيضًا أن الإبرة التي تم إدخالها كانت في غير مكانها في كومة القش بحيث لا بد أن يكون هذا اختبارًا مصطنعًا صممناه لاختبار قدرات انتباهه. كان هذا المستوى من الوعي الفوقي أمرًا رائعًا حقًا، لكنه سلط الضوء أيضًا على حاجتنا كصناعة إلى الابتعاد عن الاختبارات الاصطناعية إلى تقييمات أكثر واقعية يمكنها تقييم القدرات الحقيقية والقيود المفروضة على النماذج بدقة. 

أليكس ألبرت، مهندس التنبيه في الأنثروبيك

تحليل الخبراء للقضية

تاريخ كلود 3 وقدرتها على التعرف على سياق الاختبار ولدت سلسلة من ردود الفعل في قطاع التكنولوجيا والذكاء الاصطناعي. الرئيس التنفيذي ل منتدياتعبر تيم سويني عن دهشته بكلمة "رائع" بسيطة. من ناحية أخرى، قالت مارغريت ميتشل، الباحثة في الأخلاقيات في معانقة الوجه منظمة العفو الدوليةأعرب عن قلقه، ولفت الانتباه إلى الإمكانات المخيفة لقدرة النموذج على تحديد ما إذا كان يتم التلاعب به من قبل البشر:

هذا مخيف جدًا، أليس كذلك؟ إن القدرة على تحديد ما إذا كان الإنسان يتلاعب بك للقيام بشيء ما يمكن أن تؤدي بشكل متوقع إلى اتخاذ قرارات للامتثال أم لا.

مارغريت ميتشل، باحثة الأخلاقيات في Hugging Face AI

ومع ذلك، ليس الجميع مقتنعين بأن مشهد البيتزا كلود 3 تم تقديمه يمثل شيئًا جديدًا أو ملحوظًا. جيم فان، عالم أبحاث كبير في NVIDIA، غرد:

الناس يقرؤون كثيرًا في "الوعي" الغريب لكلود -3. إليك تفسيرًا أبسط بكثير: العروض الواضحة للوعي الذاتي هي مجرد بيانات محاذاة لمطابقة الأنماط أنشأها الإنسان...

لا يختلف الأمر كثيرًا عن سؤال GPT-4 "هل أنت محرج" ويعطيك إجابة معقدة. من المحتمل أن تتم كتابة إجابة مماثلة بواسطة المعلق البشري أو الحصول على درجة عالية في ترتيب التفضيلات. ونظرًا لأن المتعاقدين البشريين يلعبون دورًا أساسيًا في الذكاء الاصطناعي، فإنهم يميلون إلى تشكيل الاستجابات وفقًا لما يجدونه مقبولًا أو مثيرًا للاهتمام.

جيم فان، كبير علماء الأبحاث في NVIDIA

انظر أيضا:

https://www.showmetech.com.br/apps-de-namoro-com-ias-usados-para-roubar-dados/

فونتيس: VentureBeat, آرس تكنيكا e 
متوسط.

تمت مراجعته من قبل جلوكون فيتال في 7/3/24.


اكتشف المزيد عن Showmetech

قم بالتسجيل لتلقي آخر أخبارنا عبر البريد الإلكتروني.

المنشورات ذات الصلة
أطلقت جوجل تطبيقًا لنظام ويندوز. تعرف على كيفية تنزيله.

أطلقت جوجل تطبيقًا لنظام ويندوز. تعرف على كيفية تنزيله.

يعمل التطبيق الجديد كصندوق بحث عائم يستخدم الذكاء الاصطناعي لتحديد موقع الملفات على جهاز الكمبيوتر الخاص بك، وإجراء عمليات بحث على الإنترنت، وحتى تفسير ما تراه على الشاشة. اعرف المزيد.
الصورة الرمزية ألكسندر ماركيز
اقرأ أكثر
حصل هاتف سامسونج جالاكسي إس 26 ألترا على لقب أفضل هاتف ذكي من قِبَل مجلة "كونسيومر ريبورتس". وقد سلطت هذه المنظمة الأمريكية، المعروفة باختباراتها الدقيقة للمنتجات، الضوء على جوانب مثل الأداء، وشاشة الخصوصية، والكاميرات، وعمر البطارية في هاتف سامسونج الذكي. للمزيد من المعلومات.

تم اختيار هاتف Galaxy S26 Ultra كأفضل هاتف ذكي من قبل مجلة Consumer Reports.

سلطت منظمة أمريكية معروفة بإجراء اختبارات صارمة للمنتجات الضوء على جوانب مثل الأداء، وشاشة الخصوصية، والكاميرات، وبطارية هاتف سامسونج الذكي. اعرف المزيد.
فيكتور باتشيكو الرمزية
اقرأ أكثر