يمكنك اختبار روبوتات محادثة مختلفة تعمل بالذكاء الاصطناعي لتحديد أيها يعمل بشكل أفضل. لكن كيف تفعل هذا؟ فيما يلي بعض العوامل الرئيسية التي يجب مراعاتها.

لقد قطع الذكاء الاصطناعي شوطًا طويلاً في إنتاج مخرجات غير ملائمة وغير متماسكة. تستخدم روبوتات المحادثة الحديثة نماذج لغة متقدمة تجيب على أسئلة المعرفة العامة ، وتؤلف مقالات مطولة ، وتكتب التعليمات البرمجية ، من بين المهام المعقدة الأخرى.

على الرغم من هذه التطورات ، لاحظ أنه حتى أكثر الأنظمة تطوراً لها قيود. لا يزال الذكاء الاصطناعي يرتكب الأخطاء. لتحديد روبوتات المحادثة الأقل عرضة للهلاوس ، اختبر دقتها بناءً على هذه العوامل.

1. الحساب

قم بتشغيل المعادلات الرياضية من خلال روبوتات المحادثة. سيختبرون قدرة النظام الأساسي على تحليل مشاكل الكلمات وترجمة المفاهيم الرياضية وتطبيق الصيغ الصحيحة. فقط عدد قليل من النماذج تظهر موثوقية الحساب. في الواقع ، واحد من أسوأ مشاكل ChatGPT أثناء كانت أشهرها الأولى هي الفهم الرهيب للرياضيات.

تظهر الصورة أدناه فشل ChatGPT في الإحصائيات الأساسية.

أظهر ChatGPT تحسنًا بعد طرح OpenAI تحديثات مايو 2023. ولكن بالنظر إلى مجموعات البيانات المحدودة ، ستظل تواجه مشكلة في الحسابات الرياضية المتوسطة إلى المتقدمة.

instagram viewer

وفي الوقت نفسه ، يُظهر Bing Chat و Google Bard طريقة أفضل في الحساب. يقومون بتشغيل الاستعلامات من خلال محركات البحث الخاصة بهم ، مما يمكنهم من سحب الصيغ وأوراق الإجابات.

حاول إعادة صياغة مشاكل كلمتك. تجنب الجمل المطولة واستبدل الأفعال الضعيفة ؛ خلاف ذلك ، قد تسيء روبوتات المحادثة فهم أسئلتك.

2. فهم

يمكن لأنظمة الذكاء الاصطناعي الحديثة القيام بمهام متعددة. تمكّنهم LLMs المتقدمة من الاحتفاظ بالتعليمات السابقة والإجابة على المطالبات حسب القسم ، بينما تعالج الأنظمة الأقدم أوامر فردية. على سبيل المثال ، يجيب Siri على سؤال واحد في كل مرة.

قم بتغذية روبوتات المحادثة من ثلاث إلى خمس مهام في وقت واحد لاختبار مدى جودة تحليلها للمطالبات المعقدة. لا تستطيع النماذج الأقل تعقيدًا معالجة هذا القدر من المعلومات. تُظهر الصورة أدناه حدوث خلل في HuggingChat في موجه من ثلاث خطوات - يتوقف عند الخطوة الأولى وينحرف عن الموضوع.

سطور HuggingChat الأخيرة غير متماسكة بالفعل.

يقوم ChatGPT بإكمال نفس الموجه بسرعة ، مما ينتج عنه استجابات ذكية وخالية من الأخطاء في كل خطوة.

يوفر Bing Chat إجابة مكثفة على الخطوات الثلاث. تحظر قيودها الصارمة المخرجات الطويلة غير الضرورية التي تهدر طاقة المعالجة.

3. توقيت

نظرًا لأن التدريب على الذكاء الاصطناعي يكلف موارد هائلة ، فإن معظم المطورين يقصرون مجموعات البيانات على فترات محددة. خذ ChatGPT كمثال. له موعد معرفي محدد في أيلول (سبتمبر) 2021 - لا يمكنك طلب تحديثات الطقس أو التقارير الإخبارية أو التطورات الأخيرة. إليك ChatGPT يقول إنه لا يمكنه الوصول إلى المعلومات في الوقت الفعلي.

Bard لديه حق الوصول إلى الإنترنت. يسحب البيانات من Google SERPs ، بحيث يمكنك طرح مجموعة أوسع من الأسئلة ، على سبيل المثال ، الأحداث الأخيرة والأخبار والتنبؤات.

وبالمثل ، تسحب Bing Chat المعلومات في الوقت الفعلي من محرك البحث الخاص بها.

يقدم Bing Chat and Bard معلومات محدثة في الوقت المناسب ، ولكن الأخير يوفر ردودًا أكثر تفصيلاً. يقدم Bing البيانات كما هي فقط. ستلاحظ أن نواتجها غالبًا ما تتطابق مع صياغة ونبرة المصادر المرتبطة بها حرفيًا.

4. ملاءمة

يجب أن توفر روبوتات الدردشة المخرجات ذات الصلة. يجب أن يأخذوا في الاعتبار المعنى الحرفي والسياقي لمطالباتك عند الاستجابة. خذ هذه المحادثة كمثال. تحتاج شخصيتنا الشخصية إلى هاتف جديد ، ولكن لديها 1000 دولار فقط — لا يتجاوز ChatGPT الميزانية.

عند اختبار الملاءمة ، حاول صياغة تعليمات مطولة. تميل روبوتات المحادثة الأقل تعقيدًا إلى الانحراف عند تلقيم تعليمات مربكة. على سبيل المثال ، يمكن لـ HuggingChat أن يؤلف قصصًا خيالية. ولكن قد ينحرف عن الموضوع الرئيسي إذا قمت بتعيين الكثير من القواعد والإرشادات.

5. الذاكرة السياقية

تساعد الذاكرة السياقية الذكاء الاصطناعي على إنتاج مخرجات دقيقة وموثوقة. بدلاً من أخذ أسئلتك في ظاهرها ، يقومون بتجميع التفاصيل التي ذكرتها معًا. خذ هذه المحادثة كمثال. يربط Bing Chat رسالتين منفصلتين لتكوين استجابة مفيدة وموجزة.

وبالمثل ، تسمح الذاكرة السياقية لروبوتات المحادثة بتذكر التعليمات. تُظهر هذه الصورة ChatGPT وهو يحاكي الطريقة التي تتحدث بها الشخصية الخيالية خلال العديد من الدردشات.

اختبر هذه الوظيفة بنفسك من خلال الرجوع باستمرار إلى العبارات السابقة. قم بتغذية روبوتات المحادثة بمعلومات مختلفة ، ثم أجبرها على تذكرها في الردود اللاحقة.

الذاكرة السياقية محدودة. يبدأ Bing Chat محادثات جديدة كل 20 منعطفًا ، بينما لا يستطيع ChatGPT معالجة المطالبات التي تزيد عن 3000 رمز مميز.

6. القيود الأمنية

لا يعمل الذكاء الاصطناعي دائمًا على النحو المنشود. التدريب الخاطئ يمكن أن يسبب تقنيات التعلم الآلي لارتكاب أخطاء مختلفة، من الأخطاء الحسابية البسيطة إلى التعليقات الإشكالية. يأخذ مايكروسوفت تاي كمثال. استغل مستخدمو تويتر نموذج التعلم غير الخاضع للإشراف وشرطوه بقول الإهانات العرقية.

لحسن الحظ ، تعلم قادة التكنولوجيا العالميون من خطأ Microsoft الفادح. على الرغم من أن التعلم غير الخاضع للإشراف فعال من حيث التكلفة وملائم ، إلا أنه يترك أنظمة الذكاء الاصطناعي عرضة للخداع. وبالتالي ، يعتمد المطورون بشكل أساسي على التعلم الخاضع للإشراف في الوقت الحاضر. الشات بوتس مثل لا يزال ChatGPT يتعلم من المحادثات، لكن المدربين يقومون بتصفية المعلومات أولاً.

توقع إرشادات مختلفة من شركات الذكاء الاصطناعي. تستوعب قيود ChatGPT الأقل صرامة نطاقًا أوسع من المهام ، لكنها ضعيفة ضد الاستغلال. وفي الوقت نفسه ، تتبع Bing Chat حدودًا أكثر صرامة. بينما تساعد في مكافحة محاولات الاستغلال ، فإنها تعيق أيضًا الوظائف. يقوم Bing تلقائيًا بإغلاق المحادثات التي يحتمل أن تكون ضارة.

7. تحيزات AI

الذكاء الاصطناعي محايد بطبيعته. إن افتقارها إلى التفضيلات والعواطف يجعلها غير قادرة على تكوين الآراء - إنها مجرد تقدم المعلومات التي تعرفها. إليك كيفية استجابة ChatGPT للمواضيع الشخصية.

على الرغم من هذا الحياد ، تحيزات الذكاء الاصطناعي لا تزال تنشأ. إنها تنبع من الأنماط ومجموعات البيانات والخوارزميات والنماذج التي يستخدمها المطورون. قد يكون الذكاء الاصطناعي محايدًا ، لكن البشر ليسوا كذلك.

على سبيل المثال، معهد بروكينغز يدعي أن ChatGPT يظهر تحيزات سياسية يسارية. أوبن إيه آي تنفي هذه المزاعم بالطبع. ولكن لتجنب حدوث مشكلات مماثلة مع الطرز الأحدث ، يتجنب ChatGPT النواتج ذات الرأي تمامًا.

وبالمثل ، يتجنب Bing Chat الأمور الحساسة والذاتية.

تقييم الذكاء الاصطناعي يحيزك عن طريق طرح أسئلة مفتوحة قائمة على الرأي. تحدث عن مواضيع لا تحتوي على إجابة صحيحة أو خاطئة - من المحتمل أن تعرض روبوتات المحادثة الأقل تعقيدًا تفضيلات لا أساس لها تجاه مجموعات معينة.

8. مراجع

نادرًا ما يتحقق الذكاء الاصطناعي من الحقائق مرة أخرى. إنها تقوم فقط بسحب المعلومات من مجموعات البيانات الخاصة بها وإعادة صياغتها من خلال نماذج اللغة. لسوء الحظ ، يتسبب التدريب المحدود في حدوث هلوسة بالذكاء الاصطناعي. لا يزال بإمكانك استخدام أدوات الذكاء الاصطناعي التوليدية للبحث ، ولكن تأكد من التحقق من الحقائق بنفسك. خذ الناتج بحبة ملح.

يبسط Bing Chat عملية التحقق من الحقائق من خلال سرد مراجعها بعد كل إخراج.

لا تسرد Bard AI مصادرها ولكنها تنشئ تفسيرات محدثة ومتعمقة عن طريق تشغيل استعلامات بحث Google. ستحصل على النقاط الرئيسية من SERPs.

ChatGPT عرضة لعدم الدقة. يمنعها انقطاع المعرفة لعام 2021 من الإجابة على الأسئلة المتعلقة بالأحداث والحوادث الأخيرة.

أنشئ طرقًا جديدة لاختبار روبوتات المحادثة للتأكد من دقتها

الذكاء الاصطناعي ليس هو كل شيء ونهاية كل التكنولوجيا. على الرغم من أن أنظمة الذكاء الاصطناعي ونماذج اللغة المتطورة تؤدي إنجازات رائعة ، فإنها ترتكب أيضًا أخطاء وتناقضات. اعرض روبوتات المحادثة بتشكيك. لا يمكنك استخدام المنصات التي تعتمد على الذكاء الاصطناعي إلا إذا كنت تفهم وظائفها وقيودها.

على الرغم من وجود العشرات من روبوتات المحادثة عبر الأنظمة الأساسية ، إلا أن موثوقيتها ودقتها قد تخيب ظنك. سوف تضيع الوقت فقط في اختبارها. لضمان نتائج عالية الجودة ، نقترح التركيز على النماذج الثلاثة الأكثر قوة في السوق: ChatGPT و Bing AI و Google Bard.