قم بتطوير ومقارنة خوارزميات التعلم المعزز باستخدام مجموعة الأدوات هذه.

إذا كنت لا تستطيع إنشاء نموذج تعلم آلي من البداية أو تفتقر إلى البنية التحتية ، فإن مجرد توصيل تطبيقك بنموذج يعمل يعمل على إصلاح الفجوة.

الذكاء الاصطناعي هنا للجميع لاستخدامه بطريقة أو بأخرى. بالنسبة إلى OpenAI Gym ، هناك العديد من ساحات التدريب القابلة للاستكشاف لإطعام وكلاء التعلم المعزز.

ما هو OpenAI Gym ، وكيف يعمل ، وما الذي يمكنك بناءه باستخدامه؟

ما هو OpenAI Gym؟

OpenAI Gym هي واجهة برمجة تطبيقات Pythonic توفر بيئات تدريب محاكاة لعوامل التعلم المعززة للعمل بناءً على الملاحظات البيئية ؛ يأتي كل إجراء بمكافأة إيجابية أو سلبية ، والتي تتراكم في كل خطوة زمنية. بينما يهدف الوكيل إلى تعظيم المكافآت ، يتم معاقبة كل قرار غير متوقع.

الخطوة الزمنية هي علامة زمنية منفصلة للبيئة للانتقال إلى حالة أخرى. تضيف ما يصل إلى أن إجراءات الوكيل تغير حالة البيئة.

كيف يعمل OpenAI Gym؟

تعتمد بيئات OpenAI Gym على عملية قرار ماركوف (MDP) ، وهي نموذج ديناميكي لصنع القرار يستخدم في التعلم المعزز. وبالتالي ، يترتب على ذلك أن المكافآت لا تأتي إلا عندما تتغير البيئة. والأحداث في الحالة التالية تعتمد فقط على الحالة الحالية ، لأن MDP لا يأخذ في الحسبان الأحداث الماضية.

instagram viewer

قبل الانتقال ، دعنا نتعمق في مثال لفهم سريع لتطبيق OpenAI Gym في التعلم المعزز.

بافتراض أنك تنوي تدريب سيارة في لعبة سباق ، يمكنك تدوير مضمار سباق في OpenAI Gym. في التعلم المعزز ، إذا استدارت السيارة لليمين بدلاً من اليسار ، فقد تحصل على مكافأة سلبية قدرها -1. يتغير مضمار السباق في كل خطوة زمنية وقد يصبح أكثر تعقيدًا في الحالات اللاحقة.

المكافآت أو العقوبات السلبية ليست سيئة بالنسبة للعامل في التعلم المعزز. في بعض الحالات ، يشجعها على تحقيق هدفها بسرعة أكبر. وبالتالي ، تتعرف السيارة على المسار بمرور الوقت وتتقن التنقل باستخدام خطوط المكافآت.

على سبيل المثال ، بدأنا ملف فروزن ليك- v1.0 البيئة ، حيث يتم معاقبة الوكيل لوقوعه في ثقوب جليدية ولكنه يكافأ لاستعادة صندوق هدايا.

نتج عن جولتنا الأولى عقوبات أقل بدون مكافآت:

ومع ذلك ، أنتج التكرار الثالث بيئة أكثر تعقيدًا. لكن الوكيل حصل على بعض المكافآت:

النتيجة أعلاه لا تعني أن العامل سوف يتحسن في التكرار التالي. في حين أنه قد ينجح في تجنب المزيد من الثقوب في المرة القادمة ، فقد لا يحصل على مكافأة. لكن تعديل بعض المعلمات قد يحسن من سرعة التعلم.

مكونات OpenAI Gym

تدور واجهة OpenAI Gym API حول المكونات التالية:

  • ال البيئات حيث تقوم بتدريب وكيل. يمكنك بدء واحد باستخدام الجمنازيوم طريقة. كما يدعم OpenAI Gym البيئات متعددة الوكلاء.
  • ال أغلفة لتعديل البيئة الحالية. على الرغم من أن كل بيئة أساسية يتم تغليفها مسبقًا بشكل افتراضي ، إلا أنه يمكنك إعادة قياسها باستخدام معلمات مثل max_actions و min_actions و max Rewards.
  • ان فعل; يحدد ما يفعله الوكيل لأنه يلاحظ التغيرات في بيئته. كل إجراء في بيئة ما هو خطوة تحدد استجابة الوكيل للملاحظات. يُرجع إكمال الخطوة ملاحظة ، ومكافأة ، ومعلومات ، وقيمة مقطوعة أو منتهية.
  • ال ملاحظة; يحدد تجربة الوكيل في البيئة. بمجرد وجود ملاحظة ، يتبع إجراء بمعلوماته. معلمة المعلومات هي سجل تنفيذ مفيد لتصحيح الأخطاء. بمجرد انتهاء الخطوة ، تعيد البيئة تعيين n من المرات ، اعتمادًا على عدد التكرارات المحددة.

ما الذي يمكنك صنعه مع OpenAI Gym؟

نظرًا لأن OpenAI Gym يسمح لك بتدوير بيئات تعليمية مخصصة ، فإليك بعض الطرق لاستخدامها في سيناريو الحياة الواقعية.

1. لعبة المحاكاة

يمكنك الاستفادة من بيئات ألعاب OpenAI Gym لمكافأة السلوكيات المرغوبة ، وإنشاء مكافآت للألعاب ، وزيادة التعقيد لكل مستوى لعبة.

2. التعرف على الصور

عندما يكون هناك قدر محدود من البيانات والموارد والوقت ، يمكن أن يكون OpenAI Gym مفيدًا لتطوير نظام التعرف على الصور. على مستوى أعمق ، يمكنك توسيع نطاقه لبناء نظام التعرف على الوجوه ، والذي يكافئ الوكيل على تحديد الوجوه بشكل صحيح.

3. تدريب الروبوت

تقدم OpenAI Gym أيضًا نماذج بيئة بديهية لمحاكاة ثلاثية الأبعاد وثنائية الأبعاد ، حيث يمكنك تنفيذ السلوكيات المرغوبة في الروبوتات. Roboschool هو مثال على برامج محاكاة الروبوت التي تم تطويرها باستخدام OpenAI Gym.

4. تسويق

يمكنك أيضًا إنشاء حلول تسويقية مثل خوادم الإعلانات وبرامج تداول الأسهم وروبوتات التنبؤ بالمبيعات وأنظمة التوصية بالمنتجات وغيرها الكثير باستخدام OpenAI Gym. على سبيل المثال ، يمكنك إنشاء نموذج OpenAI Gym مخصص يعاقب الإعلانات بناءً على معدل الظهور والنقر.

5. معالجة اللغة الطبيعية

بعض الطرق لتطبيق OpenAI Gym في معالجة اللغة الطبيعية هي أسئلة متعددة الخيارات تنطوي على إكمال الجملة أو بناء مصنف للبريد العشوائي. على سبيل المثال ، يمكنك تدريب وكيل لتعلم تنويعات الجملة لتجنب التحيز أثناء تمييز المشاركين.

كيف تبدأ مع OpenAI Gym

يدعم OpenAI Gym Python 3.7 والإصدارات الأحدث. لإعداد بيئة OpenAI Gym ، ستقوم بتثبيت صالة للألعاب الرياضية، نسخة الصالة الرياضية المدعومة بشكل مستمر:

نقطة تثبيت صالة للألعاب الرياضية

بعد ذلك ، قم بتدوير بيئة. ومع ذلك ، يمكنك إنشاء بيئة مخصصة. لكن ابدأ باللعب مع واحدة موجودة لإتقان مفهوم OpenAI Gym.

الكود أدناه يدور فروزن ليك- v1.0. ال env.reset طريقة تسجيل الملاحظة الأولية:

يستورد صالة للألعاب الرياضية مثل نادي رياضي
env = gym.make ("بحيرة مجمدة- v1"، render_mode ="بشر")

الملاحظة ، info = env.reset ()

تتطلب بعض البيئات مكتبات إضافية للعمل. إذا كنت بحاجة إلى تثبيت مكتبة أخرى ، فإن Python توصي بها عبر رسالة الاستثناء.

على سبيل المثال ، ستقوم بتثبيت مكتبة إضافية (صالة للألعاب الرياضية [نص لعبة]) لتشغيل فروزن ليك- v1.0 بيئة.

قم بالبناء على قوة OpenAI Gym

تتمثل إحدى العوائق التي تواجه تطوير الذكاء الاصطناعي والتعلم الآلي في نقص البنية التحتية ومجموعات بيانات التدريب. ولكن بينما تتطلع إلى دمج نماذج التعلم الآلي في تطبيقاتك أو أجهزتك ، أصبح الأمر أسهل الآن مع نماذج الذكاء الاصطناعي الجاهزة التي تطير عبر الإنترنت. في حين أن بعض هذه الأدوات منخفضة التكلفة ، فإن البعض الآخر ، بما في ذلك OpenAI Gym ، مجاني ومفتوح المصدر.