يمكن للذكاء الاصطناعي أن يخدعنا في الخلط بين الفن المُنشأ للصور الحقيقية. فلماذا تشكل الأيدي تحديًا كبيرًا؟
تتطور مولدات الذكاء الاصطناعي أمام أعيننا بوتيرة مخيفة ، لكن لا تزال بها عيوب. إن اكتشاف تفاصيل غريبة في صور الذكاء الاصطناعي أمر مضحك للغاية. لهذا السبب أصبحت أيدي Midjourney موضوعًا ساخنًا ، وهي مشكلة شائعة في العديد من المحركات.
دعونا نوضح لماذا تتحدى الأيدي كثيرًا مولدات الصور التي تعمل بالذكاء الاصطناعي. يعمل مبرمجوهم بالفعل على إصلاح هذه المشكلة التي تستحق الذكر ، ولكن من المثير للاهتمام التفكير في كيفية تعلم الذكاء الاصطناعي ، ناهيك عن ما يعترض طريقه.
لماذا أحدثت الأيدي المولدة بالذكاء الاصطناعي ضجة
قد يكون أي شخص يستخدم محركات الذكاء الاصطناعي لإنشاء الصور قد لاحظ أن الأيدي نادرًا ما تخرج بشكل صحيح ، لكن المشكلة لفتت الأنظار عندما ظهرت مجموعة من "الصور" على Twitter.
عند الفحص الدقيق ، أعطتها أيدي الناس الغريبة كصور تم إنشاؤها بواسطة الذكاء الاصطناعي. حقيقة أن هذه كانت محاولة ميدجورني في اليد جعلت الموقف أكثر إثارة للاهتمام.
لم يتمكن أحد أفضل محركات الذكاء الاصطناعي الموجودة من معالجة تعقيدات الأيدي البشرية ، لذلك تم اختبار قدرات Midjourney ومنافسيها. هذا صحيح ، حتى DALL-E عرضة للأصابع والأظافر غير الواقعية.
كان الضجيج غير متناسب ، مع الأخذ في الاعتبار أن الأيدي التي تم إنشاؤها بواسطة الذكاء الاصطناعي كانت دائمًا مشكلة ، لكن الاهتمام الإضافي أدى إلى إطلاق Midjourney v5 لتحسين الإصدار 4.
ركز الإصدار الجديد على تحسين تصميم اليد ، وهو مؤشر واضح على أن مهندسي الذكاء الاصطناعي اهتموا بالإثارة المضحكة وقرروا ترقية قدرات البرنامج.
المحركات الأخرى بطيئة في اتباع مثال ميدجورني ، لذا إصلاح فن الذكاء الاصطناعي باستخدام Photoshop مهارة لا تقدر بثمن. العقبة الرئيسية للمبرمجين هي مدى تعقيد تدريب الذكاء الاصطناعي على رسم أيدي مقنعة.
لماذا تكافح مولدات الصور بالذكاء الاصطناعي بأيديها؟
تستخدم محركات الذكاء الاصطناعي شبكات الخصومة التوليدية (GANs) أو الانتشار المستقر لإنتاج الصور. تتطلب كلتا التقنيتين مواد مصدر شاملة ، وتدريبًا ، وقوة معالجة لإنشاء حتى الأعمال الفنية الأساسية.
نظرًا لأن الصور الموجودة مسبقًا تعتبر أساسية لتدريب الذكاء الاصطناعي ، يتعين على المبرمجين تغذية برامجهم بالآلاف ، إن لم يكن الملايين ، من الصور جنبًا إلى جنب مع المطالبات - تكرار العملية مرارًا وتكرارًا حتى يفهم المحرك ما تشير إليه كلمة معينة وكيفية تمثيل ذلك هدف.
لكن الصور المصدر التي يتعلم منها الذكاء الاصطناعي هي بشكل أساسي ثنائية الأبعاد ، حيث يتم تصوير الأيدي في مجموعة متنوعة من المواضع. سواء كانت مستقيمة أو ملتفة ، تظهر خمسة أصابع أو ثلاثة.
في نهاية اليوم ، لا تفهم الآلة فعليًا مفهوم الأيدي ، والصور التي تتعلم منها لا تظهر دائمًا الأيدي بشكل كافٍ أو ثابت. لهذا السبب يمكن أن تكون أيدي Midjourney قبيحة للغاية: ارتباك الذكاء الاصطناعي.
صالحة مثل مخاوف إيلون ماسك بشأن تطوير الذكاء الاصطناعي بعض أجزاء التكنولوجيا لا يزال لديها الكثير لتتعلمه. وتتجاوز عقباتهم الأمثلة غير الكافية للأيدي.
أسباب أخرى لبطء تحسين مولدات الصور بالذكاء الاصطناعي
انظر الى نماذج ميدجورني، v5 يوفر تماسكًا متقدمًا بين المطالبات النصية والصور المنتجة ، بالإضافة إلى دقة أعلى وأدوات إضافية. لكن هذه الإنجازات لا تأتي بثمن بخس.
يتطلب تدريب الذكاء الاصطناعي على أداء أفضل باستخدام اليدين تزويده بصور أفضل ، خاصةً في صورة ثلاثية الأبعاد. وهذا يعني إنفاق الكثير من الوقت والقوى العاملة على العمليات ، من الحصول على مواد المصدر إلى تحسين الترميز وتكرار التدريب حتى يحصل الذكاء الاصطناعي عليه بشكل صحيح.
حتى مع ذلك ، يمكن للبرنامج ارتكاب أخطاء في الأعمال الفنية المذهلة. إلى جانب كونها وظيفة ضخمة ومعقدة ، فهي مكلفة. لذا لا تتوقع مولدات مجانية لتحويل النص إلى صورة من منظمة العفو الدولية للارتقاء إلى مستوى Midjourney حتى الآن.
ببساطة ، المشكلة في محركات الذكاء الاصطناعي لا تتعلق فقط بعدم قدرة برامج الكمبيوتر هذه على الفهم الكامل لكيفية ظهور أو عمل الميزات البشرية مثل اليدين والقدمين. يتعلق الأمر أيضًا بتكاليفها ، وإمكانية وصول التكنولوجيا إلى الصور ثلاثية الأبعاد وتقنيات التعلم الآلي التي يمكن أن تساعد المولدات في الحصول على فهم أكثر واقعية للعالم من حولهم.
مولدات الصور بالذكاء الاصطناعي لن تكافح إلى الأبد
تعتبر الأيدي مفهومًا مخادعًا للذكاء الاصطناعي لكي يلتف حوله ثنائيًا ، لكن حلول المشكلة تعمل بالفعل. ستتمكن Midjourney و DALL-E 2 والمنصات الأخرى في النهاية من الحفاظ على الأصابع الملتوية عند الحد الأدنى ، إن لم يكن القضاء عليها تمامًا.
يضمن التقدم في مجالات الذكاء الاصطناعي الأخرى أن التكنولوجيا تتطور باستمرار ، ويتعلم مطوروها دائمًا طرقًا جديدة لتطبيقها وتحسينها.