ما هي الهجمات العدائية ضد نماذج الذكاء الاصطناعي وكيف يمكنك إيقافها؟

نماذج الذكاء الاصطناعي جيدة فقط مثل البيانات التي تدخل فيها. هذا يجعل هذه البيانات هدفًا محتملًا للهجمات.

كان للتقدم في الذكاء الاصطناعي تأثير كبير في مختلف المجالات. وقد تسبب هذا في قلق عدد كبير من المتحمسين للتكنولوجيا. مع توسع هذه التقنيات في تطبيقات مختلفة ، يمكن أن تؤدي إلى زيادة الهجمات العدائية.

ما هي الهجمات العدائية في الذكاء الاصطناعي؟

تستغل الهجمات العدائية المواصفات ونقاط الضعف في نماذج الذكاء الاصطناعي. إنها تفسد البيانات التي تعلمتها نماذج الذكاء الاصطناعي وتتسبب في إنشاء هذه النماذج لمخرجات غير دقيقة.

تخيل أن المخادع يغير البلاط الخربشة المرتبة مثل الأناناس ليصبح "شجر التفاح". هذا مشابه لما يحدث في الهجمات العدائية.

قبل بضع سنوات ، كان الحصول على بعض الردود أو المخرجات غير الصحيحة من نموذج الذكاء الاصطناعي هو القاعدة. والعكس هو الحال الآن ، حيث أصبحت عدم الدقة هي الاستثناء ، حيث يتوقع مستخدمو الذكاء الاصطناعي نتائج شبه مثالية.

عندما يتم تطبيق نماذج الذكاء الاصطناعي هذه على سيناريوهات العالم الحقيقي ، يمكن أن تكون الأخطاء قاتلة ، مما يجعل الهجمات العدوانية خطيرة للغاية. على سبيل المثال ، يمكن للملصقات الموجودة على لافتات المرور أن تربك سيارة ذاتية القيادة وتتسبب في انتقالها إلى حركة المرور أو الدخول مباشرة إلى أحد العوائق.

instagram viewer

أنواع الهجمات العدائية

هناك أشكال مختلفة من الهجمات العدائية. مع ال زيادة تكامل الذكاء الاصطناعي في التطبيقات اليومية، فمن المرجح أن تزداد هذه الهجمات سوءًا وتعقيدًا.

ومع ذلك ، يمكننا تصنيف الهجمات العدائية تقريبًا إلى نوعين بناءً على مدى معرفة ممثل التهديد بنموذج الذكاء الاصطناعي.

1. هجمات الصندوق الأبيض

في هجمات الصندوق الأبيض، الجهات الفاعلة في مجال التهديد لديها معرفة كاملة بالأعمال الداخلية لنموذج الذكاء الاصطناعي. يعرفون مواصفاتها وبيانات التدريب وتقنيات المعالجة والمعلمات. تمكنهم هذه المعرفة من بناء هجوم عدائي خصيصًا للنموذج.

تتمثل الخطوة الأولى في هجوم الصندوق الأبيض في تغيير بيانات التدريب الأصلية ، وإفسادها بأبسط طريقة ممكنة. ستظل البيانات المعدلة مشابهة جدًا للبيانات الأصلية ولكنها مهمة بما يكفي لجعل نموذج الذكاء الاصطناعي يعطي نتائج غير دقيقة.

هذا ليس كل شيء. بعد الهجوم ، يقوم ممثل التهديد بتقييم فعالية النموذج من خلال تقديم أمثلة معادية له -تم تصميم المدخلات المشوهة لإحداث أخطاء في النموذج- ويحلل المخرجات. كلما كانت النتيجة غير دقيقة ، كان الهجوم أكثر نجاحًا.

2. هجمات الصندوق الأسود

على عكس هجمات الصندوق الأبيض ، حيث يعرف ممثل التهديد الإجراءات الداخلية لنموذج الذكاء الاصطناعي ، مرتكبوها هجمات الصندوق الأسود ليس لديهم فكرة عن كيفية عمل النموذج. إنهم ببساطة يلاحظون النموذج من نقطة عمياء ، ويراقبون قيم المدخلات والمخرجات.

تتمثل الخطوة الأولى في هجوم الصندوق الأسود في تحديد هدف الإدخال الذي يريد نموذج الذكاء الاصطناعي تصنيفه. يقوم المهاجم بعد ذلك بإنشاء نسخة ضارة من المدخلات عن طريق إضافة ضوضاء مصاغة بعناية ، اضطرابات في البيانات غير مرئية للعين البشرية ولكنها قادرة على التسبب في نموذج الذكاء الاصطناعي عطل.

يتم تغذية النسخة الخبيثة إلى النموذج ، ويتم ملاحظة المخرجات. تساعد النتائج التي يقدمها النموذج ممثل التهديد على الاستمرار في تعديل الإصدار حتى يصبح واثقًا بدرجة كافية من أنه قد يخطئ في تصنيف أي بيانات يتم إدخالها فيه.

الأساليب المستخدمة في الهجمات العدائية

يمكن للكيانات الخبيثة استخدام تقنيات مختلفة لتنفيذ هجمات معادية. فيما يلي بعض هذه التقنيات.

1. تسمم

يمكن للمهاجمين التلاعب (بالسموم) بجزء صغير من بيانات إدخال نموذج الذكاء الاصطناعي للتهديد بمجموعات بيانات التدريب ودقتها.

هناك عدة أشكال من التسمم. أحد أكثرها شيوعًا يسمى تسمم الباب الخلفي ، حيث يتأثر القليل جدًا من بيانات التدريب. يستمر نموذج الذكاء الاصطناعي في إعطاء نتائج دقيقة للغاية حتى يتم "تنشيطه" لحدوث خلل عند ملامسته لمحفزات محددة.

2. تهرب

هذه التقنية مميتة إلى حد ما ، لأنها تتجنب الكشف عن طريق ملاحقة نظام الأمان الخاص بالذكاء الاصطناعي.

تم تجهيز معظم نماذج الذكاء الاصطناعي بأنظمة الكشف عن العيوب. تستفيد تقنيات التهرب من الأمثلة العدائية التي تلاحق هذه الأنظمة مباشرة.

يمكن أن تكون هذه التقنية خطيرة بشكل خاص ضد الأنظمة السريرية مثل السيارات ذاتية القيادة أو نماذج التشخيص الطبي. هذه هي المجالات التي يمكن أن يكون فيها لعدم الدقة عواقب وخيمة.

3. قابلية التحويل

لا يحتاج ممثلو التهديد الذين يستخدمون هذه التقنية إلى معرفة مسبقة بمعلمات نموذج الذكاء الاصطناعي. يستخدمون الهجمات العدائية التي نجحت في الماضي ضد الإصدارات الأخرى من النموذج.

على سبيل المثال ، إذا تسبب هجوم عدائي في أن نموذج مصنف الصور يخطئ سلحفاة بالبندقية ، فقد يتسبب الهجوم الدقيق في قيام نماذج مصنّفات الصور الأخرى بارتكاب نفس الخطأ. كان من الممكن أن تكون النماذج الأخرى قد تم تدريبها على مجموعة بيانات مختلفة وحتى لها بنية مختلفة ولكن لا يزال من الممكن أن تقع ضحية للهجوم.

4. تأجير الأرحام

بدلاً من ملاحقة أنظمة الأمان الخاصة بالنموذج باستخدام تقنيات المراوغة أو الهجمات الناجحة سابقًا ، يمكن لممثل التهديد استخدام نموذج بديل.

باستخدام هذه التقنية ، يقوم ممثل التهديد بإنشاء نسخة متطابقة من النموذج المستهدف ، نموذج بديل. يجب أن تكون النتائج والمعلمات وسلوكيات البديل متطابقة مع النموذج الأصلي الذي تم نسخه.

سيخضع البديل الآن لهجمات عدائية مختلفة حتى يتسبب المرء في إنتاج نتيجة غير دقيقة أو إجراء تصنيف خاطئ. بعد ذلك ، سيتم استخدام هذا الهجوم على الهدف الأصلي للذكاء الاصطناعي.

كيفية وقف الهجمات العدائية

قد يكون الدفاع ضد الهجمات العدائية أمرًا معقدًا ويستغرق وقتًا طويلاً حيث يستخدم الفاعلون المهددون أشكالًا وتقنيات مختلفة. ومع ذلك ، يمكن للخطوات التالية منع الهجمات العدائية وإيقافها.

1. تدريب الخصومة

الخطوة الأكثر فاعلية التي يمكن أن تمنع الهجمات العدائية هي التدريب على الخصومة ، وتدريب نماذج الذكاء الاصطناعي والآلات باستخدام الأمثلة العدائية. يعمل هذا على تحسين متانة النموذج ويسمح له بأن يكون مرنًا لأدنى اضطرابات الإدخال.

2. التدقيق المنتظم

من الضروري التحقق بانتظام من نقاط الضعف في نظام اكتشاف الشذوذ في نموذج الذكاء الاصطناعي. يتضمن ذلك تغذية النموذج عمدًا بأمثلة معادية ومراقبة سلوك النموذج للمدخلات الضارة.

3. تعقيم البيانات

تتضمن هذه الطريقة التحقق من المدخلات الضارة التي يتم إدخالها في النموذج. بعد التعرف عليهم ، يجب إزالتها على الفور.

يمكن تحديد هذه البيانات باستخدام التحقق من صحة الإدخال ، والذي يتضمن التحقق من البيانات بحثًا عن أنماط أو توقيعات لأمثلة عدائية معروفة سابقًا.

4. تحديثات الأمان

سيكون من الصعب الخطأ في التحديثات الأمنية والتصحيحات. أمان متعدد الطبقات مثل جدران الحماية وبرامج مكافحة البرامج الضارة و أنظمة كشف ومنع التسلل يمكن أن تساعد في منع التدخل الخارجي من الجهات المهددة التي تريد تسميم نموذج الذكاء الاصطناعي.

قد تكون الهجمات العدائية خصمًا جديرًا

يمثل مفهوم الهجمات العدائية مشكلة في التعلم المتقدم والتعلم الآلي.

نتيجة لذلك ، يجب أن تكون نماذج الذكاء الاصطناعي مسلحة بالدفاعات مثل التدريب على الخصومة ، والتدقيق المنتظم ، وتعقيم البيانات ، والتحديثات الأمنية ذات الصلة.

About Technology - denizatm.com