تم تدريب هذا النموذج اللغوي الكبير على الويب المظلم لتقييم تهديدات الأمن السيبراني. إليك ما تحتاج إلى معرفته.
تزداد شعبية نماذج اللغات الكبيرة (LLMs) ، مع دخول نماذج جديدة باستمرار إلى المشهد. عادةً ما يتم تدريب هذه النماذج ، مثل ChatGPT ، على مصادر الإنترنت المختلفة ، بما في ذلك المقالات والمواقع الإلكترونية والكتب ووسائل التواصل الاجتماعي.
في خطوة غير مسبوقة ، طور فريق من الباحثين الكوريين الجنوبيين DarkBERT ، وهو ماجستير في القانون (LLM) تم تدريبه على مجموعات بيانات مأخوذة حصريًا من الويب المظلم. كان هدفهم هو إنشاء أداة ذكاء اصطناعي تتفوق في الأداء على نماذج اللغة الحالية وتساعد الباحثين في مجال التهديد وإنفاذ القانون ومتخصصي الأمن السيبراني في مكافحة التهديدات السيبرانية.
ما هو داركبيرت؟
DarkBERT هو نموذج تشفير قائم على المحولات يعتمد على هندسة RoBERTa. تم تدريب LLM على ملايين صفحات الويب المظلمة ، بما في ذلك البيانات من منتديات القرصنة ومواقع الاحتيال والمصادر الأخرى عبر الإنترنت المرتبطة بالأنشطة غير القانونية.
على المدى يشير مصطلح "الويب المظلم" إلى قسم مخفي من الإنترنت لا يمكن الوصول إليه عبر متصفحات الويب القياسية. يشتهر القسم الفرعي بإيواء مواقع ويب مجهولة المصدر وأسواق مشهورة بالأنشطة غير القانونية ، مثل تجارة البيانات المسروقة والمخدرات والأسلحة.
لتدريب DarkBERT ، اكتسب الباحثون الوصول إلى الويب المظلم من خلال شبكة Tor والبيانات الأولية المجمعة. قاموا بتصفية هذه البيانات بعناية باستخدام تقنيات مثل إلغاء البيانات المكررة ، وموازنة الفئات ، والمعالجة المسبقة لـ إنشاء قاعدة بيانات ويب مظلمة مصقولة ، والتي تم تغذيتها بعد ذلك إلى RoBERTa على مدار 15 يومًا تقريبًا لإنشائها داركبيرت.
الاستخدامات المحتملة لـ DarkBERT في الأمن السيبراني
تتمتع DarkBERT بفهم رائع للغة مجرمي الإنترنت وتتفوق في اكتشاف التهديدات المحتملة المحددة. يمكنه البحث في الويب المظلم وتحديد تهديدات الأمن السيبراني والإبلاغ عنها بنجاح مثل تسرب البيانات وبرامج الفدية ، مما يجعلها أداة مفيدة محتملة لمكافحة التهديدات السيبرانية.
لتقييم فعالية DarkBERT ، قارنه الباحثون بنموذجين مشهورين من NLP ، BERT و RoBERTa ، بتقييم أدائها عبر ثلاث حالات استخدام مهمة متعلقة بالأمن السيبراني ، البحث ، نشر على arxiv.org، يشير.
1. راقب منتديات الويب المظلمة بحثًا عن المواضيع التي يحتمل أن تكون ضارة
تعد مراقبة منتديات الويب المظلمة ، والتي تُستخدم بشكل شائع لتبادل المعلومات غير المشروعة ، أمرًا بالغ الأهمية لتحديد المواضيع التي يحتمل أن تكون خطرة. ومع ذلك ، قد تستغرق المراجعة اليدوية لهذه العملية وقتًا طويلاً ، مما يجعل أتمتة العملية مفيدة لخبراء الأمن.
ركز الباحثون على الأنشطة التي قد تكون ضارة في منتديات القرصنة ، ووضعوا إرشادات للتعليقات التوضيحية للخيوط الجديرة بالملاحظة ، بما في ذلك مشاركة البيانات السرية وتوزيع البرامج الضارة المهمة أو نقاط الضعف.
تفوقت DarkBERT على نماذج اللغات الأخرى من حيث الدقة والتذكر ودرجة F1 ، حيث ظهرت كخيار أفضل لتحديد الخيوط الجديرة بالملاحظة على الويب المظلم.
2. كشف المواقع التي تستضيف معلومات سرية
يستخدم المتسللون ومجموعات برامج الفدية شبكة الويب المظلمة لإنشاء مواقع تسريب ، حيث ينشرون بيانات سرية مسروقة من المنظمات التي ترفض الامتثال لمطالب الفدية. يقوم مجرمو الإنترنت الآخرون بتحميل البيانات الحساسة المسربة ، مثل كلمات المرور والمعلومات المالية ، إلى شبكة الإنترنت المظلمة بغرض بيعها.
في دراستهم ، جمع الباحثون البيانات من مجموعات برامج الفدية سيئة السمعة وحللت مواقع تسريب برامج الفدية التي تنشر بيانات المنظمات الخاصة. تفوقت DarkBERT على نماذج اللغات الأخرى في تحديد وتصنيف مثل هذه المواقع ، وعرض فهمها للغة المستخدمة في منتديات القرصنة السرية على شبكة الإنترنت المظلمة.
يستفيد DarkBERT من وظيفة قناع التعبئة ، وهي ميزة متأصلة في نماذج لغة عائلة BERT ، لتحديد الكلمات الرئيسية المرتبطة بالأنشطة غير القانونية بدقة ، بما في ذلك مبيعات المخدرات على الويب المظلم.
عندما تم إخفاء كلمة "MDMA" في صفحة بيع الأدوية ، قامت DarkBERT بإنشاء كلمات متعلقة بالمخدرات ، بينما اقترحت نماذج أخرى كلمات عامة ومصطلحات لا علاقة لها بالمخدرات ، مثل المهن المختلفة.
يمكن أن تكون قدرة DarkBERT على تحديد الكلمات الرئيسية المتعلقة بالأنشطة غير المشروعة ذات قيمة في تتبع التهديدات السيبرانية الناشئة ومعالجتها.
هل DarkBERT متاح لعامة الناس؟
DarkBERT غير متاح حاليًا للجمهور ، لكن الباحثين منفتحون على طلبات استخدامه للأغراض الأكاديمية.
تسخير قوة الذكاء الاصطناعي لاكتشاف التهديدات والوقاية منها
تم تدريب DarkBERT مسبقًا على بيانات الويب المظلمة وتفوقها على نماذج اللغة الحالية عبر العديد من حالات استخدام الأمن السيبراني ، مما يجعلها أداة حاسمة لتطوير أبحاث الويب المظلمة.
يتمتع الذكاء الاصطناعي المدرب على الويب المظلم بإمكانية استخدامه في العديد من مهام الأمن السيبراني ، بما في ذلك تحديد مواقع البيع المسربة البيانات السرية ، ومراقبة منتديات الويب المظلمة لاكتشاف مشاركة المعلومات غير المشروعة ، وتحديد الكلمات الرئيسية المتعلقة بالإنترنت التهديدات.
لكن يجب أن تتذكر دائمًا أنه ، مثل LLMs الأخرى ، يعد DarkBERT عملاً قيد التقدم ، ويمكن تحسين أدائه من خلال التدريب المستمر والضبط الدقيق.