ربما ليس GTBot هو ما تعتقده.
الماخذ الرئيسية
- إن برنامج GTTBot الخاص بشركة OpenAI عبارة عن برنامج زحف ويب مصمم لجمع البيانات من مواقع الويب العامة، والتي يتم استخدامها بعد ذلك لتدريب نماذج الذكاء الاصطناعي وتحسينها مثل GPT-4 وChatGPT.
- تقوم بعض أكبر مواقع الويب على الإنترنت بحظر GTBot لأنه يصل إلى محتوى محمي بحقوق الطبع والنشر ويستخدمه دون الحصول على إذن أو تعويض للمبدعين.
- في حين يمكن لمواقع الويب استخدام أدوات مثل robots.txt لمحاولة حظر GTBot، لا توجد ضمانات بأن OpenAI ستلتزم بذلك، مما يمنحها التحكم في الوصول إلى البيانات المحمية بحقوق الطبع والنشر.
في أغسطس 2023، أعلنت شركة OpenAI، وهي شركة الذكاء الاصطناعي القوية التي يُنسب إليها الفضل في تطوير ChatGPT، عن GTBot، وهو زاحف ويب مصمم لاجتياز الويب وجمع البيانات.
بعد وقت قصير من هذا الإعلان، قامت بعض أكبر المواقع على الإنترنت بحظر الروبوت من الوصول إلى موقعهم على الويب. لكن لماذا؟ ما هو GTBot الخاص بـ OpenAI؟ لماذا تخاف منه المواقع الكبرى، ولماذا تحاول حجبه؟
ما هو GTBot الخاص بـ OpenAI؟
GTBot هو زاحف ويب تم إنشاؤه بواسطة OpenAI للبحث في الإنترنت وجمع المعلومات لأهداف تطوير الذكاء الاصطناعي الخاصة بـ OpenAI. تمت برمجته للزحف إلى مواقع الويب العامة وإرسال البيانات مرة أخرى إلى خوادم OpenAI. ثم تستخدم OpenAI هذه البيانات لتدريب وتحسين نماذج الذكاء الاصطناعي الخاصة بها، بهدف بناء أنظمة ذكاء اصطناعي متقدمة بشكل متزايد. لبناء نماذج ذكاء اصطناعي متطورة مثل GPT-4 أو منتجاتها الفرعية مثل ChatGPT، لا غنى عن برامج زحف الويب تقريبًا.
يتطلب تدريب نموذج الذكاء الاصطناعي كمية هائلة من البيانات، وإحدى أكثر الطرق فعالية لجمع هذه البيانات هي نشر أدوات مثل برامج زحف الويب. يمكن لبرامج الزحف تصفح الويب بشكل منهجي، واتباع الروابط لفهرسة كميات كبيرة من صفحات الويب، واستخراج البيانات الأساسية مثل النصوص والصور والبيانات التعريفية التي تطابق نمطًا محددًا مسبقًا.
ويمكن بعد ذلك تنظيم هذه البيانات وإدخالها في نماذج الذكاء الاصطناعي لتدريب قدراتهم على معالجة اللغة الطبيعية أو قدرات توليد الصور أو تدريبهم على مهام الذكاء الاصطناعي الأخرى. من أجل ترتيب الكلمات، تجمع برامج زحف الويب البيانات التي تتيح لأدوات مثل ChatGPT أو DALL-E القيام بما تفعله.
برامج زحف الويب ليست مفهومًا جديدًا. من المحتمل أن يكون هناك الملايين منهم يزحفون إلى مليارات المواقع المتاحة على الإنترنت اليوم. لقد كانوا موجودين منذ أوائل التسعينيات على الأقل. يعد GTBot أحد برامج الزحف هذه المملوكة لشركة OpenAI. إذًا، ما سبب الجدل الدائر حول زاحف الويب هذا بالتحديد؟
لماذا تقوم مواقع التكنولوجيا الكبرى بحظر GTBot؟
وفق مهتم بالتجارة، تعمل بعض أكبر مواقع الويب على الإنترنت على حظر زاحف OpenAI على موقعها على الويب. لذا، إذا كان الهدف النهائي لـ GTBot هو تعزيز تطوير الذكاء الاصطناعي، فلماذا تعارضه بعض أكبر المواقع على الإنترنت، والتي استفاد بعضها بطريقة أو بأخرى من الذكاء الاصطناعي؟
حسنًا، هذا هو الأمر. منذ عودة ظهور تقنيات الذكاء الاصطناعي التوليدي في عام 2022، كانت هناك العديد من المناقشات حول حق شركات الذكاء الاصطناعي في استخدام البيانات المستمدة من الإنترنت، دون حدود تقريبًا، والتي يتمتع جزء كبير منها بحماية قانونية حقوق النشر. لا توجد قوانين واضحة تحكم كيفية قيام هذه الشركات بجمع البيانات واستخدامها لتحقيق مكاسب خاصة بها.
لذلك، في الأساس، تقوم برامج الزحف مثل GTBot بالزحف إلى الويب، والاستيلاء على العمل الإبداعي للأشخاص في شكل نص أو صور أو أشكال أخرى من الوسائط واستخدامها لأغراض تجارية دون الحصول على أي إذن أو ترخيص أو تقديم تعويض للأصل المبدعين.
إنه الغرب المتوحش هناك، وشركات الذكاء الاصطناعي تستولي على كل ما يمكنها الحصول عليه. مواقع الويب الكبيرة مثل Quora وCNN ونيويورك تايمز وBusiness Insider وAmazon ليست سعيدة جدًا بوجودها يتم حصاد المحتوى المحمي بحقوق الطبع والنشر بواسطة برامج الزحف هذه، لذلك يمكن لـ OpenAI الحصول على فائدة مالية منه في متناولهم مصروف.
ولهذا السبب تنشر هذه المواقع "robots.txt"، وهي طريقة قديمة لعقود من الزمن لمنع برامج زحف الويب. وفق OpenAI، سوف يتبع برنامج GTTBot تعليمات الزحف إلى مواقع الويب أو تجنب الزحف إليها استنادًا إلى القواعد المضمنة في ملف robots.txt، وهو ملف نصي صغير يخبر برامج زحف الويب بكيفية التصرف على الموقع. إذا كان لديك موقع خاص بك وترغب في منع GTBot من الاستيلاء على بياناتك، فإليك الطريقة التي يمكنك بها ذلك منع برامج الزحف الخاصة بـ OpenAI من استخلاص موقع الويب الخاص بك.
هل يمكن لمواقع الويب إيقاف GTBot حقًا؟
في حين أن برامج الزحف مثل GTBot لا غنى عنها لجمع كميات هائلة من البيانات المطلوبة تدريب أنظمة الذكاء الاصطناعي المتقدمة، هناك مخاوف مشروعة حول حقوق الطبع والنشر والاستخدام العادل والتي لا يمكن أن تكون كذلك تم تجاهله.
بالتأكيد، هناك أدوات بسيطة مثل ملف robots.txt يمكن استخدامها للحماية من ذلك، ولكن ما إذا كان GTBot يلتزم بالتعليمات الموجودة في هذا الملف أم لا، فهو يخضع لتقدير OpenAI بالكامل. ولا توجد ضمانات بأنهم سيفعلون ذلك، ولا توجد طريقة فورية مضمونة لمعرفة ما إذا كانوا قد فعلوا ذلك. في المعركة من أجل إبقاء GTBot بعيدًا عن البيانات المحمية بحقوق الطبع والنشر، تمتلك OpenAI الأوراق الرابحة، على الأقل في الوقت الحالي.