يتضمن تجريف الويب جمع المعلومات في شكل بيانات من مواقع الويب أو الصفحات. على الرغم من أن عملك قد لا يكون عملاً واعياً ، إلا أنك قمت بإزالة الويب بطريقة أو بأخرى أثناء جمع المعلومات. لكن هذا عادة ما يكون خفيًا.

يعد تجريف الويب أو تجريف الشاشة عملاً هادفًا بشكل عام ، ويقوم المحترفون بأتمتة التصميم للحصول على بيانات هائلة. سواء عن طريق نسخ النصوص على موقع الويب يدويًا ، أو باستخدام أدوات مخصصة ، أو كتابة نصوص تجريف الويب ، فإن أدوات كشط الويب أحيانًا ما تصيب بشدة على موقع الويب عن طريق تقديم طلبات متعددة في وقت واحد.

ولكن بينما تستفيد العديد من الشركات الآن من تجريف الويب لتحقيق ميزة تنافسية ، فهل هذا قانوني بالفعل؟

ما هي المواقع التي يجب عليك كشطها ولا يجب عليك كشطها؟

الإنترنت عبارة عن مجموعة من المعلومات ، تتيح للأشخاص الوصول إلى البيانات القديمة وفي الوقت الفعلي. تجريف الويب أو تجريف الشاشة موجود منذ فترة حتى الآن. ولكن ما المقدار الذي يجب أن تستخدمه ، وما هي المواقع الإلكترونية التي يمكنك كشطها؟

بعض مواقع الويب صارمة مع برامج زحف الويب أو كاشطات الشاشة وتمنعها تمامًا. لذلك من الواضح بشكل صارخ أنه لا يجب عليك التخلص من مثل هذه المواقع. لكن الناس ما زالوا يفعلون ذلك.

instagram viewer

لسوء الحظ ، لا يكاد يوجد أي شيء آخر يمكن أن تفعله هذه المواقع لإيقافه إلى جانب سد الثغرات الموجودة بها.

قبل أن تتخلص من موقع ويب ، من الناحية المثالية ، يجب عليك التحقق مما إذا كان يسمح بالزحف أم لا. عادة ، يمكنك معرفة ذلك عن طريق التحقق من ملف robots.txt الخاص بالموقع. يمكنك القيام بذلك عن طريق كتابة "[URL URL] /robots.txt".

يعيّن ملف robots.txt عادةً قواعد لمختلف برامج الزحف أو وكلاء المستخدم. ومع ذلك ، تختلف هذه القواعد ، اعتمادًا على موقع الويب المعني. بينما تسمح بعض المواقع بالزحف على جميع الصفحات ، يحدد بعضها الصفحات التي يمكن للروبوت الزحف إليها ، وبعضها يحظر برامج الزحف تمامًا.

عادةً ما يضع موقع الويب الذي يمنع جميع وكلاء المستخدم من الزحف إلى جميع الصفحات القواعد التالية:

وكيل المستخدم: *
عدم السماح: /

عادةً ما يبدو ملف robots.txt الذي يمنع جميع برامج الروبوت من الزحف إلى أدلة أو صفحات معينة كما يلي:

وكيل المستخدم: *
عدم السماح: / URL للصفحة 1
عدم السماح: / URL للصفحة 2

إذا لم يمنع ملف robots.txt الصفحة التي تريد الزحف إليها ، فيمكنك على الأرجح حذفها. خلاف ذلك ، يجب عليك التراجع أو الحصول على موافقة المسؤول. قد يمنحونك الوصول.

بالإضافة إلى ذلك ، تنص بعض مواقع الويب صراحةً على ما إذا كانت تسمح بالزحف أم لا في شروط الاستخدام الخاصة بها. حتى أن البعض يذكر هذا في الجزء العلوي من ملف robots.txt أيضًا. تحقق دائمًا من ذلك أيضًا للتأكد من أنك تفعل الشيء الصحيح.

كيف يتم إساءة استخدام تجريف الويب

لذلك إذا كنت قد تلقيت رسائل بريد إلكتروني عشوائية أو رسائل نصية قصيرة من مواقع ويب أو أشخاص لم تزودهم بمعلوماتك الشخصية مطلقًا ، فمن المحتمل أنك قد تعرضت للنهب في مكان ما بطريقة أو بأخرى. وفي الغالب ، يتم ذلك عبر أحد مقابض الوسائط الاجتماعية الخاصة بك.

ومع ذلك ، فإن تجريف الويب في بعض الأحيان يكون أكثر من مجرد جمع البيانات التي يتم عرضها على الواجهة الأمامية. إذا تم استخدامه بشكل ضار ، يمكن أن يؤدي إلى تسرب المعلومات الشخصية والمصنفة.

بينما تستهجن معظم منصات وسائل التواصل الاجتماعي ذلك ، لا تزال برامج الزحف تصل إلى ملفات تعريف الأشخاص ، ويتم تسريب معلومات الاتصال الخاصة بهم وكشطها.

على سبيل المثال ، تم الإبلاغ عن وجود ثغرات في Facebook ، مما أدى إلى تسريب معلومات الاتصال الخاصة بالمستخدمين في الماضي ، على الرغم من أن المستخدمين يحافظون على خصوصيتها.

وبالمثل ، تعرض موقع LinkedIn مؤخرًا لخرق أمني أدى إلى تسريب بيانات شخصية ينتمون إلى أكثر من 500 مليون حساب. وبالتالي ، أدت هذه الثغرة الأمنية إلى مشاركة العديد من عناوين البريد الإلكتروني وأرقام الهواتف دون موافقة أصحاب الملفات الشخصية.

هل يعد كشط موقع ويب غير قانوني؟

لم يكن هناك أبدًا استنتاج بشأن شرعية تجريف الويب. بدلاً من ذلك ، ينصب التركيز على كيفية عمل الزاحف على أساس كل حالة على حدة وما يستخدم البيانات المجمعة لتحقيقه.

لذا فبدلاً من استنتاج شرعيتها ، فإن الكشط ، عندما يتم بشكل ضار ، يعد غير قانوني. ولكن إذا تم القيام به بحكمة ، فهو ليس غير قانوني.

ولكن كما هو متوقع ، يبدو أن هناك سياسة أكثر صرامة بشأن تجريف واستخدام بيانات الوسائط الاجتماعية لأن خصوصية المستخدمين مهمة للغاية. ومع ذلك ، لا يزال الأمر يتلخص في كيفية قيام الأشخاص بكشط البيانات.

ال مدونة قانون الإنترنت ووسائل التواصل الاجتماعي حللت قضية hiQ Labs ، وهي شركة لجمع البيانات فازت بدعوى قضائية ضد LinkedIn في عام 2019 بعد أن حاولت منع hiQ Labs من حذف بيانات مستخدمي LinkedIn المتاحة للجمهور.

مع hiQ Labs التي تدعي أن قانون الاحتيال وإساءة استخدام الكمبيوتر (CFAA) يحظر فقط الوصول غير المصرح به ، أكد الحكم أن بيانات LinkedIn كانت متاحة للجمهور ، لذا فإن أي شخص يقوم بحذفها فعل ذلك لأنهم يمكن الوصول.

بالإضافة إلى ذلك ، استخدمت hiQ Labs البيانات المسردة فقط لتوفير حلول تحليلية للشركات - حتى تتمكن من اتخاذ قرارات توظيف أفضل.

على العكس من ذلك ، رفع Facebook مؤخرًا دعوى قضائية ضد مطوري ملحقات Chrome الذين قاموا بكشط ملفات تعريف مستخدمي Facebook دون موافقتهم.

وبالمثل ، أ تم رفع دعوى قضائية ضد موقع مقلد من قبل Facebook لكشط معلومات ملف تعريف العديد من مستخدمي Instagram ثم استخدامها لإنشاء نسخ. وفقًا لهذا التقرير ، ذهب Facebook إلى أبعد من ذلك للحصول على أمر قضائي دائم ضد الجاني.

هذه بعض الحالات التي قد يكون فيها الأشخاص قد استخدموا تجريف الويب بشكل غير قانوني. قامت الشركات المذكورة بجمع بيانات مستخدمي Facebook بشكل خادع ، دون موافقة مستخدميها. لذلك انتهكت سياسات الخصوصية.

لذلك ، في حين أن تجريف الويب قد يحبط الموقع الذي يحصل على البيانات منه ، لا توجد قاعدة عامة تمنع الأشخاص حاليًا من الحصول على ما يريدون ، طالما أنهم لا ينتهكون قوانين الإنترنت تمامًا.

هل تجريف الويب مرادف للقرصنة؟

هناك عدد قليل من الأساطير حول تجريف الويب. أحد هذه الأسباب هو الاعتقاد بأن كشط موقع ويب يعني أنك اخترقته. على الرغم من أن القرصنة يمكن أن تؤدي في النهاية إلى تجريف البيانات ، فإن الادعاء بأن المصطلح نفسه يعني اختراق موقع ويب ليس صحيحًا.

يمكن أن يتضمن تجريف الويب استخدام أدوات مخصصة للزحف أو الكشطأو واجهات برمجة التطبيقات (APIs) أو نصوص تجريف الويب للحصول على البيانات المقدمة من موقع ويب. على عكس القرصنة ، فإنه لا يعرض موقع الويب للخطر أو يعطل تجربة مستخدميه.

متعلق ب: ما هو تجريف الويب؟ كيفية جمع البيانات من المواقع الإلكترونية

لذلك ، في حين أن القرصنة تتضمن وصولاً غير مصرح به ، عادةً إلى قاعدة بيانات موقع الويب ، فإن تجريف الويب يستهدف فقط البيانات المرئية بالفعل في الواجهة الأمامية. على الرغم من أنه يمكن للأشخاص استخدام تجريف الويب بشكل ضار ، إلا أنه لا يزال غير مرادف للقرصنة.

بالإضافة إلى ذلك ، على عكس تجريف الويب ، فإن القرصنة المتعمدة وغير الأخلاقية تعتبر غير قانونية.

ما هي ايجابيات تجريف الويب؟

يحتوي تجريف الويب على العديد من الإيجابيات ، وحتى بعض شركات التكنولوجيا تقدم الآن بياناتها مجانًا من خلال واجهات برمجة التطبيقات. عادة لا تكون هذه المعلومات كافية لتقييم اتجاهات الأعمال واتخاذ القرارات.

لذلك تحصل الشركات الآن على المزيد من البيانات عن طريق تجريف الويب لتحسين الممارسات وزيادة المبيعات. بالإضافة إلى ذلك ، يقوم علماء البيانات بتغذية خوارزميات التعلم الآلي بالبيانات التي تم جمعها عبر كشط الشاشة.

يمكن أن تكون هذه البيانات عبارة عن صور مستخدمة في التعرف على الصور ، أو نصوص بسيطة لتحليل المشاعر ، أو بيانات المنتج المباشرة لذكاء السوق وتحليل سلوك المستهلك.

متعلق ب: طرق فريدة للحصول على مجموعات البيانات لمشروع التعلم الآلي الخاص بك

لذا فإن تجريف الويب يكون أكثر فائدة لأنه إذا كان لديك وصول إلى معلومات لا يمتلكها منافسك ، فيمكنك التغلب عليها.

في حين أن بعض المواقع تستهجن من برامج كشط الويب ، فإن البعض ، حتى خدمات التجارة الإلكترونية ، لا تهتم إذا كنت تتخلص من بياناتهم أم لا. أطلق عمالقة الويب مثل eBay و Salesforce واجهة برمجة التطبيقات الخاصة بهم في عام 2000 ، مما أتاح للمبرمجين الوصول إلى البيانات العامة لأول مرة.

هل يجب فعلاً كشط الويب؟

لقد أثبتنا أن تجريف الويب ليس غير قانوني عندما يتم بالطريقة الصحيحة. لكن ما تفعله بالبيانات التي تكشطها هو مصدر قلق أيضًا. لذا بدلاً من إساءة استخدام هذا ، استخدمه لاستخلاص المزيد من الأفكار التي تساعدك أنت والآخرين على اتخاذ قرارات مستنيرة.

ومع ذلك ، يتيح لك تجريف الويب كمهارة الوصول إلى أجزاء كبيرة من بيانات الإنترنت ، والتي يمكن أن تساعدك أنت أو شركتك على البقاء فوق مجال الأعمال التجارية. كعالم بيانات ، فإنه يوسع نطاقك ويحسن مهاراتك في الترميز والمهارات الفنية.

على سبيل المثال ، Python هي إحدى لغات البرمجة التي تساعدك بسهولة في مسح موقع الويب بمكتبة Beautiful Soup أو إطار عمل Scrapy.

بريد إلكتروني
كشط موقع على شبكة الإنترنت مع هذا البرنامج التعليمي حساء بايثون الجميل

مهتم في تجريف الويب؟ فيما يلي كيفية استخراج محتوى موقع ويب والمزيد باستخدام مكتبة Beautiful Soup Python.

اقرأ التالي

مواضيع ذات صلة
  • حماية
  • برمجة
  • الأمن على الإنترنت
  • تجريف على شبكة الإنترنت
عن المؤلف
إيدوو أوميسولا (71 مقالة منشورة)

Idowu شغوف بأي شيء التكنولوجيا الذكية والإنتاجية. في أوقات فراغه ، يلعب بالبرمجة ويتحول إلى رقعة الشطرنج عندما يشعر بالملل ، لكنه أيضًا يحب الابتعاد عن الروتين من حين لآخر. يحفزه شغفه بإظهار الطريق للناس حول التكنولوجيا الحديثة على كتابة المزيد.

المزيد من Idowu Omisola

اشترك في نشرتنا الإخبارية

انضم إلى النشرة الإخبارية لدينا للحصول على نصائح تقنية ومراجعات وكتب إلكترونية مجانية وصفقات حصرية!

خطوة أخرى أيضا…!

يرجى تأكيد عنوان بريدك الإلكتروني في البريد الإلكتروني الذي أرسلناه لك للتو.

.