الإعلانات

كاشطات الويب تقوم تلقائيًا بجمع المعلومات والبيانات التي لا يمكن الوصول إليها عادة إلا من خلال زيارة موقع الويب في المتصفح. من خلال القيام بذلك بشكل مستقل ، تفتح البرامج النصية لإلغاء الويب عالمًا من الإمكانيات في استخراج البيانات وتحليل البيانات والتحليل الإحصائي وغير ذلك الكثير.

لماذا الويب القشط مفيد

نحن نعيش في يوم وعمر تتوفر فيه المعلومات بسهولة أكبر من أي وقت آخر. تعتبر البنية التحتية المستخدمة في تقديم هذه الكلمات ذاتها التي تقرأها بمثابة قناة لمزيد من المعرفة والرأي والأخبار أكثر من أي وقت مضى في متناول الناس في تاريخ الأشخاص.

كثيرًا ، في الواقع ، أن أذكى شخص في الدماغ ، قد تم تعزيزه بنسبة 100٪ من الكفاءة (يجب على شخص ما إنتاج فيلم حول ذلك) ، لن تتمكن بعد من الاحتفاظ بـ 1/1000 من البيانات المخزنة على الإنترنت في الولايات المتحدة وحده.

سيسكو يقدر في عام 2016 تجاوزت حركة المرور على الإنترنت zettabyte ، أي ما يعادل 1،000،000،000،000،000،000،000 بايت ، أو sextillion بايت واحد (تابع ، قهقه بـ sextillion). zettabyte واحد هو حوالي أربعة آلاف سنة من دفق Netflix. سيكون ذلك مكافئًا إذا كنت ، أيها القارئ الجريء ، ستقوم بدفق المكتب من البداية إلى النهاية دون توقف 500000 مرة.

تصوّر بيانات الإنترنت zettabyte exabyte petabyte terabyte gigabyte megabyte
الصورة الائتمان: سيسكو / فجر Zettabyte

كل هذه البيانات والمعلومات مخيفة للغاية. ليس كل هذا صحيح. ليس الكثير منها وثيق الصلة بالحياة اليومية ، ولكن المزيد والمزيد من الأجهزة تقدم هذه المعلومات من خوادم في جميع أنحاء العالم إلى أعيننا وفي أدمغتنا.

نظرًا لعدم تمكن أعيننا وعقولنا من التعامل مع كل هذه المعلومات حقًا ، فقد برز تجريد الويب كوسيلة مفيدة لجمع البيانات بطريقة برمجية من الإنترنت. تجريد الويب هو المصطلح التجريدي لتحديد عملية استخراج البيانات من مواقع الويب لحفظها محليًا.

فكر في نوع البيانات ، وربما يمكنك جمعها عن طريق إلغاء شبكة الإنترنت. يمكن البحث عن قوائم العقارات والبيانات الرياضية وعناوين البريد الإلكتروني للشركات في منطقتك وحتى كلمات الفنان المفضل لديك وحفظها عن طريق كتابة نص صغير.

كيف يحصل المستعرض على بيانات الويب؟

لفهم كاشطات الويب ، سنحتاج إلى فهم كيفية عمل الويب أولاً. للوصول إلى موقع الويب هذا ، قمت إما بكتابة "makeuseof.com" في متصفح الويب الخاص بك أو قمت بالنقر فوق ارتباط من صفحة ويب أخرى (أخبرنا بالمكان الذي نريد أن نعرفه بجدية). وفي كلتا الحالتين ، الخطوات التالية هي نفسها.

أولاً ، سيأخذ متصفحك عنوان URL الذي قمت بإدخاله أو نقرت عليه (Pro-tip: مرر مؤشر الماوس فوق الرابط لمشاهدة عنوان URL في أسفل المتصفح قبل النقر فوقه لتجنب الحصول على punk’d) وتشكيل "طلب" لإرسالها إلى خادم. سيقوم الخادم بعد ذلك بمعالجة الطلب وإرسال استجابة مرة أخرى.

تحتوي استجابة الخادم على HTML و JavaScript و CSS و JSON وغيرها من البيانات اللازمة للسماح لمستعرض الويب الخاص بك بتكوين صفحة ويب لمتعة المشاهدة.

فحص عناصر الويب

تسمح لنا المتصفحات الحديثة ببعض التفاصيل المتعلقة بهذه العملية. في Google Chrome على Windows ، يمكنك الضغط Ctrl + Shift + I أو انقر بزر الماوس الأيمن واختر فحص. ستقدم النافذة بعد ذلك شاشة تبدو كما يلي.

فحص عنصر الويب باستخدام Google Chrome

تسرد قائمة الخيارات المبوبة أعلى النافذة. من الاهتمام الآن هو شبكة الاتصال التبويب. سيعطي هذا تفاصيل حول حركة مرور HTTP كما هو موضح أدناه.

فحص طلب الويب باستخدام Google Chrome

في الزاوية اليمنى السفلى نرى معلومات حول طلب HTTP. عنوان URL هو ما نتوقعه ، و "الطريقة" هي طلب HTTP "GET". يتم سرد رمز الحالة من الاستجابة على أنه 200 ، مما يعني أن الخادم رأى الطلب صالحًا.

يوجد أسفل رمز الحالة العنوان البعيد ، وهو عنوان IP المواجه للجمهور لخادم makeuseof.com. يحصل العميل على هذا العنوان عبر بروتوكول DNS كيفية تغيير إعدادات DNS الخاصة بك لزيادة السرعةيعد تغيير إعدادات DNS بمثابة قرص ثانوي يمكن أن يكون له تأثير كبير على سرعات الإنترنت اليومية. هيريس كيفية القيام بذلك. اقرأ أكثر .

يسرد القسم التالي تفاصيل حول الاستجابة. لا يحتوي رأس الاستجابة فقط على رمز الحالة ، ولكن أيضًا على نوع البيانات أو المحتوى الذي تحتويه الاستجابة. في هذه الحالة ، ننظر إلى "نص / html" مع ترميز قياسي. هذا يخبرنا أن الاستجابة هي حرفيا رمز HTML لتقديم الموقع.

تفقد استجابة طلب الويب html باستخدام Google Chrome

أنواع أخرى من الردود

بالإضافة إلى ذلك ، يمكن للخوادم إرجاع كائنات البيانات كاستجابة لطلب GET ، بدلاً من HTML فقط لعرض صفحة الويب. موقع على شبكة الإنترنت واجهة برمجة التطبيقات (أو API) ما هي واجهات برمجة التطبيقات ، وكيف يتم فتح واجهات برمجة التطبيقات؟هل تساءلت يومًا كيف "تتحدث" البرامج الموجودة على جهاز الكمبيوتر الخاص بك والمواقع التي تزورها؟ اقرأ أكثر يستخدم عادة هذا النوع من التبادل.

من خلال الاطلاع على علامة التبويب الشبكة كما هو موضح أعلاه ، يمكنك معرفة ما إذا كان هناك هذا النوع من التبادل. عند التحقيق في CrossFit Open Leaderboard يظهر طلب ملء الجدول بالبيانات.

فحص بيانات طلب الويب باستخدام Google Chrome

بالنقر فوق الاستجابة ، يتم عرض بيانات JSON بدلاً من رمز HTML لتقديم موقع الويب. البيانات في JSON عبارة عن سلسلة من التسميات والقيم ، في قائمة ذات طبقات محددة.

فحص استجابة الويب JSON باستخدام Google Chrome

تحليل كود HTML يدويًا أو تصفح الآلاف من أزواج المفاتيح / القيمة في JSON يشبه إلى حد كبير قراءة المصفوفة. للوهلة الأولى ، يبدو وكأنه رطانة. قد يكون هناك الكثير من المعلومات لفك تشفيرها يدويًا.

كاشطات الويب إلى الإنقاذ!

الآن قبل أن تسأل عن حبوب منع الحمل الزرقاء للخروج من هنا ، يجب أن تعرف أنه لا يتعين علينا فك شفرة HTML يدويًا! الجهل ليس نعمة ، وهذا شريحة لحم يكون لذيذ.

يمكن أن يقوم مكشطة الويب بهذه المهام الصعبة لك واجهة برمجة تطبيقات Scrapestack تجعل من السهل كشط مواقع الويب للبياناتتبحث عن مكشطة الويب قوية وبأسعار معقولة؟ واجهة برمجة تطبيقات scrapestack مجانية لبدء التشغيل وتوفر العديد من الأدوات المفيدة. اقرأ أكثر . تتوفر إطارات القصاصات في Python و JavaScript و Node ولغات أخرى. واحدة من أسهل الطرق لبدء التجريف هي استخدام Python و Beautiful Soup.

كشط موقع مع بيثون

لا تستغرق الخطوات الأولى سوى بضعة سطور من التعليمات البرمجية ، طالما أنك قمت بتثبيت Python و BeautifulSoup. فيما يلي نص صغير للحصول على مصدر موقع الويب والسماح لـ BeautifulSoup بتقييمه.

من bs4 استيراد BeautifulSoup. طلبات استيراد url = " http://www.athleticvolume.com/programming/" محتوى = طلبات .get (url) حساء = BeautifulSoup (content.text) طباعة (حساء)

ببساطة شديدة ، نحن نقوم بتقديم طلب GET لعنوان URL ثم نضع الرد في كائن. طباعة الكائن يعرض رمز مصدر HTML لعنوان URL. العملية كما لو أننا ذهبنا يدويًا إلى الموقع ونقرنا أنظر المصدر.

على وجه التحديد ، هذا موقع ويب يقوم بنشر تدريبات على نمط CrossFit يوميًا ، ولكن واحد فقط في اليوم. يمكننا بناء مكشطة لدينا للحصول على التمرين كل يوم ، ثم إضافته إلى قائمة تجميع التدريبات. في الأساس ، يمكننا إنشاء قاعدة بيانات تاريخية قائمة على النصوص من التدريبات التي يمكننا البحث فيها بسهولة.

سحر BeaufiulSoup هو القدرة على البحث في جميع أكواد HTML باستخدام دالة findAll () المدمجة. في هذه الحالة بالذات ، يستخدم موقع الويب العديد من علامات "sqs-block-content". لذلك ، يحتاج البرنامج النصي إلى تنفيذ كل هذه العلامات وإيجاد العلامة المميزة لنا.

بالإضافة إلى ذلك ، هناك عدد من

العلامات في القسم. يمكن للبرنامج النصي إضافة كل النص من كل من هذه العلامات إلى متغير محلي. للقيام بذلك ، أضف حلقة بسيطة إلى البرنامج النصي:

بالنسبة div_class في soup.findAll ('div' ، {'class': 'sqs-block-content'}): recordThis = False for p in div_class.findAll ('p'): if 'PROGRAM' في p.text.upper (): recordThis = صواب إذا recordThis: program + = p.text برنامج + = '\ n'

هاهو! ولد مكشطة الويب.

توسيع نطاق القشط

يوجد طريقان للمضي قدما.

طريقة واحدة لاستكشاف تجريف الويب هي استخدام الأدوات التي تم إنشاؤها بالفعل. مكشطة الويب (اسم كبير!) لديه 200000 مستخدم وسهل الاستخدام. أيضا، تحليل المحور يسمح للمستخدمين بتصدير البيانات المحشورة إلى Excel و Google Sheets.

بالإضافة إلى ذلك ، يوفر مكشطة ويب Chrome plug-in التي تساعد على تصور كيفية بناء موقع على شبكة الإنترنت. أفضل للجميع ، إذا حكمنا من خلال الاسم ، هو OctoParse، مكشطة قوية مع واجهة سهلة الاستخدام.

أخيرًا ، بعد أن تعرف الآن خلفية تجريف الويب ، قم برفع مكشطة الويب الصغيرة الخاصة بك لتتمكن من ذلك الزحف والتشغيل كيفية بناء الزاحف ويب الأساسية لسحب المعلومات من موقع على شبكة الإنترنتفي أي وقت أراد لالتقاط المعلومات من موقع على شبكة الإنترنت؟ إليك كيفية كتابة متتبع ارتباطات للتنقل في موقع ويب واستخراج ما تحتاجه. اقرأ أكثر من تلقاء نفسه هو مسعى متعة.

توم هو مهندس برمجيات من ولاية فلوريدا (يصرخ إلى رجل فلوريدا) ولديه شغف بالكتابة وكرة القدم الجامعية (اذهب إلى Gators!) و CrossFit و Oxford.