غالبًا ما تكون البيانات غير الكافية أحد العوائق الرئيسية لمعظم مشاريع علوم البيانات. ومع ذلك ، فإن معرفة كيفية جمع البيانات لأي مشروع تريد الشروع فيه هي مهارة مهمة تحتاج إلى اكتسابها كعالم بيانات.
يستخدم علماء البيانات ومهندسو التعلم الآلي الآن تقنيات جمع البيانات الحديثة للحصول على المزيد من البيانات لخوارزميات التدريب. إذا كنت تخطط للشروع في مشروعك الأول لعلم البيانات أو التعلم الآلي ، فيجب أن تكون قادرًا على الحصول على البيانات أيضًا.
كيف يمكنك تسهيل العملية على نفسك؟ دعنا نلقي نظرة على بعض التقنيات الحديثة التي يمكنك استخدامها لجمع البيانات.
لماذا تحتاج إلى المزيد من البيانات لمشروع علوم البيانات الخاص بك
تعتمد خوارزميات التعلم الآلي على البيانات لتصبح أكثر دقة ودقة وتوقعًا. يتم تدريب هذه الخوارزميات باستخدام مجموعات من البيانات. تشبه عملية التدريب إلى حد ما تعليم الطفل اسم كائن لأول مرة ، ثم السماح له بتحديده بمفرده عندما يراه في المرة التالية.
يحتاج البشر إلى بعض الأمثلة فقط للتعرف على كائن جديد. هذا ليس كذلك بالنسبة للآلة ، لأنها تحتاج إلى مئات أو آلاف من الأمثلة المتشابهة لتتعرف على شيء ما.
يجب أن تأتي هذه الأمثلة أو كائنات التدريب في شكل بيانات. ثم تعمل خوارزمية مخصصة لتعلم الآلة من خلال تلك المجموعة من البيانات التي تسمى مجموعة التدريب - وتتعلم المزيد عنها لتصبح أكثر دقة.
هذا يعني أنك إذا فشلت في توفير بيانات كافية لتدريب الخوارزمية الخاصة بك ، فقد لا تحصل على النتيجة الصحيحة في نهاية مشروعك لأن الجهاز ليس لديه بيانات كافية للتعلم منها.
لذلك ، من الضروري الحصول على بيانات كافية لتحسين دقة نتيجتك. دعونا نرى بعض الاستراتيجيات الحديثة التي يمكنك استخدامها لتحقيق ذلك أدناه.
1. كشط البيانات مباشرة من صفحة ويب
تجريف الويب هو طريقة آلية للحصول على البيانات من الويب. في أبسط أشكاله ، قد يتضمن تجريف الويب نسخ العناصر ولصقها على موقع ويب في ملف محلي.
ومع ذلك ، يتضمن تجريف الويب أيضًا كتابة نصوص خاصة أو استخدام أدوات مخصصة لكشط البيانات من صفحة ويب مباشرة. يمكن أن يشمل أيضًا المزيد من جمع البيانات المتعمقة باستخدام واجهات برمجة التطبيقات (APIs) مثل Serpstack.
باستخدام Serpstack API ، يمكنك بسهولة جمع المعلومات من صفحات نتائج Google ومحركات البحث الأخرى.
على الرغم من أن بعض الأشخاص يعتقدون أن تجريف الويب يمكن أن يؤدي إلى فقدان الملكية الفكرية ، إلا أن ذلك لا يحدث إلا عندما يقوم الأشخاص بذلك بشكل ضار. يعد تجريف الويب أمرًا قانونيًا ويساعد الشركات على اتخاذ قرارات أفضل من خلال جمع المعلومات العامة عن عملائها ومنافسيها.
متعلق ب: ما هو تجريف الويب؟ كيفية جمع البيانات من المواقع الإلكترونية
على سبيل المثال ، يمكنك كتابة برنامج نصي لجمع البيانات من المتاجر عبر الإنترنت لمقارنة الأسعار والتوافر. على الرغم من أنه قد يكون أكثر تقنية قليلاً ، إلا أنه يمكنك جمع الوسائط الأولية مثل الملفات الصوتية والصور عبر الويب أيضًا.
ألق نظرة على مثال الكود أدناه للحصول على لمحة عن تجريف الويب باستخدام Python جميل مكتبة محلل HTML.
من bs4 استيراد BeautifulSoup
من urllib.request import urlopen
url = "أدخل عنوان URL الكامل لصفحة الويب المستهدفة هنا"
targetPage = urlopen (url)
htmlReader = targetPage.read (). فك الشفرة ("utf-8")
webData = BeautifulSoup (htmlReader، "html.parser")
طباعة (webData.get_text ())
قبل تشغيل رمز المثال ، ستحتاج إلى تثبيت المكتبة. خلق بيئة افتراضية من سطر الأوامر وقم بتثبيت المكتبة عن طريق التشغيل نقطة تثبيت beautifulsoup4.
2. عبر نماذج الويب
يمكنك أيضًا الاستفادة من النماذج عبر الإنترنت لجمع البيانات. يكون هذا مفيدًا للغاية عندما يكون لديك مجموعة مستهدفة من الأشخاص الذين ترغب في جمع البيانات منهم.
من عيوب إرسال نماذج الويب أنك قد لا تجمع الكثير من البيانات كما تريد. إنه مفيد جدًا لمشاريع علوم البيانات الصغيرة أو البرامج التعليمية ، ولكن قد تواجه قيودًا في محاولة الوصول إلى أعداد كبيرة من الأشخاص المجهولين.
على الرغم من وجود خدمات جمع البيانات المدفوعة عبر الإنترنت ، إلا أنه لا يوصى بها للأفراد ، حيث إنها في الغالب باهظة الثمن - إلا إذا كنت لا تمانع في إنفاق بعض المال على المشروع.
هناك العديد من نماذج الويب لجمع البيانات من الأشخاص. أحدها هو Google Forms ، والذي يمكنك الوصول إليه بالذهاب إلى Forms.google.com. أنت تستطيع استخدم نماذج Google لجمع معلومات الاتصالوالبيانات الديموغرافية والتفاصيل الشخصية الأخرى.
بمجرد إنشاء نموذج ، كل ما عليك فعله هو إرسال الرابط إلى جمهورك المستهدف عبر البريد أو الرسائل القصيرة أو أي وسيلة متاحة.
ومع ذلك ، فإن نماذج Google ليست سوى مثال واحد على نماذج الويب الشائعة. هناك العديد من البدائل التي تقوم بوظائف جمع البيانات الممتازة أيضًا.
يمكنك أيضًا جمع البيانات عبر وسائل التواصل الاجتماعي مثل Facebook و LinkedIn و Instagram و Twitter. يعد الحصول على البيانات من وسائل التواصل الاجتماعي أكثر تقنية من أي طريقة أخرى. إنها آلية بالكامل وتتضمن استخدام أدوات API مختلفة.
قد يكون من الصعب استخراج البيانات من وسائل التواصل الاجتماعي لأنها غير منظمة نسبيًا وهناك قدر هائل منها. منظم بشكل صحيح ، يمكن أن يكون هذا النوع من مجموعات البيانات مفيدًا في مشاريع علوم البيانات التي تتضمن تحليل المشاعر عبر الإنترنت وتحليل اتجاهات السوق والعلامات التجارية عبر الإنترنت
على سبيل المثال ، يعد Twitter مثالاً على مصدر بيانات الوسائط الاجتماعية حيث يمكنك جمع كمية كبيرة من مجموعات البيانات باستخدامها مبتذل حزمة Python API ، والتي يمكنك تثبيتها باستخدام ملف نقطة تثبيت tweepy يأمر.
للحصول على مثال أساسي ، تبدو كتلة التعليمات البرمجية لاستخراج تغريدات صفحة Twitter الرئيسية كما يلي:
استيراد tweepy
إعادة الاستيراد
myAuth = مبتذل. OAuthHandler (الصق Consumer_key هنا ، والصق مفتاح Consumer_secret هنا)
auth.set_access_token (الصق access_token هنا ، الصق access_token_secret هنا)
المصادقة = tweepy. API (myAuth)
target_tweet = api.home_timeline ()
للأهداف في target_tweet:
طباعة (target.text)
يمكنك زيارة docs.tweepy.org موقع للوصول إلى مبتذل وثائق لمزيد من التفاصيل حول كيفية استخدامه. لاستخدام واجهة برمجة تطبيقات Twitter ، تحتاج إلى تقديم طلب للحصول على حساب مطور من خلال التوجه إلى developer.twitter.com موقع الكتروني.
Facebook هو منصة وسائط اجتماعية قوية أخرى لجمع البيانات. يستخدم نقطة نهاية خاصة لواجهة برمجة التطبيقات تسمى Facebook Graph API. تسمح واجهة برمجة التطبيقات هذه للمطورين بجمع بيانات حول سلوكيات مستخدمين محددين على منصة Facebook. يمكنك الوصول إلى وثائق Facebook Graph API على Developers.facebook.com لمعرفة المزيد عنها.
إن الشرح التفصيلي لجمع بيانات الوسائط الاجتماعية باستخدام واجهة برمجة التطبيقات خارج نطاق هذه المقالة. إذا كنت مهتمًا بمعرفة المزيد ، يمكنك التحقق من وثائق كل نظام أساسي للحصول على معرفة متعمقة عنها.
بالإضافة إلى كتابة البرامج النصية للاتصال بنقطة نهاية واجهة برمجة التطبيقات ، فإن بيانات الوسائط الاجتماعية التي تجمع أدوات الجهات الخارجية مثل خبير القشط والعديد من الآخرين متاحون أيضًا. ومع ذلك ، فإن معظم أدوات الويب هذه لها ثمن.
4. جمع مجموعات البيانات الموجودة مسبقًا من المصادر الرسمية
يمكنك أيضًا جمع مجموعات البيانات الموجودة مسبقًا من مصادر موثوقة أيضًا. تتضمن هذه الطريقة زيارة بنوك البيانات الرسمية وتنزيل مجموعات البيانات التي تم التحقق منها منها. على عكس تجريف الويب والخيارات الأخرى ، فإن هذا الخيار أسرع ويتطلب القليل من المعرفة التقنية أو لا يتطلب على الإطلاق.
عادةً ما تكون مجموعات البيانات الموجودة في هذه الأنواع من المصادر متاحة بتنسيقات CSV أو JSON أو HTML أو Excel. بعض الأمثلة على مصادر البيانات الموثوقة هي بنك عالمي, UNdataوعدة آخرين.
قد تجعل بعض مصادر البيانات البيانات الحالية خاصة لمنع الجمهور من الوصول إليها. ومع ذلك ، فإن أرشيفاتهم متاحة للتنزيل بشكل متكرر.
المزيد من مصادر مجموعات البيانات الرسمية لمشروع التعلم الآلي الخاص بك
يجب أن تمنحك هذه القائمة نقطة بداية جيدة للحصول على أنواع مختلفة من البيانات للعمل معها في مشاريعك.
- بوابة البيانات المفتوحة للاتحاد الأوروبي
- مجموعات بيانات Kaggle
- بحث Google Dataset
- مركز البيانات
- سجل البيانات المفتوحة على AWS
- وكالة الحكومة الأوروبية - البيانات والخرائط
- مايكروسوفت للبحوث البيانات المفتوحة
- مستودع مجموعات البيانات العامة الرائع على جيثب
- البيانات. الحكومة: موطن البيانات المفتوحة لحكومة الولايات المتحدة
هناك العديد من المصادر أكثر من ذلك ، وسوف يكافئك البحث الدقيق ببيانات مثالية لمشاريع علوم البيانات الخاصة بك.
اجمع بين هذه الأساليب الحديثة للحصول على نتائج أفضل
يمكن أن يكون جمع البيانات مملاً عندما تكون الأدوات المتاحة للمهمة محدودة أو يصعب فهمها. في حين أن الأساليب القديمة والتقليدية لا تزال تعمل بشكل جيد ولا يمكن تجنبها في بعض الحالات ، فإن الأساليب الحديثة أسرع وأكثر موثوقية.
ومع ذلك ، بدلاً من الاعتماد على طريقة واحدة ، فإن الجمع بين هذه الطرق الحديثة لجمع البيانات الخاصة بك لديه القدرة على تحقيق نتائج أفضل.
تبحث للدخول في تحليلات البيانات؟ إليك بعض الأدوات التي يجب أن تتعلمها.
- برمجة
- بايثون
- البيانات الكبيرة
- التعلم الالي
- تجميع البيانات
- تحليل البيانات
Idowu شغوف بأي شيء التكنولوجيا الذكية والإنتاجية. في أوقات فراغه ، يلعب بالبرمجة ويتحول إلى رقعة الشطرنج عندما يشعر بالملل ، لكنه أيضًا يحب الابتعاد عن الروتين بين الحين والآخر. يحفزه شغفه بإظهار طريقة حول التكنولوجيا الحديثة للناس على كتابة المزيد.
اشترك في نشرتنا الإخبارية
انضم إلى النشرة الإخبارية الخاصة بنا للحصول على نصائح تقنية ومراجعات وكتب إلكترونية مجانية وصفقات حصرية!
خطوة أخرى أيضا…!
يرجى تأكيد عنوان بريدك الإلكتروني في البريد الإلكتروني الذي أرسلناه لك للتو.