Instagram هو أحد أشهر مواقع التواصل الاجتماعي مع مليارات المستخدمين. كل شخص من الطلاب إلى المشاهير لديه حسابات على Instagram. يمكن أن تكون البيانات العامة من Instagram ذات قيمة هائلة للشركات والمسوقين والأفراد. يمكن لأي شخص استخدام هذه البيانات لإجراء تحليل البيانات والتسويق المستهدف وإنشاء الرؤى.
يمكنك استخدام Python لإنشاء أداة آلية تستخرج بيانات Instagram.
تثبيت المكتبات المطلوبة
المثبت هي مكتبة Python يمكنك استخدامها لاستخراج البيانات المتاحة للجمهور من Instagram. يمكنك الوصول إلى البيانات مثل الصور ومقاطع الفيديو واسم المستخدم ، لا. عدد المشاركات وعدد المتابعين وعدد المتابعين والسيرة الذاتية وما إلى ذلك. باستخدام Instaloader. لاحظ أن أداة تحميل Instaloader ليست تابعة لـ Instagram أو مصرح بها أو صيانتها أو معتمدة من قبل Instagram بأي شكل من الأشكال.
لتثبيت أداة التثبيت عبر نقطة ، قم بتشغيل الأمر التالي:
نقطة ثَبَّتَ instaloader
يجب أن تمتلك نقطة مثبتة على نظامك لتثبيت مكتبات Python الخارجية.
بعد ذلك ، تحتاج إلى تثبيت مكتبة Pandas Python. Pandas هي مكتبة Python تُستخدم بشكل أساسي لإجراء معالجة البيانات وتحليل البيانات. قم بتشغيل الأمر التالي لتثبيته:
نقطة ثَبَّتَ الباندا
أنت الآن جاهز لبدء إعداد الكود وجلب البيانات من Instagram.
إعداد التعليمات البرمجية الخاصة بك
لإعداد أداة جلب بيانات Instagram ، تحتاج إلى استيراد مكتبة Instaloader Python وإنشاء مثيل لفئة Instaloader. بعد ذلك ، تحتاج إلى توفير مقبض Instagram للملف الشخصي الذي تريد استخراج البيانات منه.
كود Instagram Extractor Python متاح في ملف مستودع جيثب وهو مجاني لك لاستخدامه بموجب ترخيص MIT.
يستورد instaloader
# إنشاء مثيل لفئة Instaloader
bot = أداة تحميل التثبيت. أداة التحميل ()
# تحميل ملف التعريف من مقبض Instagram
الملف الشخصي = instaloader. Profile.from_username (bot.context ، 'كريستيانو')
مطبعة(حساب تعريفي)
هذه خطوة أولى جيدة للتحقق من عمل الأساسيات. يجب أن ترى بعض البيانات ذات المعنى بدون أخطاء:
استخراج البيانات من الملف الشخصي
يمكنك استخراج البيانات القيمة المتاحة للجمهور مثل اسم المستخدم ، لا. من المنشورات ، وعدد المتابعين ، وعدد المتابعين ، والسيرة الذاتية ، ومعرف المستخدم ، وعنوان URL الخارجي باستخدام Instaloader ببضعة سطور من التعليمات البرمجية. ما عليك سوى تقديم معالج Instagram للملف الشخصي.
يستورد instaloader
يستورد الباندا مثل pd# إنشاء مثيل لفئة Instaloader
bot = أداة تحميل التثبيت. أداة التحميل ()
# تحميل ملف تعريف من مقبض Instagram
الملف الشخصي = instaloader. Profile.from_username (bot.context ، 'ليو ميسي')
مطبعة("اسم المستخدم: "و profile.username)
مطبعة("معرف المستخدم: "و profile.userid)
مطبعة("عدد المنشورات: "و profile.mediacount)
مطبعة("عدد المتابعين: "و profile.followers)
مطبعة("عدد المتابعين: "و profile.followees)
مطبعة("السيرة الذاتية: "، الملف الشخصي.
مطبعة("URL خارجي: "و profile.external_url)
من المفترض أن ترى الكثير من معلومات الملف الشخصي من المقبض الذي تحدده:
استخراج رسائل البريد الإلكتروني من السيرة الذاتية
يمكنك استخراج عناوين البريد الإلكتروني من Insta bio لأي ملف تعريف باستخدام التعبيرات العادية. تحتاج إلى استيراد ملف Python يكرر Library وتمرير التعبير العادي للتحقق من صحة البريد الإلكتروني كمعامل إلى re.findall () طريقة:
يستورد instaloader
يستورد يكرر
# إنشاء مثيل لفئة Instaloader
bot = أداة تحميل التثبيت. أداة التحميل ()
الملف الشخصي = instaloader. Profile.from_username (bot.context ، "ثروة")
مطبعة("اسم المستخدم: "و profile.username)
مطبعة("السيرة الذاتية: "، الملف الشخصي.
البريد الإلكتروني = re.findall (r"\ b [A-Za-z0-9 ._٪ + -] + @ [A-Za-z0-9 .-] + \. [A-Z | a-z] {2،} \ b"، الملف الشخصي.
طباعة ("رسائل البريد الإلكتروني المستخرجة من السيرة الذاتية: ")
مطبعة(بريد إلكتروني)
سيطبع البرنامج النصي أي شيء يتعرف عليه كعنوان بريد إلكتروني في السيرة الذاتية:
استخراج بيانات أهم نتائج البحث
عندما تبحث عن أي شيء على Instagram ، تحصل على العديد من النتائج بما في ذلك أسماء المستخدمين وعلامات التصنيف. يمكنك استخراج أهم نتائج البحث باستخدام امتداد get_profiles () و get_hashtags () طُرق. ما عليك سوى تقديم استعلام البحث بتنسيق instaloader. النتائج () طريقة. علاوة على ذلك ، يمكنك تكرار وطباعة / تخزين النتائج الفردية.
يستورد instaloader
# إنشاء مثيل لفئة Instaloader
bot = أداة تحميل التثبيت. أداة التحميل ()# قدم استعلام البحث هنا
search_results = أداة تحميل التثبيت. TopSearchResults (bot.context ، 'موسيقى')# التكرار على أسماء المستخدمين المستخرجة
لاسم المستخدمفينتائج البحث.get_profiles():
مطبعة(اسم المستخدم)
# التكرار فوق علامات التجزئة المستخرجة
لالوسمفينتائج البحث.get_hashtags():
مطبعة(الوسم)
سيتضمن الإخراج أي أسماء مستخدمين وعلامات تصنيف متطابقة:
استخراج المتابعين والمتابعين من حساب
يمكنك استخراج متابعين الحساب ، والذين يتبعونه ، باستخدام Instaloader. ستحتاج إلى توفير اسم مستخدم وكلمة مرور Instagram لاسترداد هذه البيانات.
لا تستخدم حساباتك الشخصية مطلقًا لاستخراج البيانات من Instagram حيث قد يتم حظر حسابك بشكل مؤقت أو دائم.
بعد إنشاء مثيل لفئة Instaloader ، تحتاج إلى تقديم اسم المستخدم وكلمة المرور الخاصين بك. هذا حتى يتمكن الروبوت من تسجيل الدخول إلى Instagram باستخدام حسابك وجلب بيانات المتابعين والمتابعين.
بعد ذلك ، تحتاج إلى توفير مقبض Instagram للملف الشخصي الهدف. ال get_followers () و get_followees () طرق استخراج المتابعين والمتابعين. يمكنك الحصول على أسماء مستخدمي المتابعين والمتابعين باستخدام اسم المستخدم و اسم المستخدم خصائص على التوالي.
إذا كنت تريد تخزين النتائج في ملف CSV ، فأنت بحاجة أولاً إلى تحويل البيانات إلى كائن Pandas DataFrame. استخدم ال pd. إطار البيانات () طريقة لتحويل كائن قائمة إلى DataFrame.
أخيرًا ، يمكنك تصدير كائن DataFrame إلى ملف CSV باستخدام امتداد to_csv () طريقة. تحتاج إلى تمرير filename.csv كمعامل لهذه الطريقة للحصول على البيانات المصدرة في تنسيق ملف CSV.
يمكن لأصحاب الحساب فقط رؤية جميع المتابعين والمتابعين. لن تتمكن من استخراج جميع بيانات المتابعين والمتابعين باستخدام هذه الطريقة أو أي طريقة أخرى.
# استيراد المكتبات
يستورد instaloader
يستورد الباندا مثل pd# إنشاء مثيل لفئة Instaloader
bot = أداة تحميل التثبيت. أداة التحميل ()
bot.login (المستخدم ="اسم المستخدم الخاص بك"، passwd ="كلمة السر خاصتك")# تحميل ملف تعريف من مقبض Instagram
الملف الشخصي = instaloader. Profile.from_username (bot.context ، 'Your_target_account_insta_handle')# استرجاع أسماء المستخدمين لجميع المتابعين
المتابعون = [follower.username للمتابعين في profile.get_followers ()]# تحويل البيانات إلى DataFrame
Followers_df = pd. DataFrame (المتابعون)# تخزين النتائج في ملف CSV
Followers_df.to_csv ('Followers.csv'، الفهرس = خطأ)# استرجاع أسماء المستخدمين لكل ما يلي
Followings = [followee.username for followee in profile.get_followees ()]# تحويل البيانات إلى DataFrame
Followings_df = pd. DataFrame (متابع)
# تخزين النتائج في ملف CSV
followings_df.to_csv ('followings.csv'، الفهرس = خطأ)
قم بتنزيل المنشورات من حساب Instagram
مرة أخرى ، لتنزيل المنشورات من أي حساب ، ستحتاج إلى تقديم اسم مستخدم وكلمة مرور. هذا حتى يتمكن الروبوت من تسجيل الدخول إلى Instagram باستخدام حسابك. يمكنك استرداد جميع بيانات المنشورات باستخدام امتداد get_posts () طريقة. ويمكنك تكرار جميع المنشورات الفردية وتنزيلها باستخدام ملف download_post () طريقة.
# استيراد المكتبات
يستورد instaloader
يستورد الباندا مثل pd# إنشاء مثيل من فئة Instaloader
bot = أداة تحميل التثبيت. أداة التحميل ()
bot.login (المستخدم ="اسم المستخدم الخاص بك"، passwd ="كلمة السر خاصتك")# تحميل ملف تعريف من مقبض Instagram
الملف الشخصي = instaloader. Profile.from_username (bot.context ، 'Your_target_account_insta_handle')# استرجاع جميع المشاركات في كائن
المشاركات = profile.get_posts ()
# تكرار وتنزيل كل المنشورات الفردية
للفهرس ، النشر في تعداد (مشاركات ، 1):
bot.download_post (منشور ، هدف = f"{profile.username} _ {index}")
كشط الويب باستخدام بايثون
يعد تجريف البيانات أو تجريف الويب أحد أكثر الطرق شيوعًا لاستخراج المعلومات المفيدة من الويب. يمكنك استخدام البيانات التي تستخرجها للتسويق أو إنشاء المحتوى أو اتخاذ القرار.
Python هي اللغة المفضلة لكشط البيانات. تعمل المكتبات مثل BeautifulSoup و Scrapy و Pandas على تبسيط استخراج البيانات وتحليلها وتصورها.