استفد من مكتبة PandasAI Python للاستفادة من قوة الذكاء الاصطناعي ونماذج اللغة الكبيرة لأداء مهام تحليل البيانات.

Pandas هي المكتبة الأكثر انتشارًا لمعالجة مجموعات البيانات وأطر البيانات. كان هذا هو المعيار لفترة طويلة. ولكن مع التقدم في الذكاء الاصطناعي ، تم تطوير مكتبة جديدة مفتوحة المصدر تسمى PandasAI والتي تضيف قدرات الذكاء الاصطناعي التوليدية إلى Pandas.

PandasAI لا تحل محل Pandas. بدلاً من ذلك ، فإنه يعطي قدرات الذكاء الاصطناعي التوليدية. بهذه الطريقة ، يمكنك إجراء تحليل البيانات من خلال الدردشة مع PandasAI. ثم يقوم بتلخيص ما يحدث في الخلفية ويزودك بمخرجات استعلامك.

تثبيت PandasAI

الباندا متاح عبر PyPI (فهرس حزمة Python). خلق بيئة افتراضية جديدة إذا كنت تستخدم IDE محلي. ثم استخدم مدير حزمة النقطة لتثبيته.

نقطة تثبيت pandasai

قد تواجه خطأ تعارض تبعية مشابه للخطأ الموضح أدناه إذا كنت تستخدم Google Colab.

لا تقم بالرجوع إلى إصدار أقدم من إصدار IPython. ما عليك سوى إعادة تشغيل وقت التشغيل وتشغيل كتلة التعليمات البرمجية مرة أخرى. هذا سوف يحل المشكلة.

كود المصدر الكامل متاح في ملف مستودع جيثب.

instagram viewer

فهم نموذج مجموعة البيانات

مجموعة البيانات النموذجية التي ستتعامل معها مع PandasAI هي مجموعة بيانات أسعار الإسكان في كاليفورنيا من Kaggle. تحتوي مجموعة البيانات هذه على معلومات حول الإسكان من تعداد كاليفورنيا لعام 1990. يحتوي على عشرة أعمدة تقدم إحصائيات عن هذه المنازل. بطاقة البيانات التي تساعدك على معرفة المزيد حول مجموعة البيانات هذه متوفرة على Kaggle. فيما يلي الصفوف الخمسة الأولى من مجموعة البيانات.

يمثل كل عمود إحصائية واحدة للمنزل.

ربط PandasAI بنموذج اللغة الكبير

لتوصيل PandasAI بملف نموذج لغة كبير (LLM) مثل OpenAI ، تحتاج إلى الوصول إلى مفتاح API الخاص به. للحصول على واحدة ، انتقل إلى منصة OpenAI. ثم قم بتسجيل الدخول إلى حسابك. يختار API تحت صفحة الخيارات التي تظهر بعد ذلك.

بعد ذلك ، انقر فوق ملف التعريف الخاص بك وحدد ملف عرض مفاتيح API خيار. في الصفحة التي تظهر بعد ذلك انقر فوق إنشاء مفتاح سري جديد زر. أخيرًا ، قم بتسمية مفتاح API الخاص بك.

سيقوم OpenAI بإنشاء مفتاح API الخاص بك. انسخه كما ستحتاج إليه أثناء توصيل PandasAI بـ OpenAI. تأكد من الاحتفاظ بالسرية الرئيسية حيث يمكن لأي شخص لديه حق الوصول إليه إجراء مكالمات إلى OpenAI نيابة عنك. سيقوم OpenAI بعد ذلك بشحن حسابك مقابل المكالمات.

الآن بعد أن أصبح لديك مفتاح API ، أنشئ نصًا برمجيًا جديدًا من Python والصق الكود أدناه. لن تحتاج إلى تغيير هذا الرمز لأنك ستبني عليه في معظم الأوقات.

يستورد الباندا مثل pd
من بانداساي يستورد الباندا

# استبدل بمجموعة البيانات أو إطار البيانات
df = pd.read_csv ("/content/housing.csv")

# إنشاء ماجستير
من pandasai.llm.openai يستورد أوبن إيه آي
llm = OpenAI (api_token ="رمز API المميز الخاص بك")

pandas_ai = بانداساي (llm)

يستورد الكود أعلاه كلاً من PandasAI و Pandas. ثم يقرأ مجموعة البيانات. أخيرًا ، يقوم بتجسيد OpenAI LLM.

أنت الآن جاهز للتحدث مع بياناتك.

أداء مهام بسيطة باستخدام PandasAI

للاستعلام عن البيانات الخاصة بك ، قم بتمرير إطار البيانات الخاص بك والموجه الخاص بك إلى مثيل فئة PandasAI. ابدأ بطباعة الصفوف الخمسة الأولى من مجموعة البيانات الخاصة بك.

pandas_ai (مدافع ، موجه ="ما هي الصفوف الخمسة الأولى من مجموعة البيانات؟")

ناتج الموجه أعلاه هو كما يلي:

هذا الإخراج مطابق لإخراج نظرة عامة على مجموعة البيانات سابقًا. هذا يدل على أن PandasAI تنتج نتائج صحيحة ويمكن الاعتماد عليها.

بعد ذلك ، تحقق من عدد الأعمدة الموجودة في مجموعة البيانات الخاصة بك.

pandas_ai (مدافع ، موجه ="كم عدد الأعمدة في مجموعة البيانات؟ ')

تقوم بإرجاع 10 وهو العدد الصحيح للأعمدة في مجموعة بيانات California Housing.

التحقق مما إذا كانت هناك قيم مفقودة في مجموعة البيانات.

pandas_ai (مدافع ، موجه ="هل هناك أي قيم مفقودة في مجموعة البيانات؟")

تعيد PandasAI أن ملف مجموع غرف النوم يحتوي العمود على 207 قيمة مفقودة ، وهذا صحيح مرة أخرى.

هناك الكثير من المهام البسيطة التي يمكنك تحقيقها باستخدام PandasAI ، فأنت لست مقيدًا بالمهام المذكورة أعلاه.

إجراء استعلامات معقدة باستخدام PandasAI

لا تدعم PandasAI المهام البسيطة فقط. يمكنك أيضًا استخدامه لتنفيذ استعلامات معقدة في مجموعة البيانات. على سبيل المثال ، في مجموعة بيانات الإسكان ، إذا كنت تريد تحديد عدد المنازل الموجودة في ملف الجزيرة ، وتبلغ قيمتها أكثر من 100000 دولار ، ولديها أكثر من 10 غرف يمكنك استخدام موجه أقل.

pandas_ai (مدافع ، موجه = "كم عدد المنازل التي تزيد قيمتها عن 100000" ،
"في جزيرة ومجموع غرف النوم أكثر من 10؟")

الناتج الصحيح هو خمسة. هذه هي نفس النتيجة التي خرجت بها PandasAI.

قد تستغرق الاستعلامات المعقدة محلل بيانات بعض الوقت للكتابة والتصحيح. يتطلب الموجه أعلاه سطرين فقط من اللغة الطبيعية لإنجاز نفس المهمة. ما عليك سوى أن تضع في اعتبارك بالضبط ما تريد تحقيقه ، وستتكفل PandasAI بالباقي.

رسم المخططات باستخدام PandasAI

تعد المخططات جزءًا حيويًا من أي عملية تحليل بيانات. يساعد محللي البيانات على تصور البيانات بطريقة صديقة للإنسان. يحتوي PandasAI أيضًا على ميزة رسم المخطط. عليك فقط تمرير إطار البيانات والتعليمات.

ابدأ بإنشاء رسم بياني لكل عمود في مجموعة البيانات. سيساعدك هذا على تصور توزيع المتغيرات.

pandas_ai (مدافع ، موجه = "ارسم مدرجًا تكراريًا لكل عمود في مجموعة البيانات")

الإخراج كالتالي:

كان PandasAI قادرًا على رسم الرسم البياني لجميع الأعمدة دون الحاجة إلى تمرير أسمائهم في الموجه.

يمكن لـ PandasAI أيضًا رسم المخططات دون إخبارها صراحةً بأي مخطط يجب استخدامه. على سبيل المثال ، قد ترغب في معرفة ارتباط البيانات في مجموعة بيانات الإسكان. لتحقيق ذلك ، يمكنك تمرير مطالبة على النحو التالي:

pandas_ai (مدافع ، موجه = "ارسم الارتباط في مجموعة البيانات")

يرسم PandasAI مصفوفة ارتباط كما هو موضح أدناه:

تختار المكتبة خريطة حرارية وترسم مصفوفة ارتباط.

تمرير إطارات بيانات متعددة إلى مثيل PandasAI

قد يكون العمل مع إطارات بيانات متعددة أمرًا صعبًا. خاصة بالنسبة لشخص جديد في تحليل البيانات. تسد PandasAI هذه الفجوة لأن كل ما عليك فعله هو تمرير كل من إطارات البيانات والبدء في استخدام المطالبات لمعالجة البيانات.

قم بإنشاء إطارين للبيانات باستخدام Pandas.

staff_data = {
'هوية الموظف': [1, 2, 3, 4, 5],
'اسم': ['جون', "إيما", "ليام", أوليفيا, "ويليام"],
'قسم': ['HR', 'مبيعات', 'هو - هي', 'تسويق', 'تمويل']
}

الرواتب = {
'هوية الموظف': [1, 2, 3, 4, 5],
'مرتب': [5000, 6000, 4500, 7000, 5500]
}

staff_df = pd. DataFrame (Employers_data)
salaries_df = pd. DataFrame (الرواتب_بيانات)

يمكنك أن تطرح على PandasAI سؤالاً يشمل كل من إطارات البيانات. ما عليك سوى تمرير كلا إطاري البيانات إلى مثيل PandasAI.

pandas_ai ([staff_df، salaries_df]، "أي موظف لديه راتب أكبر؟")

يعود أوليفيا وهو الجواب الصحيح مرة أخرى.

لم يكن إجراء تحليل البيانات أسهل من أي وقت مضى ، يتيح لك PandasAI الدردشة مع بياناتك وتحليلها بسهولة.

فهم التكنولوجيا التي تمد PandasAI

يبسط PandasAI عملية تحليل البيانات وبالتالي يوفر الكثير من الوقت لمحللي البيانات. لكنها تلخص ما يحدث في الخلفية. تحتاج إلى التعرف على الذكاء الاصطناعي التوليدي حتى تتمكن من الحصول على نظرة عامة حول كيفية عمل PandasAI تحت الغطاء. سيساعدك هذا أيضًا على مواكبة أحدث الابتكارات في مجال الذكاء الاصطناعي التوليدي.