Whisper من OpenAI هو حل جديد مدعوم بالذكاء الاصطناعي يمكنه تحويل صوتك إلى نص. أفضل ما في الأمر أنه يأتي بدون تكلفة.
ومع ذلك ، هناك مشكلة: التثبيت والاستخدام أكثر صعوبة من أداة Windows العادية. خاصة إذا كنت ترغب في استخدام نوى Tensor من Nvidia GPU لإعطائها دفعة جيدة.
لا تأكل ، رغم ذلك. لهذا نحن هنا! تابع القراءة لمعرفة كيفية تثبيته واستخدامه ، ولكن أيضًا ، إذا كنت تمتلك واحدًا ، حتى يستفيد Whisper من وحدة معالجة الرسومات Nvidia الخاصة بك.
ما هو الهمس OpenAI؟
ChatGPT هو كل الغضب هذه الأيام ، وقد رأينا بالفعل كيف يمكنك استخدام ChatGPT بواسطة OpenAI. ومع ذلك ، فهو ليس المشروع الوحيد المثير للاهتمام من قبل شركة OpenAI.
مدعوم من التعلم العميق والشبكات العصبية ، Whisper هو نظام معالجة لغة طبيعي يمكنه "فهم" الكلام وتحويله إلى نص. ولكنه أيضًا شيء خاص به ، حيث يجلس في مكانه الصحيح بين جميع الحلول المماثلة:
- Whisper هو حل للذكاء الاصطناعي "مدرب" على اللغة الطبيعية. لذا ، فإن فهم الكلام البشري "الطبيعي" أفضل من الحلول القديمة.
- لا يأتي Whisper بواجهة ، ولا يمكنه تسجيل الصوت. يمكن أن يأخذ الملفات الصوتية الموجودة والملفات النصية المخرجة فقط.
- نظرًا لأنه جيد في "فهم اللغة" ، يتمتع Whisper أيضًا بالقوة العظمى للترجمة الآلية في خطوة واحدة.
- Whisper ليست خدمة عبر الإنترنت ويمكن أن تعمل دون اتصال بالإنترنت تمامًا.
- إذا كان لديك Nvidia GPU (GTX970 أو أحدث) ، يمكن تشغيل Whisper في "وضع تسريع الأجهزة" لزيادة سرعته.
- ليس هناك شرط للتسجيل أو شراء ترخيص أو شراء اشتراك.
لماذا لا يتم دعم وحدات معالجة الرسومات AMD؟
لكي تكون وحدات معالجة الرسومات مفيدة لأكثر من الرسومات ، يجب أن تعمل كمعالجات قابلة للبرمجة بالكامل. لهذا السبب أنشأت Nvidia CUDA ، والتي تُعتبر رسميًا "منصة حوسبة متوازية ونموذج برمجة". لمعرفة المزيد حول CUDA والأجهزة ذات الصلة ("نوى CUDA") ، اقرأ مقالتنا حول ما هي نوى CUDA وكيف تعمل على تحسين ألعاب الكمبيوتر.
CUDA هي تقنية Nvidia مملوكة ، متوافقة فقط مع وحدات معالجة الرسومات Nvidia. أقرب البدائل لأجهزة AMD هي OpenCL و Radeon Compute Platform. لمعرفة المزيد حول كيفية مقارنة حلول كل شركة ، راجع مقالتنا على مقارنة بين وحدات حساب AMD. نوى Nvidia CUDA.
مقارنة بالبدائل ، تعتبر CUDA أكثر نضجًا وأداءً وأسهل في الاستخدام. وبالتالي ، فإن معظم المطورين يستهدفون CUDA فقط ، وهذا بدوره يعني أن برامجهم لا تستفيد إلا من ميزات الأجهزة على وحدات معالجة الرسومات Nvidia. وهذا يشمل Whisper.
كيفية تنزيل وتثبيت Whisper
لسوء الحظ ، Whisper ليس تطبيقًا مستقلاً يمكنك تنزيله وتثبيته وتشغيله. إنه يعتمد على برامج أخرى يجب تثبيتها أيضًا.
بالنسبة لنظام التشغيل Windows ، لإبقاء هذا الدليل بسيطًا ، سنستخدم Chocolatey على نطاق واسع لتثبيت معظم أجزاء البرامج الضرورية. تحقق من دليلنا على أسرع طريقة لتثبيت برامج Windows لمزيد من المعلومات حول Chocolatey.
بالنسبة إلى أنظمة التشغيل Linux و Mac ، يجب أن تكون عملية التثبيت (باستثناء متغير مسار Windows والملفات الدفعية سهلة الاستخدام التي سننشئها) متشابهة.
- لتثبيت واستخدام Whisper ، يجب أن يكون لديك بايثون وله PIP أداة مثبتة وإضافتها إلى متغير Windows "المسار". للحصول على معلومات حول ذلك ، تحقق من مقالتنا على كيفية تثبيت Python PIP على أنظمة التشغيل Windows و Mac و Linux.
- ثَبَّتَ FFMPEG من خلال Chocolatey بهذا الأمر:
أيضًا ، قم بتثبيت إصدار Python الخاص به باستخدام:شوكو ثَبَّتَ ffmpeg
نقطة 3 ثَبَّتَ بيثون ffmpeg
- أخيرًا ، قم بتثبيت Whisper من صفحة Github الخاصة به باستخدام:
تثبيت pip3 git + https://github.com/openai/whisper.git
الحصول على إصدار Whisper's CUDA-Enabled
على الرغم من أن Whisper لا يستخدم وحدات معالجة الرسومات Nvidia ، إلا أن ملف شعلة الحزمة التي تعتمد عليها تقدم نسخة مسرعة من CUDA. يمكن أن يساعد استخدام هذا بدلاً من الإصدار "العادي" Whisper على إكمال عمليات النسخ بشكل أسرع بمساعدة وحدة معالجة الرسومات Nvidia.
للحصول على Whisper ، استخدم نوى CUDA لوحدة معالجة الرسومات Nvidia:
- إذا كان لديك بالفعل إصدار "الفانيليا" من الشعلة مثبتًا ، فقم بإلغاء تثبيته وتطهير بقاياه باستخدام:
بمجرد الانتهاء من ذلك ، قم بمتابعته مع:نقطة 3 الغاء التثبيت شعلة
نقطة مخبأتطهير
- قم بتثبيت إصدار Torch's الذي يدعم CUDA مع:
نقطة 3 ثَبَّتَ torchvision torchaudio - فهرس إضافي- url https://download.pytorch.org/whl/cu117
- للتحقق مما إذا كان بإمكان Whisper استخدام Nvidia GPU ، استخدم:
يجب أن ترى (افتراضي: cuda) بدلاً من (افتراضي: وحدة المعالجة المركزية).همسة --مساعدة | findstr -i pytorch
ماذا تفعل إذا فشل تثبيت Torch
إذا واجهت خطأ "لم يتم العثور على إصدار" أثناء تثبيت torch ، فقد تحتاج إلى تثبيت إصدار أقدم من Python موازٍ لإصدارك الحالي.
استخدم هذا الأمر للقيام بذلك:
شوكو ثَبَّتَ الثعبان - الإصدار OLDER_VERSION - جنبًا إلى جنب
استبدل "OLDER_VERSION" بإصدار مثل 3.10.
بعد ذلك ، استخدم مسار الإصدار الثانوي لجميع أوامر Whisper "العامة" (على سبيل المثال ، "c: \ Python310 \ Scripts \ pip.exe" بدلاً من "pip" فقط).
كيف تسجل صوتك
يمكنك استخدام أي تطبيق تسجيل صوتي لتحويل صوتك إلى ملف WAV أو MP3. يتضمن Windows مثل هذا التطبيق - لمزيد من المعلومات حول ذلك ، راجع كيفية استخدام تطبيق Windows 10 Voice Recorder.
للحصول على خيار كامل الميزات ، جرب الجرأة. تعلم كيفية القيام بذلك مع دليلنا على كيفية استخدام Audacity لتسجيل الصوت على نظامي التشغيل Windows و Mac.
كيف تبدأ الكتابة مع الهمس
على الرغم من أن Whisper لا يأتي مع واجهة مستخدم رسومية سهلة الاستخدام ، إلا أن استخدامه بسيط للغاية.
لنفترض أن لدينا الملف أحدث ملاحظة. mp3 الذي يحتوي على الكلام باللغة اليونانية ، في مجلد ج: \ MyAudioFiles، وتريد ترجمتها إلى اللغة الإنجليزية وتحويلها إلى ملف نصي.
- نبدأ بالجري موجه الأمر أو بوويرشيل.
- نقوم "بتغيير الدليل" حيث يتم تخزين الملف الصوتي باستخدام هذا الأمر:
قرص مضغوط ج: \ MyAudioFiles
- نقوم بإطلاق Whisper في الملف باستخدام:
همسة--نموذجقاعدة--لغةغرام--مهمةيترجمأحدث ملاحظة.mp3
بمجرد المعالجة ، سيظهر الملف النصي (المسمى "LatestNote.mp3.txt") في نفس المجلد. افتحه في محرر نصي مثل المفكرة لعرض النص المترجم.
استخدمنا مثالًا للترجمة لأن النسخ باللغة الإنجليزية أكثر وضوحًا: ما عليك سوى "فقد" علامتي "--language" و "-task". وبالتالي ، بالنسبة للنسخ البسيط ، سيكون الأمر أعلاه:
همسة--نموذجقاعدةأحدث ملاحظة.mp3
علامة "النموذج" مطلوبة لأن Whisper يستخدم واحدًا من الخيارات المختلفة. دعنا نوسعها لمساعدتك في اختيار الأفضل لاحتياجاتك.
أي نموذج تختار؟
يقدم Whisper نماذج لغوية مختلفة. كلما كان النموذج أكبر ، زادت دقته ، ولكن أيضًا زادت متطلبات الأجهزة الخاصة به. هم:
- صغير الحجم.
- قاعدة.
- صغير.
- واسطة.
- كبير.
يجب أن يكون معظم الناطقين باللغة الإنجليزية على ما يرام مع صغير الحجم أو قاعدة عارضات ازياء. قد يرى المتحدثون غير الناطقين باللغة الإنجليزية نتائج أفضل مع نماذج أكبر ، مثل صغير و واسطة.
لاحظ ، مع ذلك ، أن النماذج المتوسطة والكبيرة تتطلب أكثر من 8 جيجا بايت من VRAM (أي "ذاكرة وحدة معالجة الرسومات الخاصة بك").
لتحديد واحد منهم ، حدد النموذج بعد مفتاح "--model" في الأمر:
همسة - نموذج صغير / صغير / متوسط / كبير [ملف]
على سبيل المثال:
همسة--نموذجصغيرMy_Voice_Note.mp3
كيفية تبسيط النسخ الخاص بك
الاضطرار إلى كتابة أمر Whisper بالكامل في كل مرة تريد فيها نسخ بعض الصوت يمكن أن يصبح مملًا بسرعة. لنقم بإنشاء ملف دفعي يمكن الوصول إليه عالميًا لتبسيط العملية.
- يجري مستكشف Windows وقم بزيارة محرك الأقراص C الخاص بك.
- قم بإنشاء مجلد للنصوص الخاصة بك ، وانسخ مساره إلى الحافظة.
- في قائمة "ابدأ" في نظام التشغيل Windows ، ابحث عن "المسار" وحدد قم بتحرير متغيرات بيئة النظام.
- أعثر على طريق متغير تحت متغيرات المستخدم لـ YOUR_USERNAME. انقر نقرًا مزدوجًا فوقه لتحريره. انقر فوق جديد، والصق المسار إلى مجلد البرامج النصية. انقر فوق نعم لقبول التغييرات.
- ارجع إلى مجلد البرامج النصية في مستكشف Windows. قم بإنشاء ملف دفعي جديد هناك باسم "wht.bat". "داخلها" ، ضع هذا الأمر:
همسة - نموذج صغير - لغة ar٪ 1
- قم بإنشاء اثنين من الملفات الدفعية ، "whs" و "whm".
- ضع هذا داخل النص الأول:
همسة - نموذج صغير - لغة ar٪ 1
- ضع هذا داخل الثانية:
همسة - نموذج متوسط - لغة ar٪ 1
تهانينا ، لديك الآن ثلاثة نصوص لاستخدام نماذج Whisper الصغيرة والصغيرة والمتوسطة بسهولة مع ملفاتك الصوتية! لتحويل أي ملف صوتي إلى نص:
- حدد موقع الملف بامتداد مستكشف ملفات Windows.
- انقر على اليمين في مكان فارغ واختيار افتح في Terminal.
- اكتب هذا الأمر ، واستبدل "wht" بـ "whs" أو "whm" لاستخدام نماذج اللغات الصغيرة أو المتوسطة:
whtYOUR_AUDIO_FILE.mp3
الكتابة بسرعة الصوت مع الهمس
حتى أسرع كاتبي الطباعة الذين يعملون باللمس لا يمكنهم مطابقة السرعة التي نتحدث بها. ومع ذلك ، حتى وقت قريب ، لم يكن التحدث بدلاً من الكتابة هو الأمثل لإنشاء المستندات.
أنتجت معظم حلول تحويل الصوت إلى نص نتائج متواضعة. يمكنك أن تجد بعض الحلول التي تستحق المحاولة ، لكنها كانت معقدة الاستخدام أو مكلفة. لحسن الحظ ، قام Whisper بتغيير كل ذلك.
بعد الخطوات المذكورة أعلاه ، يجب أن تكون جاهزًا لكتابة صوتك أو ترجمته بدقة عالية ، باستخدام أمر واحد فقط.