بدا MusicLM من Google واعدًا بقدرته على إنشاء الموسيقى من الرسائل النصية. لكن بعد إخضاعها للاختبار ، لم تنجح تمامًا.
في يناير 2023 ، أعلنت Google عن MusicLM ، وهي أداة ذكاء اصطناعي تجريبية يمكنها إنشاء موسيقى بناءً على أوصاف النص. إلى جانب الأخبار ، أصدرت Google ورقة بحثية مذهلة لـ MusicLM تركت الكثير من الناس مبهورين بالقدرة على استحضار الموسيقى من فراغ.
بالنظر إلى رسالة نصية ، وعد النموذج بإنتاج موسيقى عالية الدقة تقدم جميع أنواع الأوصاف من النوع إلى الآلة الموسيقية إلى التسميات التوضيحية المجردة التي تصف الأعمال الفنية الشهيرة. الآن بعد أن أصبح MusicLM مفتوحًا للجمهور ، قررنا اختباره.
محاولة Google لإنشاء مولد موسيقى AI
يمكن القول إن تحويل رسالة نصية مثل "موسيقى الجاز المريحة" إلى مسار جاهز للتشغيل هو الكأس المقدسة للتجارب في موسيقى الذكاء الاصطناعي. على غرار مولدات الصور المشهورة بالذكاء الاصطناعي مثل Dall-E أو Midjourney ، لا تحتاج إلى امتلاك القليل من المعرفة الموسيقية لإنتاج مسار يحتوي على لحن وإيقاع.
في مايو 2023 ، يمكن لأولئك الذين سجلوا في Google AI Test Kitchen تجربة العرض التوضيحي لأول مرة. يتم الترحيب بها من خلال صفحة ويب سهلة الاستخدام وبضع قواعد إرشادية - إلكترونية وكلاسيكية تعمل الآلات بشكل أفضل ، ولا تنس تحديد "الأجواء" —إنتاج مقتطف من الموسيقى هو سهل بشكل لا يمكن تصوره.
السرعة هي أحد الأشياء القليلة التي تقدمها MusicLM حقًا ، جنبًا إلى جنب مع عينات عالية الدقة نسبيًا. ومع ذلك ، لم يكن الاختبار الحقيقي يقاس بساعة توقيت وحدها. هل تستطيع MusicLM إنتاج موسيقى حقيقية يمكن الاستماع إليها بناءً على بضع كلمات؟ ليس بالضبط (سنصل إلى هذا قريبًا).
كيفية استخدام MusicLM في مطبخ اختبار الذكاء الاصطناعي من Google
يعد استخدام MusicLM أمرًا سهلاً ، ويمكنك التسجيل في قائمة الانتظار لـ مطبخ اختبار الذكاء الاصطناعي من Google إذا كنت تريد أن تجربها.
في تطبيق الويب ، سترى مربع نص حيث يمكنك إنشاء مطالبة من بضع كلمات إلى بضع جمل تصف نوع الموسيقى التي تريد سماعها. للحصول على أفضل النتائج ، تنصحك Google بأن تكون "وصفيًا للغاية" ، مضيفة أنه يجب عليك محاولة تضمين مزاج الموسيقى وعاطفتها.
عندما تكون جاهزًا ، اضغط على Enter لبدء المعالجة. في غضون 30 ثانية تقريبًا ، سيتوفر لك مقتطفان صوتيان للاختبار. من الاثنين ، لديك خيار منح جائزة لأفضل عينة تتطابق مع موجهك ، والذي بدوره يساعد Google في تدريب النموذج وتحسين مخرجاته.
ما يبدو مثل MusicLM
كان البشر يصنعون الموسيقى منذ ما لا يقل عن 40000 عام دون أي فكرة محددة عما إذا كانت الموسيقى قد جاءت قبل أو بعد أو في نفس وقت تطور اللغة. لذا من بعض النواحي ، ليس من المستغرب أن MusicLM لم تكسر تمامًا رمز هذا الفن العالمي القديم.
ورقة بحث MusicLM من Google اقترح أن MusicLM يمكن أن يولد الموسيقى من التسميات التوضيحية التي تنتمي إلى الأعمال الفنية الشهيرة ، والمتابعة تعليمات مثل تغيير النوع أو الحالة المزاجية بطريقة سلسة باتباع سلسلة مختلفة حث.
قبل الالتفاف على مثل هذه الطلبات الطويلة ، وجدنا أن MusicLM لديها العديد من المشكلات الأساسية التي يجب التغلب عليها أولاً.
صعوبة التمسك بالإيقاع
إن الوظيفة الأساسية لأي موسيقي هي ببساطة العزف في الوقت المناسب. بمعنى آخر ، التزم بالإيقاع. والمثير للدهشة أن هذا ليس شيئًا يمكن لـ MusicLM القيام به بنسبة 100٪ من الوقت.
في الواقع ، باستخدام نفس الموجه 10 مرات ، والذي ينتج 20 مقطعًا موسيقيًا ، كان هناك ثلاثة فقط في الوقت المناسب. كانت العينات الـ 17 المتبقية أسرع أو أبطأ من الإيقاع المحدد الذي تمت كتابته في "نبضة في الدقيقة" ، وهو مصطلح شائع الاستخدام لوصف الموسيقى.
في هذا المثال ، استخدمنا "البيانو الكلاسيكي المنفرد الذي يعزف بسرعة 80 نبضة في الدقيقة ، سلمي وتأملي". عند الاستماع عن قرب ، غالبًا ما تتسارع الموسيقى أو تبطئ ضمن طول العينة الصغير.
افتقرت الموسيقى أيضًا إلى إيقاع قوي وبدا كما لو أن شخصًا ما قد ضرب في منتصف الطريق من خلال القطعة. سواء كان ذلك مقصودًا أم لا ، فإنه يجعل من الصعب الحكم على ما إذا كان بإمكان MusicLM بالفعل تأليف بداية مناسبة أو نهاية لقطعة موسيقية فوق التمسك بالإيقاع.
اختيار عشوائي للأداة
ربما لم يتعلم MusicLM بعد كيفية العزف في توقيت صارم ، لذلك انتقلنا إلى معلمة موسيقية مشتركة أخرى. أردنا معرفة ما إذا كان سيوافق على طلبنا لبعض الأدوات.
كتبنا العديد من المطالبات المختلفة التي تضمنت أوصافًا مثل "آلة النطق Solo" و "Solo bass guitar". وكان البعض الآخر عبارة عن فرق أكبر مثل "سترينج الرباعية" أو "فرقة جاز". بشكل عام ، بدا الأمر وكأنه فرصة بنسبة 50:50 لأن تحصل على ما طلبته.
تقول إحدى النظريات أن النموذج يربط بعض الآلات بأنواع موسيقية شهيرة. خذ ، على سبيل المثال ، موجه "آلة النطق المنفردة ، تقدم الوتر. مفعم بالحيوية والتفاؤل ". بدلاً من الحصول على صوت مركب بمفرده ، أنتج MusicLM مسارًا إلكترونيًا كاملًا مع الطبول والباس.
من المحتمل أن النموذج لم يكن لديه بيانات كافية وتدريب كافٍ لفهم الطلب المحدد لجهاز.
الغناء خارج المعادلة
وفقًا للقيود في ذلك الوقت ، لن ينتج النموذج موسيقى تحتوي على غناء. قضايا حقوق التأليف والنشر الشائكة في MusicLM وغناء عربات التي تجرها الدواب هو عامل محتمل في سبب اختيار Google تشغيله بأمان من خلال تعيين هذا القيد.
ولكن بعد تجربة MusicLM لبعض الوقت ، أدركنا أن تحكم Google في إخراج النموذج لم يكن صارمًا تمامًا. الغريب أن صوتًا سريعًا مثل "الغيتار الصوتي" سينتج مسارًا يحتوي على غناء شبيه بالأشباح في الخلفية بدا مكتومًا وبعيدًا.
على الرغم من أن هذا ليس حدثًا شائعًا ، إلا أنه يجعلك تتساءل عن قدرة MusicLM على إنشاء غناء مقنع في المقام الأول.
مع برامج مثل VOCALOID و Synthesizer V تقود الطريق تكنولوجيا التوليف الصوتي بمساعدة الذكاء الاصطناعي، فإن حذف الأغاني من النموذج الحالي يجعلنا نتساءل عما إذا لم تكن جيدة بما يكفي للتنافس مع التكنولوجيا الحالية. قد يكون أمام MusicLM طريق طويل لنقطعه قبل أن يغني الموسيقيون مدحها.
مستقبل مولدات الموسيقى بالذكاء الاصطناعي
على الرغم من أن MusicLM قد انتقلت بتقنية موسيقى AI التوليدية إلى الأمام ، إلا أنها تحتاج إلى العودة إلى المدرسة وتعلم بعض الأشياء الأخرى قبل أن تتمكن من القيام بعمل عملي في صناعة الموسيقى.
قبل الآن ، كانت أفضل محاولة لإنتاج موسيقى AI هي نموذج يسمى JukeboxAI من OpenAI. لم يكن بالضبط في حالة جاهزة للاستخدام ، واستغرق الأمر تسع ساعات هائلة لتقديم دقيقة واحدة فقط من الموسيقى.
لجهودك ، من المحتمل أن تستعيد مسارًا غريبًا حقًا مليئًا بتشويه الصوت والتحف. على الجانب الإيجابي ، لن تشعر بالملل الاستماع إلى الإبداعات الغريبة التي يستحضرها Jukebox.
في ضوء ذلك ، أحرزت MusicLM بعض التطورات المهمة نحو مولد موسيقى سهل الاستخدام يعمل بالذكاء الاصطناعي. يمكن أن نسامح النموذج تقريبًا لمخرجاته العشوائية عندما تتوقف عن التفكير في مدى تعقيد إنشاء الموسيقى في شكل صوت خام.
بعد تشغيل النموذج ، تشعر MusicLM بأنها نصف مكتملة عند مقارنتها بما نشرته Google في ورقتها البحثية الأولية. نادرًا ما يحصل مُنشئ صور AI على صورة Apple بشكل خاطئ ، وبالمثل يجب أن يحصل مولد الموسيقى AI على بعض الأساسيات مثل الإيقاع والآلات.
موقع MusicLM من Google لا يرقى إلى مستوى التوقعات
مع تسابق شركات التكنولوجيا للتنافس فيما بينها على جبهة الذكاء الاصطناعي ، تشعر MusicLM كما لو أنها دخلت في تجارب عامة قبل أن تكون جاهزة. بدلاً من تصحيح الأساسيات ، يبدو أن النموذج يتخذ نهجًا أكثر غموضًا وذاتية في إنتاج الموسيقى.
قد تشجعك Google على أن تكون محددًا في مطالبتك ، لكنها لا تستطيع التعامل مع الإيقاع جيدًا ، ولا يضمن لك الحصول على الأدوات التي طلبتها في كل مرة. قد تكون MusicLM مثيرة للاهتمام ، وهي دليل جيد على التطورات القوية في الذكاء الاصطناعي ، ولكن إذا كانت الموسيقى هي الهدف النهائي ، فلا يزال أمامها طريق طويل.