اكتشاف العبارة هو مجرد جزء من العملية.
من المؤكد أن الصراخ "Ok Google" من جميع أنحاء الغرفة لتغيير الموسيقى أو إطفاء الأنوار في الغرفة لا يصدق ، ولكن هذه العملية التي تبدو بسيطة مدعومة بشبكة معقدة من التقنيات التي تعمل من وراء مشاهد.
لدى كل مساعد افتراضي كبير في السوق عبارة اتصال تستخدمها لإيقاظ المساعد وإجراء محادثة. ولكن كيف يعرف المساعدون الصوتيون أنك تتحدث معهم؟
كيف يعمل كشف العبارة؟
كما هو مذكور أعلاه ، كل مساعد صوتي لديه "عبارة تشغيل" أو كلمة تنبيه تستخدمها لتنبيه المساعد وإعطاء أوامر أخرى. عملية اكتشاف هذه العبارة هي نفسها تقريبًا مع كل مساعد ، باستثناء الفروق الدقيقة. ومع ذلك ، يمكن أن تعني هذه الفروق الدقيقة الفرق بين قول أمر الاستيقاظ عرضًا والصراخ عدة مرات مرات فقط حتى يستمر المساعد في النوم ، وهو أمر قد يكون مزعجًا حقًا في بعض الأحيان ، خاصةً إذا كنت باستخدام مساعد الصوت الخاص بك للمساعدة على الهدوء.
بشكل عام ، تحتوي معظم مكبرات الصوت "الذكية" على دائرة كهربائية صغيرة وظيفتها الوحيدة هي اكتشاف أمر التنبيه ثم تشغيل بقية الأجهزة. تتم معظم عمليات المعالجة في السحابة ، ولكن يتم اكتشاف العبارة على الجهاز لأسباب واضحة تتعلق بالخصوصية. يعمل اكتشاف العبارة على الهواتف بنفس الطريقة تقريبًا.
يتم إخفاء التفاصيل في الغالب ، لكن أنظمة الكشف هذه تستخدم التعلم الآلي والشبكات العصبية العميقة (DNNs) لتدريب نماذج الذكاء الاصطناعي لاكتشاف صوتك وتشكيل مفتاح. ثم يتم استخدام هذا المفتاح للتحقق من أنك قلت عبارة معينة ، ويتم إرسال كل شيء آخر إلى السحابة لمزيد من المعالجة.
مساعد جوجل
عادةً ما تأتي الهواتف التي تدعم اكتشاف "OK Google" بنظام اكتشاف الكلمات الرئيسية (KWS) الذي يكتشف العبارة ثم يصحح بقية استعلامك في السحابة. نظرًا لأن الأجهزة المحمولة لها طاقة حسابية محدودة بالإضافة إلى قيود عمر البطارية ، فإن هذه الأنظمة ليست عادةً جيدة مثل تلك التي تجدها على مكبرات صوت Google Nest.
يلتقط نظام KWS الموجود على الجهاز الصوت باستمرار من ميكروفونات الجهاز ويبدأ الاتصال بالخادم عندما يكتشف عبارة تشغيل. تستخدم Google أيضًا التعرف التلقائي على السياق من جانب الخادم (ASR) لتحسين الدقة الكلية لنظام KWS الخاص بها. يمكنك قراءة المزيد عنها في ورقة بحث جوجل [بي دي إف].
سيري
يعمل Siri بالطريقة نفسها التي يعمل بها مساعد Google فيما يتعلق باكتشاف "Hey Siri". كانت شركة Apple منفتحة بشكل مدهش بشأن كيفية عمل النظام ، والذي يتضمن أداة التعرف على الكلام "الصغيرة جدًا" التي تعمل في الخلفية وتستمع إلى هاتين الكلمتين فقط. يستخدم هذا الكاشف DNN لتحويل النمط الصوتي لصوتك المسجل فوق كل حالة إلى توزيع احتمالي على أصوات الكلام ، مما يؤدي بشكل أساسي إلى الحصول على درجة ثقة.
يقوم جهاز iPhone أو Apple Watch بذلك عن طريق تغيير صوتك إلى دفق من عينات الموجي بمعدل 16000 في الثانية. ثم يتم قطع هذا إلى سلسلة من الإطارات تغطي طيفًا صوتيًا يبلغ حوالي 0.01 ثانية. بعد ذلك ، يتم تغذية ما مجموعه 20 من هذه الإطارات إلى نموذج الاكتشاف ، والذي يحول هذه الأنماط إلى احتمال.
إذا حدد النظام بثقة كافية أنك قلت "مرحبًا Siri" ، يستيقظ Siri ويرسل الباقي من الاستعلام إلى السحابة ، حيث يتم إجراء مزيد من التحليل وأي إجراء طلبته يحصل إجراء.
هناك ، بالطبع ، إجراءات إضافية مضافة لضمان كفاءة الذاكرة والبطارية. يتمتع المعالج Always On الخاص بجهاز iPhone (AOP) بإمكانية الوصول إلى ميكروفونات الجهاز (على iPhone 6S والإصدارات الأحدث) لهذا السبب بالذات ، ويتم تخصيص جزء صغير من طاقة المعالجة لتشغيل DNN. تتعمق Apple في النظام بأكمله على موقع التعلم الآلي الخاص بها ، آلة التعلم.
أليكسا
تمامًا مثل Google Assistant و Siri ، لا تحتوي Alexa أيضًا على معظم قوة المعالجة الخاصة بها على أي من مكبرات الصوت Echo التي يمكنك شراؤها. بدلاً من ذلك ، يستخدم المتحدثون ما تسميه أمازون التعرف التلقائي على الكلام (ASR) والذي يقوم بشكل أساسي بتحويل الكلمات المنطوقة إلى نص ، مما يسمح للنظام الأساسي بتفسيرها والتصرف وفقًا لذلك.
يشكل ASR الأساس الأساسي لكيفية عمل Alexa. مرة أخرى ، يوجد نظام على متن الطائرة يستمع إلى كلمات التنبيه ، في هذه الحالة ، "Alexa" ، "Amazon ،" "Echo" أو "Computer" ، ويقوم بتشغيل بقية النظام عندما تكون كلمة التنبيه المحددة مسبقًا من قبل المستخدم مُكتَشَف. يمكنك حتى إيقاظ جهاز Alexa الخاص بك باستخدام "Hey Disney" إذا أردت.
مثل مساعد Google ، يمكنك تدريب نموذج AI الأساسي لـ Alexa لاكتشاف صوتك بشكل أفضل. تتضمن هذه العملية إنشاء "مفتاح" أساسي تتم مقارنة كلمة التنبيه المنطوقة به ، وعندما يتم العثور على تطابق ، يستجيب الجهاز وفقًا لذلك.
هل المساعدون الصوتيون يستمعون دائمًا؟
كما يمكنك أن تخمن بالفعل ، نعم ، هم كذلك. لا توجد طريقة تمكنهم من اكتشاف كلمات الاستيقاظ بطريقة أخرى. ومع ذلك ، لا تحتاج إلى التخلص من جميع مكبرات الصوت الذكية بسبب مخاوف الخصوصية حتى الآن.
الاستماع إلى كل ما يقوله المستخدمون ، وإرساله مرة أخرى إلى خادم بعيد ، وتحليله (أو تخزينه) يتطلب أجهزة وموارد مالية هائلة لدرجة أنه لا معنى له من الناحية العملية وجهة نظر. أضف إلى ذلك مخاوف الخصوصية الهائلة التي تتعامل معها بالفعل شركات مثل Google و Apple و Amazon ، والفكرة غير منطقية.
يؤثر هذا أيضًا بشكل كبير على أداء الهواتف وعمر البطارية من خلال ميزات اكتشاف كلمات التنبيه ، وأبرزها Google Pixel و iPhone. إذا كان هاتفك يستمع باستمرار إلى ما تقوله ويرسل هذا الصوت مرة أخرى إلى خادم بعيد ، فسيؤدي ذلك إلى استهلاك بطاريتك ويؤثر على أداء الجهاز.
من الذي لديه أكثر كفاءة في اكتشاف العبارات ولماذا؟
ليس من السهل المقارنة الموضوعية بين المساعد الافتراضي الذي لديه أفضل اكتشاف للعبارة بشكل موضوعي حيث أنهم يستخدمون جميعًا تطبيقات مختلفة قليلاً لنفس المفهوم العام. ومع ذلك ، يبدو أن Google لديها أكثر اتساقًا في اكتشاف العبارة بسبب مساعد Google الرائد مقارنةً بـ Siri و Alexa.
على الرغم من أن التطبيقات التي تستخدم نماذج لغة كبيرة (LLMs) مثل ChatGPT و Bing Chat أصبحت سائدة ، إلا أن مساعد Google يحتفظ بمكانته كأحد أكثر التطبيقات المساعدون الظاهريون المشهورون ببساطة لأنه نقرة واحدة على كل جهاز يعمل بنظام Android ، بدءًا من أجهزة التلفزيون الذكية إلى أنظمة استريو السيارة وبالطبع الهواتف الذكية.
لدى Siri و Alexa بعض اللحاق بالركب في هذا القسم ، ولكن فيما يتعلق باكتشاف العبارة ، فهما ليسا بعيدين. ومع ذلك ، ستكون لديك فرصة أفضل لإيقاظ مساعد Google على هاتف Pixel الخاص بك من جميع أنحاء الغرفة مقارنةً مع Siri على جهاز iPhone الخاص بك ، على الرغم من أنه يمكنك عزز قدرات Siri مع وضع Super Siri. نظرًا لأن Alexa يستخدم في الغالب على خط مكبرات الصوت من Amazon ، فإنه يتمتع بميزة طفيفة هنا ، مع الأخذ في الاعتبار أن هذه السماعات مصممة لتكون قادرة على التقاط صوت المستخدم.
الذكاء الاصطناعي مخيف بقدر ما هو ملائم
يمكن أن يكون استدعاء مساعد الذكاء الاصطناعي الخاص بك بصوتك مفيدًا جدًا. بالنسبة لميزة تتكامل بسلاسة في حياتنا ، يحدث الكثير خلف الكواليس التي لا يفكر بها معظمنا في كثير من الأحيان.
ومع ذلك ، فإن هذه الراحة تجلب معها أيضًا عدم ارتياح جهازك للاستماع دائمًا إلى ما تقوله. حتى الآن ، تقف أدوات التعرف على الكلام على الجهاز وكلمات التنبيه بين ما يسمعه مساعدك الافتراضي وما تقوله.