الإعلانات

يمكننا التحدث إلى جميع أدواتنا تقريبًا الآن ، ولكن كيف تعمل بالضبط؟ عندما تسأل "ما هذه الأغنية؟" أو قل "Call Mom" ​​، تحدث معجزة التكنولوجيا الحديثة. وعلى الرغم من أنها تبدو وكأنها في طليعة ، فإن فكرة التحدث إلى الأجهزة تعود إلى عقود من الزمن - تقريبًا بقدر jetpacks في الخيال العلمي!

اليوم ، الجزء الأكبر من الاهتمام الممنوح للحوسبة الصوتية هو على الهواتف الذكية. تتصدر آبل وأمازون ومايكروسوفت وجوجل الجزء العلوي من السلسلة ، حيث تقدم كل واحدة منها طريقتها الخاصة للتحدث إلى الإلكترونيات. أنت تعرف من هم: Siri و Alexa و Cortana و "Ok، Google" بدون اسم. مما يثير سؤالا كبيرا ...

كيف يأخذ الجهاز الكلمات المنطوقة ويحولها إلى أوامر يمكن أن يفهمها؟ في جوهرها ، يتعلق الأمر بمطابقة الأنماط وإجراء التنبؤات بناءً على تلك الأنماط. بشكل أكثر تحديدًا ، التعرف على الصوت مهمة معقدة تأتي من النمذجة الصوتية و نمذجة اللغة.

النمذجة الصوتية: الأشكال الموجية والهواتف

الموجي

النمذجة الصوتية هي عملية أخذ شكل موجة من الكلام وتحليله باستخدام النماذج الإحصائية. الطريقة الأكثر شيوعًا لذلك هي نمذجة ماركوف المخفية، الذي يستخدم في ما يسمى

instagram viewer
نمذجة النطق لتقسيم الكلام إلى أجزاء مكونة تسمى الهواتف (لا يجب الخلط بينها وبين أجهزة الهاتف الفعلية). تعد Microsoft من الباحثين الرائدين في هذا المجال لسنوات عديدة.

نمذجة ماركوف المخفية: الدول الاحتمالية

نمذجة ماركوف المخفية هي نموذج رياضي تنبئي حيث يتم تحديد الحالة الحالية من خلال تحليل الناتج. ويكيبيديا لديها مثال رائع باستخدام صديقين.

تخيل صديقين - صديق محلي وصديق بعيد - يعيشان في مدن مختلفة. يرغب Local Friend في معرفة حالة الطقس حيث يعيش Remote Friend ، لكن Remote Friend يريد فقط التحدث عما فعله في ذلك اليوم: المشي أو التسوق أو التنظيف. احتمالية كل نشاط حسب طقس اليوم.

نمذجة ماركوف المخفية

تظاهر بأن هذه هي المعلومات الوحيدة المتاحة. باستخدامها ، يمكن أن تجد Local Friend اتجاهات في كيفية تغير الطقس من يوم لآخر ، وباستخدام هذه الاتجاهات ، قالت يمكنها البدء في عمل تخمينات مدروسة حول طقس اليوم بناءً على نشاط صديقتها أمس. (يمكنك رؤية رسم تخطيطي للنظام أعلاه.)

إذا كنت تريد مثالًا أكثر تعقيدًا ، فراجعه هذا المثال على ماتلاب. في التعرف على الصوت ، يقارن هذا النموذج بشكل أساسي كل جزء من شكل الموجة بما يأتي قبله وما يأتي بعده ، ومقابل قاموس الأشكال الموجية لمعرفة ما يقال.

بشكل أساسي ، إذا قمت بعمل صوت "th" ، فسيتم التحقق من ذلك الصوت مقابل الأصوات الأكثر احتمالية التي تأتي قبله وبعده. ربما يعني ذلك التحقق من الصوت "e" والصوت "at" وما إلى ذلك. عندما يتطابق النمط بشكل صحيح ، فإنه يحتوي على كلمتك كاملة. هذا تبسيط مفرط ، لكن يمكنك أن ترى شرح Microsoft بالكامل هنا.

نمذجة اللغة: أكثر من الصوت

تقدم النمذجة الصوتية شوطًا طويلاً في مساعدة الكمبيوتر على فهمك ، ولكن ماذا عن الأسماء المختصرة والاختلافات الإقليمية في النطق؟ وهنا يأتي دور نمذجة اللغة. أجرت Google الكثير من الأبحاث في هذا المجال ، بشكل رئيسي من خلال استخدام نمذجة N-gram.

عندما تحاول Google فهم خطابك ، فإنها تفعل ذلك بناءً على نماذج مستمدة من بنكها الضخم للبحث الصوتي ونسخ YouTube. كل هذه التسميات التوضيحية للفيديو المضحكة ساعدت Google في الواقع على تطوير قواميسها. أيضا ، استخدموا المغادرين GOOG-411 لجمع معلومات حول كيفية تحدث الناس.

شترستوك_70757203

خلقت كل هذه المجموعة اللغوية مجموعة واسعة من التلفظ واللهجات ، مما جعل قاموسًا قويًا للكلمات وكيف تبدو. هذا يسمح للمطابقات التي لديها معدل خطأ أقل بكثير من مطابقة القوة الغاشمة بناءً على الاحتمالات الأولية. يمكنك قراءة ورقة موجزة وصف طرقهم هنا.

في حين أن Google رائدة في هذا المجال ، هناك نماذج رياضية أخرى يتم تطويرها ، بما في ذلك الفضاء المستمر النماذج ونماذج اللغة الموضعية ، وهي تقنيات أكثر تقدمًا ولدت من البحث في الذكاء الاصطناعي. تعتمد هذه الأساليب على تكرار نوع المنطق الذي يفعله البشر عند الاستماع لبعضهم البعض. هذه أكثر تقدمًا من حيث التكنولوجيا وراءها ، ولكن أيضًا الرياضيات والبرمجة اللازمة لرسم هذه النماذج.

نمذجة N-Gram: الاحتمال يلتقي بالذاكرة

يعمل نمذجة N-gram استنادًا إلى الاحتمالات ، ولكنه يستخدم قاموسًا موجودًا للكلمات لإنشاء شجرة متفرعة من الاحتمالات ، والتي يتم تلطيفها من أجل الكفاءة. بطريقة ما ، هذا يعني أن نمذجة N-gram تتخلص من الكثير من عدم اليقين في نمذجة ماركوف المخفية المذكورة أعلاه.

كما هو مذكور أعلاه ، تأتي قوة هذه الطريقة من وجود قاموس كبير لـ كلمات و الاستخداموليس مجرد بدائي اصوات. وهذا يمنح البرنامج القدرة على معرفة الفرق بين الهوموفون ، مثل "الضرب" و "البنجر". إنه سياقي ، مما يعني أنه عندما تتحدث عن نتائج الليلة الماضية ، فإن البرنامج لا يسحب الكلمات عن البرش حساء.

لكن هذه النماذج ليست في الواقع الأفضل للغة ، ويرجع ذلك أساسًا إلى المشاكل المتعلقة باحتمالات الكلمات في عبارات أطول. عندما تضيف المزيد من الكلمات إلى جملة ، فإن هذا النموذج ينخفض ​​قليلاً حيث من غير المرجح أن تكون كلماتك المبكرة قد حملت كل ما تحتاجه لتفكيرك الكامل.

ومع ذلك ، فهي بسيطة وسهلة التنفيذ ، مما يجعلها مباراة رائعة لشركة مثل Google التي تستمتع برمي الخوادم في المشاكل الحسابية. يمكنك القيام بمزيد من القراءة على N-gram Modelieng في جامعة واشنطن، أو يمكنك مشاهدة محاضرة في Coursera.

الصراخ على الغيوم: التطبيقات والأجهزة

أي شخص يستخدم Siri يعرف الإحباط من بطء الاتصال بالشبكة. هذا لأنه يتم إرسال أوامرك إلى Siri عبر الشبكة ليتم فك تشفيرها بواسطة Apple. يتطلب Cortana لهاتف Windows أيضًا اتصالاً بالشبكة ليعمل بشكل صحيح. على النقيض من ذلك ، فإن Amazon Echo هو مجرد مكبر صوت بلوتوث بدون أي إنترنت.

لماذا الاختلاف؟ لأن سيري وكورتانا بحاجة إلى خوادم شديدة التحمل لفك تشفير كلامك. هل يمكن القيام بذلك على هاتفك أو جهازك اللوحي؟ بالتأكيد ، ولكنك ستقتل أدائك وعمر البطارية في هذه العملية. من المنطقي تفريغ المعالجة إلى آلات مخصصة.

SIGCHI_Conference_Paper_Format _-_ KumarSpeechRecognitionForMobileApps_pdf

فكر في الأمر بهذه الطريقة: الأمر الخاص بك هو سيارة عالقة في الوحل. ربما يمكنك دفعها بنفسك بما يكفي من الوقت والجهد ، لكن الأمر سيستغرق ساعات ويتركك منهكًا. بدلاً من ذلك ، يمكنك الاتصال بالمساعدة على الطريق وسحبوا سيارتك في دقائق معدودة. الجانب السلبي هو أنه يجب عليك إجراء المكالمة وانتظارها ، لكنها لا تزال أسرع وأقل ضرائب.

تميل نماذج سطح المكتب مثل Nuance إلى استخدام الموارد المحلية بسبب الأجهزة الأكثر قوة. بعد كل شيء ، على حد تعبير ستيف جوبز ، الخاص بك سطح المكتب هو شاحنة. (مما يجعل الأمر سخيفًا بعض الشيء الذي يستخدمه OS X. خوادم لمعالجتها.) لذا عندما تحتاج إلى معالجة اللغة والصوت ، فهي مجهزة جيدًا بما يكفي للتعامل معها بمفردها.

من ناحية أخرى ، يسمح Android للمطورين بتضمين التعرف على الكلام في وضع عدم الاتصال في تطبيقاتهم. تحب Google أن تتقدم على التكنولوجيا ، ويمكنك أن تراهن على أن الأنظمة الأساسية الأخرى ستكتسب هذه القدرة مع زيادة قوة أجهزتها. لا أحد يحب ذلك عندما يكون سوء التغطية أو الاستقبال السيئ lomotomize أجهزتهم.

ابدأ باستخدام الأوامر الصوتية الآن

الآن بعد أن تعرفت على المفاهيم الأساسية ، يجب أن تتلاعب بأجهزتك المختلفة. جرب الجديد الكتابة بالصوت في محرر مستندات Google كيف الكتابة الصوتية هي أفضل ميزة جديدة لمحرر مستندات Googleتحسن التعرف على الصوت بسرعة فائقة في السنوات الأخيرة. في وقت سابق من هذا الأسبوع ، قدمت Google أخيرًا الكتابة بالصوت في محرر مستندات Google. و لكن هل هذا جيد؟ هيا نكتشف! اقرأ أكثر . كما لو أن مجموعة مكتب الويب لم تكن قوية بما يكفي بالفعل ، يتيح لك التحكم الصوتي إملاء مستنداتك وتنسيقها بالكامل. هذا يتوسع في التكنولوجيا القوية التي صممها بالفعل لـ Chrome و Android.

وتشمل الأفكار الأخرى إعداد الخاص بك ماك لاستخدام الأوامر الصوتية كيفية استخدام أوامر الكلام على جهاز Mac الخاص بك اقرأ أكثر وإعداد الخاص بك Amazon Echo مع الدفع الآلي كيف يمكن لـ Amazon Echo أن يجعل منزلك منزلًا ذكيًالا تزال تقنية المنزل الذكي في أيامها الأولى ، ولكن منتجًا جديدًا من Amazon يسمى "Echo" قد يساعد في إدخاله في التيار الرئيسي. اقرأ أكثر . عش في المستقبل وتقبل التحدث إلى أدواتك - حتى إذا كنت تطلب المزيد من المناشف الورقية. إذا كنت مدمنًا للهواتف الذكية ، فلدينا أيضًا دروس تعليمية سيري 8 أشياء ربما لم تدرك أن بإمكان Siri القيام بهاأصبحت Siri واحدة من الميزات المميزة لجهاز iPhone ، ولكن بالنسبة للعديد من الأشخاص ، فهي ليست الأكثر فائدة دائمًا. في حين أن بعض هذا يرجع إلى قيود التعرف على الصوت ، فإن غرابة استخدام ... اقرأ أكثر , كورتانا 6 أروع الأشياء التي يمكنك التحكم فيها باستخدام Cortana في Windows 10يمكن أن يساعدك Cortana في التنقل دون استخدام اليدين على Windows 10. يمكنك السماح لها بالبحث في ملفاتك والويب أو إجراء حسابات أو سحب توقعات الطقس. هنا نغطي بعض مهاراتها الباردة. اقرأ أكثر و ذكري المظهر حسنًا ، Google: 20 شيئًا مفيدًا يمكنك قولها لهاتف Androidيمكن أن يساعدك مساعد Google في إنجاز الكثير على هاتفك. إليك مجموعة كاملة من أوامر OK الأساسية والمفيدة لتجربتها. اقرأ أكثر .

ما هو استخدامك المفضل للتحكم الصوتي؟ اسمحوا لنا أن نعرف في التعليقات.

ائتمانات الصورة: تي فليكس عبر Shutterstock, Terencehonles عبر مؤسسة ويكيميديا, ولاية أريزونا, تصميم Cienpies عبر Shutterstock

لم يستخدم مايكل جهاز Mac عندما كان محكومًا عليه بالفشل ، ولكن يمكنه الترميز في Applescript. حاصل على درجات علمية في علوم الكمبيوتر واللغة الإنجليزية ؛ كان يكتب عن Mac و iOS وألعاب الفيديو منذ فترة ؛ وقد كان قردًا في مجال تكنولوجيا المعلومات نهارًا لأكثر من عقد من الزمان ، متخصص في البرمجة النصية والمحاكاة الافتراضية.