تتمتع تقنية التعرف على الصوت بتاريخ ثري من التطور الذي قادها إلى ما هي عليه اليوم. إنها من صميم الحياة الحديثة ، مما يمنحنا القدرة على القيام بالمهام بمجرد التحدث إلى الجهاز. إذن ، كيف تطورت هذه التكنولوجيا المذهلة على مر السنين؟ لنلقي نظرة.
1952: نظام أودري
جاءت الخطوة الأولى في التعرف على الصوت في أوائل الخمسينيات من القرن الماضي. طورت Bell Laboratories أول آلة يمكنها فهم الصوت البشري في عام 1952 ، وأطلق عليها اسم نظام أودري. كان اسم أودري نوعًا من الانكماش لعبارة التعرف التلقائي على الأرقام. في حين أن هذا كان ابتكارًا كبيرًا ، إلا أنه كان يحتوي على بعض القيود الرئيسية.
الأهم من ذلك ، أنه لم يكن بإمكان أودري التعرف إلا على الأرقام العددية من 0 إلى 9 ، ولا توجد كلمات. كانت أودري تقدم ملاحظاتها عندما يقول المتحدث رقمًا عن طريق إضاءة 1 من 10 مصابيح كهربائية ، كل منها يتوافق مع رقم.
بينما كان بإمكانه فهم الأرقام بدقة 90٪ ، كانت أودري محصورة في نوع صوت معين. هذا هو السبب في أن الشخص الوحيد الذي سيستخدمه حقًا هو HK Davis ، أحد المطورين. عندما يتم نطق رقم ، سيحتاج المتحدث إلى الانتظار 300 مللي ثانية على الأقل قبل نطق الرقم التالي.
لم يقتصر الأمر على كونه محدودًا في الوظائف فحسب ، بل كان أيضًا محدودًا في فائدته. لم يكن هناك فائدة كبيرة لآلة يمكنها فهم الأرقام فقط. كان أحد الاستخدامات الممكنة هو الاتصال بأرقام الهواتف ، ولكن كان الاتصال بالأرقام يدويًا أسرع وأسهل بكثير. على الرغم من أن أودري لم يكن لها وجود رشيق ، إلا أنها لا تزال تمثل علامة فارقة في الإنجاز البشري.
متعلق ب: كيفية استخدام الكتابة الصوتية على Microsoft Word
1962: صندوق الأحذية الخاص بشركة IBM
بعد عقد من أودري ، حاولت شركة IBM تطوير نظام التعرف على الصوت. في المعرض العالمي لعام 1962 ، عرضت شركة IBM نظام التعرف على الصوت المسمى Showbox. مثل Audrey ، كانت وظيفته الرئيسية هي فهم الأرقام من 0 إلى 9 ، ولكن يمكنه أيضًا فهم ست كلمات: زائد ، ناقص ، خطأ ، إجمالي ، إجمالي فرعي ، وإيقاف.
كانت Shoebox آلة رياضيات يمكنها حل مسائل حسابية بسيطة. بالنسبة للتعليقات ، بدلاً من الأضواء ، كان Shoebox قادرًا على طباعة النتائج على الورق. جعل هذا الأمر مفيدًا كآلة حاسبة ، على الرغم من أن المتحدث سيظل بحاجة إلى التوقف مؤقتًا بين كل رقم / كلمة.
1971: تعريف المكالمات التلقائي لشركة IBM
بعد Audrey و Shoebox ، طورت مختبرات أخرى حول العالم تقنية التعرف على الصوت. ومع ذلك ، لم تنطلق حتى السبعينيات ، عندما قدمت شركة IBM في عام 1971 أول اختراع من نوعه إلى السوق. كان يطلق عليه نظام التعرف التلقائي على المكالمات. كان أول نظام للتعرف على الصوت يتم استخدامه عبر نظام الهاتف.
كان المهندسون يتصلون ويتصلون بجهاز كمبيوتر في رالي بولاية نورث كارولينا. ثم ينطق المتصل بواحدة من 5000 كلمة في مفرداته ويحصل على رد "منطوق" كإجابة.
متعلق ب: كيفية استخدام الإملاء الصوتي على أجهزة Mac
1976: هاربي
في أوائل السبعينيات ، اهتمت وزارة الدفاع الأمريكية بالتعرف على الصوت. قامت DARPA (وكالة مشاريع الأبحاث الدفاعية المتقدمة) بتطوير برنامج أبحاث فهم الكلام (SUR) في عام 1971. قدم هذا البرنامج التمويل للعديد من الشركات والجامعات للمساعدة في البحث والتطوير من أجل التعرف على الصوت.
في عام 1976 ، بسبب SUR ، طورت جامعة كارنيجي ميلون نظام هاربي. كانت هذه قفزة كبيرة في تقنية التعرف على الصوت. كانت الأنظمة حتى تلك النقطة قادرة على فهم الكلمات والأرقام ، لكن Harpy كان فريدًا من حيث أنه كان بإمكانه فهم الجمل الكاملة.
كانت تحتوي على مفردات من حوالي 1011 كلمة ، والتي ، وفقًا لمنشور بواسطة ب. لور و ر. ريدي، ما يعادل أكثر من تريليون جملة ممكنة مختلفة. ينص المنشور بعد ذلك على أن Harpy يمكنه فهم الكلمات بدقة 93.77 ٪.
كانت الثمانينيات وقتًا محوريًا لتقنية التعرف على الصوت ، حيث كان هذا هو العقد الذي كان فيه الصوت تقنية التعرف ، حيث كان هذا هو العقد الذي قدمنا فيه إلى طريقة ماركوف المخفية (همم). القوة الدافعة الرئيسية وراء HMM هي احتمالا.
عندما يسجل النظام صوتًا (أصغر عنصر في الكلام) ، فهناك احتمال معين لما سيكون الصوت التالي. تستخدم HMM هذه الاحتمالات لتحديد الصوت الذي من المرجح أن يأتي بعد ذلك وتشكيل الكلمات الأكثر احتمالا. لا تزال معظم أنظمة التعرف على الصوت تستخدم HMM لفهم الكلام.
التسعينيات: التعرف على الصوت يصل إلى السوق الاستهلاكية
منذ ظهور تقنية التعرف على الصوت ، كانت في رحلة للعثور على مساحة في السوق الاستهلاكية. في الثمانينيات ، عرضت شركة IBM نموذجًا أوليًا للكمبيوتر يمكنه إملاء الكلام إلى نص. ومع ذلك ، لم يبدأ الناس في رؤية تطبيقات مثل هذه في منازلهم حتى أوائل التسعينيات.
في عام 1990 ، قدمت Dragon Systems أول برنامج لإملاء الكلام إلى نص. كان يطلق عليه Dragon Dictate ، وقد تم إصداره في الأصل لنظام Windows. كان هذا البرنامج الذي تبلغ تكلفته 9000 دولارًا ثوريًا لجلب تقنية التعرف على الصوت إلى الجماهير ، ولكن كان هناك عيب واحد. البرنامج المستخدم إملاء منفصل, مما يعني أن المستخدم يجب أن يتوقف بين كل كلمة حتى يلتقطها البرنامج.
في عام 1996 ، ساهمت IBM مرة أخرى في الصناعة مع Medspeak. كان هذا أيضًا برنامج إملاء الكلام إلى نص ، لكنه لم يعاني من إملاء منفصل كما فعل Dragon Dictate. بدلاً من ذلك ، يمكن لهذا البرنامج أن يملي الكلام المستمر ، مما يجعله منتجًا أكثر إقناعًا.
متعلق ب: كيفية استخدام مساعد جوجل مع سماعات الرأس
2010: فتاة اسمها سيري
طوال العقد الأول من القرن الحادي والعشرين ، انتشرت تقنية التعرف على الصوت بشكل كبير. تم تطبيقه في برامج وأجهزة أكثر من أي وقت مضى ، وكانت إحدى الخطوات الحاسمة في تطور التعرف على الصوت هي Siri ، المساعد الرقمي. في عام 2010 ، قدمت شركة تحمل اسم Siri المساعد الافتراضي كتطبيق iOS.
في ذلك الوقت ، كان Siri عبارة عن برنامج مثير للإعجاب يمكنه أن يملي ما يقوله المتحدث ويعطي استجابة مثقفة وذكية. كان هذا البرنامج مثيرًا للإعجاب لدرجة أن Apple استحوذت على الشركة في نفس العام وأعطت Siri بعض الإصلاح الشامل ، مما دفعها نحو المساعد الرقمي الذي نعرفه اليوم.
من خلال Apple حصلت Siri على صوتها المميز (صوت سوزان بينيت) ومجموعة من الميزات الجديدة. يستخدم معالجة اللغة الطبيعية للتحكم في معظم وظائف النظام.
2010: المساعدين الرقميين الكبار 4
كما هو الحال ، يهيمن أربعة مساعدين رقميين كبار على التعرف على الصوت والبرامج الإضافية.
- سيري موجودة في جميع منتجات Apple تقريبًا: أجهزة iPhone و iPod و iPads وعائلة أجهزة كمبيوتر Mac.
- مساعد جوجل موجود عبر معظم أجهزة Android في السوق التي يزيد عددها عن 3 مليارات جهاز. بالإضافة إلى ذلك ، يمكن للمستخدمين استخدام ملفات أوامر عبر العديد من خدمات Google، مثل Google Home.
- أمازون أليكسا ليس لديها الكثير من الأنظمة الأساسية المخصصة حيث تعيش ، لكنها لا تزال مساعدًا بارزًا. إنه متاح للتنزيل والاستخدام على أجهزة Android وأجهزة Apple. وحتى تحديد أجهزة الكمبيوتر المحمولة Lenovo
- بيكسبي هو أحدث إدخال لقائمة المساعد الرقمي. إنه المساعد الرقمي المحلي من Samsung ، وهو موجود بين الهواتف والأجهزة اللوحية للشركة.
تاريخ منطوق
لقد قطع التعرف على الصوت شوطًا طويلاً منذ أيام أودري. لقد حققت مكاسب كبيرة في مجالات متعددة ؛ على سبيل المثال ، وفقًا لـ كلير بريدج موبايل، استفاد المجال الطبي من روبوتات المحادثة التي تعمل بالصوت أثناء الجائحة في عام 2020. من القدرة على فهم الأرقام فقط إلى فهم الاختلافات المختلفة للجمل الكاملة ، يثبت التعرف على الصوت أنه أحد أكثر التقنيات المفيدة في عصرنا الحديث.
نستخدم التعرف على الصوت طوال الوقت ، ولكن كيف يعمل؟
اقرأ التالي
- شرح التكنولوجيا
- سيري
- مساعد جوجل
- أليكسا
- بيكسبي
- اوامر صوتية
آرثر صحفي وموسيقي تقني يعيش في أمريكا. لقد عمل في هذا المجال منذ ما يقرب من عقد من الزمان ، حيث كتب لمنشورات عبر الإنترنت مثل Android Headlines. لديه معرفة عميقة بنظامي Android و ChromeOS. إلى جانب كتابة مقالات إعلامية ، فهو أيضًا بارع في الإبلاغ عن أخبار التكنولوجيا.
اشترك في نشرتنا الإخبارية
انضم إلى النشرة الإخبارية لدينا للحصول على نصائح تقنية ومراجعات وكتب إلكترونية مجانية وصفقات حصرية!
انقر هنا للاشتراك