语音识别引擎准确性提高 未来将带来大生意
- 来源:腾讯创投
- 2017/10/14 10:02:1040157
【中国安防展览网 企业关注】 2017年7月4日,自亚马逊宣布收购连锁食品超市Whole Foods以来,社交媒体上一直流传的笑话便成为了“杰夫·贝佐斯(亚马逊执行总监)跟Alexa说,‘给我在Whole Foods中买点东西’,然后Alexa就把Whole Foods买了下来。”这个笑话突出了语音搜索的一个问题。今天的语音识别技术存在非常多的缺陷,经常不能准确表达用户的意图。但即便如此,语音识别仍然让我们看到了用户输入的美好未来。
语音识别引擎的准确性已经提高了很多,现在达到了95%的准确度,略高于人类的成功识别率率。随着这项技术的改进,语音优先的基础设施变得越来越重要,导致亚马逊,苹果,谷歌,微软和百度都迅速进行布局,发布软件构建模块和平台。
近几年来,我们取得了巨大的技术进步。语音识别引擎的准确性已经提高了很多,现在达到了95%的准确度,略高于人类的成功识别率率。随着这项技术的改进,语音优先的基础设施变得越来越重要,导致亚马逊,苹果,谷歌,微软和百度都迅速进行布局,发布软件构建模块和平台。语音似乎要兴起了。
在本文中,作者总结了:我们目前掌握语音识别技术的现状,以及基础设施如何围绕语音发展起来,以了解过去几十年来这一领域发生了什么。
语音是自然的沟通方式,但语音并不是机器交互的主要界面。自从爱迪生发明留声机之后,人们一直在和机器交谈,但是主要为了与他人进行通信,而不是与机器本身进行通信。到了20世纪80年代,语音识别技术将口语转化为文本的识别率开始足够准确。2001年,计算机语音识别达到了80%的准确度。我们可以从口头对话中提取意义,并做出回应。然而,在大多数情况下,语音技术仍然不足以提供比键盘等界面更好的体验。
语音识别历史
语音识别不是新鲜事,起源于上世纪五十年代,但多年来一直存在多种理解语音的方式。个语音识别系统是基于简单的模式匹配。这些早期系统的一个很好的例子是公用事业公司使用自动化系统让客户不用看仪表读数。在这种情况下,客户端对系统的回答是一个有限的选项列表中的一个字或数字,计算机只需要区分有限数量的不同声音模式。它通过将每个声音块与其存储器中的类似存储模式进行比较来实现。在1952年,贝尔实验室的一个团队设计了能够理解口头数字的机器Audrey。
1970年代
技术进步导致了基于模式和特征分析的语音识别系统的发展,其中每个单词被分解成小部分并且从关键特征(例如它包含的元音)中被识别。这种方法涉及声音的数字化和将数字数据转换成频谱图,将其分解成声音帧,分离单词并识别每一个关键特征。为了识别可能已经说过的内容,计算机必须将每个单词的关键特征与已知功能的列表进行比较。系统越来越好,因为它集成了来自用户的反馈。这种方法比以前的方法要得多,因为口语的基本组件声音数量相当有限。
从1971年到1976年,DARPA资助了五年的语音识别研究,目标是终能够理解至少1000字的机器。该计划导致卡耐基-梅隆大学大学创造了一个能够理解1011个单词的机器。
1980年代
但是此前的技术仍然不是非常的,因为言语中存在的巨大的复杂性:不同的人可以用不同的方式说出同一个词,有许多相似的词(例如two和too)等等。语音识别系统开始使用统计学方法。在此期间推出的关键技术是马尔可夫模型(HMM),用于建立声学模型和随机语言模型。
声学模型代表音频信号和语言中的语音单元之间的关系,以重建实际发出的内容(特征→音位)。语言模型基于后一个单词预测下一个单词(单词→句子),例如。“God save the“之后可能出现的单词是Queen(天佑女王),另外,还有一个语音字典/词典提供关于单词及其发音的数据,并且连接声学模型和语言模型(音素→单词)。终,语言模型分数与当前单词的声学分数相结合,以确定单词序列的排序。
玩具娃娃Julie Doll在1989年将家庭语音识别技术带到家庭中。可以帮助儿童训练语音、说话。
一直到20世纪90年代,语音识别系统的速度都太慢,无法开发有用的应用程序,但是当时出现的更快的微处理器可以进行重大改进,而个语音识别商业应用开始出现。
Dragon公司在1990年推出Dragon Dictate,是个消费级语音识别产品。在1997年,你可以在一分钟内说100个字。
2000年代
计算机语音识别在2001年达到了80%的准确度,但没有多少进展。
2010年代
在过去十年中,机器学习算法和计算机性能的进步已经导致了更有效的深层神经网络(DNN)训练方法。
因此,语音识别系统开始使用DNN,更具体地说,是DNN的特殊变体,即循环神经网络(RNN)。基于RNN的模型显示出比传统模型更好的精度和性能。事实上,2016年的语音识别准确度达到了90%,Google声称在2017年6月达到95%的准确率。
这是非常惊人的,要知道研究人员估计人类转录精度略低于95%。然而,这些公布的结果应该仔细考虑,因为它们通常在的条件下测量,例如,没有背景噪音和英语母语的录音。在“非无菌条件下”的准确度可能快速下降到75-80%。
当你需要标记数据来训练算法时,现在面临的挑战是获取现实生活中数千小时的口语音频,以提供给神经网络并提高语音识别系统的准确性。这就是Google,亚马逊,苹果和微软正在通过将Google Now,Siri和Cortana在手机免费提供服务,以便宜的价格销售Alexa智能音响的原因。一切都是为了获取训练数据!
语音基础设施的开发
语音基础设施开发可以分为3个必需的层次:新的应用程序出现:(1)硬件允许更多的人使用语音作为接口(2)软件构建块,使开发人员能够构建相关的语音优先的应用程序(3)生态系统,以实现有效的分配和商业化。
语音分析公司Voicelabs将语音优先设备定义为始终在线的智能硬件,而其中主界面是语音,包括输入和输出。市场上语音优先的硬件是2014年底发布的智能音箱Amazon Echo。根据2017年VoiceLabs的报告,2015年发布的语音优先设备达170万台,2016 年将达到650万台,2017年将有2450万台设备发货,市场总流通设备数达到3300万台。
市场上的主要智能音响是Amazon Echo(2014年11月)和Google Home(2016年11月)。然而,新玩家正在迅速进入市场:索尼推出了内置Google助手(2017年9月)的LF-S50G,苹果即将推出Homepod(2017年12月),三星也近宣布“即将发布”,Facebook可能会发布带触摸屏的智能扬声器。Google助手还将来到一些新的智能音响,其中包括Anker的Zolo Mojo,Mobvoi的TicHome Mini和松下的GA10。无疑,语音优先的硬件层正在快速发展,预计会有所增长!
语音优先应用程序的软件构建门槛降低
从头开始构建语音应用程序不是一件容易的事情。Nuance和其他大型公司已经向第三方开发人员提供语音识别API,但是使用这些API的成本历来相当高昂,并没有获得很好的结果。
随着语音识别技术开始取得更好的成果,语音优先应用的潜力越来越大,像Google,亚马逊,IBM,微软和苹果以及Speechmatics这样的大型公司开始在较低级别提供各种低价的API产品。
一些常用的包括2016年7月发布的Google Speech API,和2016年11月发布的亚马逊Lex和Amazon Polly。现在,大量开发人员可以以合理的成本构建语音优先的应用程序。
语音优先生态系统的出现
随着越来越多的语音优先应用和硬件带来越来越多的语音交互界面,平台不仅需要解决了分发和商业化,分析和营销自动化等第三方服务也越来越重要。
(原标题:为什么说语音可能是下一个Big thing? 本文原作者Savina van der Straten,Point Nine Capital 的投资人,由腾股创投编译整理。)