百度:语音识别将成为人机交互重要方式
- 来源:环球网 作者:李文瑶
- 2016/11/26 12:04:2134170
11月23日,在百度语音开放平台上线三周年之际,该研究项目的负责人,斯坦福大学计算机科学专业教授JamesLanday在接受环球科技采访时详细介绍了此次研究的结论,虽然语音输入法仍然有局限性,但基于语音识别技术,从速度、准确性来说,语音输入的表现已经超过了传统的键盘输入。
斯坦福大学计算机科学专业教授JamesLanday
而百度科学家吴恩达对语音识别技术的描述是:“人机交互自然的方式”。此次研究从19到32岁年龄段的人群中挑选了16名以英语为母语和16名以汉语(普通话)为母语的测试者,其中一半为女性一半为男性。
根据研究结果显示,相比于传统的键盘输入,语音输入方式在速度及准确率方面更具优势。利用语音输入英语和普通话的速度分别是传统输入方式的3.24倍和3.21倍。此外,通过加入纠错功能后,语音输入英语及普通话的准确率进一步提高,达到96.43%和92.35%,输入速度仍为传统方式的3倍和2.8倍。
事实上,根据以往的经验来看,语音输入无论从准确性来说还是从速度上来说,都比不过键盘输入。但随着深度学习技术的发展,语音识别开始获得发展,越来越多的语音应用开始受到关注。
2016年在《麻省理工科技评论》“突破性技术”盘点中,语音接口技术便成功入选。麻省理工科技评论认为:通过该技术,可将语音识别和自然语言理解相结合,为互联网市场创造切实可用的语音接口。语音识别将成为人机交互的重要方式。
语音识别技术的进步已经让语音输入了吗?
虽然基于技术的进步,语音识别已经展现超越键盘输入法的优势,但Landay教授对环球科技坦言,语音输入法对于使用者的使用环境有着较多的要求,应用场景往往受到限制。比如在会议中,即使语音输入法有着再多的优势,使用者也不可能使用语音来进行输入。
“不同的环境适应不同的输入方式,某些环境下确实无法使用语音输入,而在某些紧急的情况下,语音输入则优于传统的键盘输入。目前来看,两种输入方式是分开的,而我们正在考虑如何将两者更好的融合在一起,这也是未来的一个研究方向。”Landay教授说道。
在其看来,并没有所谓的好的人机交互模式。而是如何能够实现为自然的人机交互模式。而目前来看,语音识别是适合的方式。人的大脑向身体发送指令,使得人可以遵从自己的意愿进行活动,而在交流过程中,神秘的大脑来进行复杂的信息处理,这些都是机器难以实现的。
如何让机器更够更好的获得并分析人类所下达的指令,语音识别技术为这一目标的实现创造了可能。而这也是百度正在考虑的事情。吴恩达认为:这些技术有很大的潜力,可以改变人机交互的效率和办法。这也是百度不断发力百度大脑,大力投入语音识别技术deepspeech的原因。
而此次,Landay教授能与百度共同合作来完成项目的研究,一方面是由于他和吴恩达是旧识,而更大的原因是他认为百度在语音识别方面的技术水平已经达到了标准。
“我从吴恩达哪里了解到了许多百度的发展情况,当他提起这个项目的时候,我觉得真的可以来看看语音识别和键盘输入究竟有多大的差别,试试语音识别现在究竟能做到怎样的程度。”
而研究结果也说明了语音识别技术的快速发展。“近两年,受益于大数据和深度学习技术的不断发展,语音识别技术突飞猛进,速度及准确性都有了长足进步。”Landay教授说道。
百度的技术团队一直在不断地优化语音识别系统:在2012年开始使用DNN模型,之后开始用Sequence Discriminative Training,也开始使用LSTM模型,加上CTC,2016年更是开发了DeepCNN模型,效果在不断进步。目前,仅从百度的产品来看,包括手机百度、百度地图、百度输入法在内的很多百度产品中,都已经支持语音输入,。
而这些技术旨在解决用户在使用语音交互的场合时,普遍感到困扰的一些关键问题。例如,百度情感合成技术主要聚焦在为合成语音“加入情感”,目前可达到接近真人发声效果,百度今年早些时候曾利用此技术,复原已逝明星张国荣的声音。
类似地,还可以利用新的接口,使语音识别距离增加到3-5米,将设备的语音唤醒率提升到95%以上同时更省电误报更少,或提升长时间语音识别的准确率问题。这将为语音技术带来远比现在更多的想象空间,而不只是遥控电视或解锁手机。
2016年2月,百度深度语音识别系统DeepSpeech2入选MIT2016突破技术。包括语音技术在内的百度大脑,入选2016第三届乌镇世界互联网大会15大科技成果。“这些技术有很大的潜力,去彻底改变人机交互的效率和办法。未来语音技术在很多应用场景有很好的机会,将为人机交互带来巨大的改变。”吴恩达表示。