为何“耀眼”的车载语音识别会饱受诟病?
- 来源:网易汽车
- 2016/12/10 17:05:302400
为何“耀眼”的车载语音识别会饱受诟病?
上周,一位哥儿们跟同事出去体验某品牌的智能后视镜时也遇到了点好玩的事,通过语音控制导航、拨号等一些操作还算顺畅,当问“附近有没有火锅?”时,差点没把人吓懵,傻乎乎地找到1000多公里外的重庆去了。
语音交互技术应该就像是钢铁侠家里的贾维斯一样,不然还交互个啥啊。然而无情的现实告诉我们,语音交互却是“山东大汉怒骂车载智能语音”。为啥好端端地就是听不懂人话呢,还能不能好好聊天了,“不要拨号”、“取消导航”这类指令却偏偏执行拨号、导航的操作。
语音识别≠语音技术
相信很多小伙伴都把语音识别当成了语音技术的全部,其实语音识别只是语音技术其中的一个分支。语音技术还有其他多种应用,比如说话人识别、语种识别、语音合成、音色转换、语音增强等等。比方说语种识别,管你阿拉伯语、英语还是汉语,它都能听懂,音色转换简单点说就是男变女、女变男。而语音识别呢,是当前发展快、热度高、大家生活中接触多的语音技术。语音识别的进步代表着机器的听力发展,是人工智能的重要一步。说白了就是机器能听懂人话。
车载语音为何“听不懂”人话
人人都在说智能汽车,智能汽车大概可以这么理解,当汽车装上一个智能的大脑(系统),那么摄像头就变成了眼睛,各种雷达赋予了感知环境的能力,传感器差不多可以认为是神经网络吧,那么语音识别自然就是汽车的耳朵啦。
不过,遗憾的是,这个“耳朵”似乎听力不太好。根据J.D.Power发布的《2016年美国新车质量调查》报告内容,在所有汽车买家所投诉的问题中,有23%的问题涉及汽车信息系统,而涉及语音识别系统的问题也占据了相当大的份额。负责美国汽车质量调查的副总裁瑞尼-史蒂芬斯在接受采访时表示:“在我们看来,语音识别系统所引发的故障仍然是汽车消费者投诉首要问题。今年以来,汽车制造商在这一领域做出了一些改进,但行动进度仍比较缓慢。”
事实上,在美国60后、70后以及千禧年和婴儿潮一代人中,车辆语音识别被称作是汽车难使用的5大功能之一。在国内是个什么情况呢,有“山东大汉”足以一言以蔽之。那么,为何“耀眼”的语音识别技术还是饱受诟病呢?
早期的语音识别系统都依赖于数据库来执行语音指令,这些数据库中的数据比较简单、有限,比如星巴克等连锁店、xx加油站、xx酒店和xx景区等等的地理位置。但是在实际使用过程中,会出现许多机器难以理解的地名,还有各式各样的连人都不一定能听懂的方言,再比如当人们把“牛奶”读成“留来”,到底是机器错了还是人错了。而且,条目式的语音指令(机器能识别的固定的词组和句子)远远不能满足现实需求。另外,就算存个10000条指令,关键是谁记得住呢。
如果你问“今天天气怎么样?”机器说,没问题,我能听懂,如果接着问“明天呢?”,机器还不跟你急。所以人工智能的思维也是需要的呀。
此外,如果周边环境嘈杂那么对于语音识别系统来说就抓瞎了。有时候车载语音识别完全没手机好用,毕竟孩子啼哭的车内环境是不能跟安静的室内环境相比的呀。车内空间虽然小,噪音反而更大了,发动机噪声、风噪、外界环境噪音,再碰上车内要是几个人同时讲话,那对于语音识别来说就是“宝宝心里苦,宝宝不说”。
用麦克风阵列降低噪音干扰
既然车在语音的主要问题在于存在机器难以理解的词和车内的噪音,那么如何解决这个问题呢。对于噪音的干扰,目前采用比较普遍的解决方法是麦克风阵列,这个阵列是由不同方向的数个麦克风组成的。原理就像人的两个耳朵,这两个麦克风能够准确指出车内每一位发出声音乘客的位置。
当你在车内开始说话时,个捕捉到你声音的麦克风会对声音进行定向,然后只识别这个特定方向传来的声音,这个麦克风也会成为这次语音命令的输入源,如果这个时候,隔壁的麦克风听到了副驾驶的说话声,并不会对此次输入造成影响。当阵列中的麦克风数量越多,其所定位的方位越狭窄,那么所受到的干扰就会越小。So,按照这个逻辑来看,意思是如果麦克风多到把驾驶员围成一个圈,是不是效果好呢,不过成本可是个问题哦。
数据库建模用于语音自我学习
上面说了条目式指令,还有机器需要人工智能,那么把这两者结合起来是不是会好一点呢。既然无法穷举所有的语言规则,那么如果就建立一个语音模型,然后让机器自我学习。
So,云系统将会成为未来的主流趋势,依托大服务器群、大模型、大并发,云系统能提供更好的语音识别能力和语义分析能力。虽然技术不断地在进步,不过语音识别技术仍是一个缓慢发展过程。