声音堪比DNA 在AI加持下妙用无限

来源：智能制造网 作者：林中易木

2019/6/12 8:45:3466493

　　【安防展览网科技动态】如果让你单纯听一个人的声音，你能听出哪些信息？年龄？性别？还是家乡？对于AI来说，这些都太没难度了。近期，一项由美国麻省理工学院给出的研究表明，经过训练的AI不仅能从声音中获取人们的性别、种族、年龄等信息，甚至连你长什么样它都能听出来！

　　据了解，这一能完成“听声辨人”操作的AI，主要依赖一个叫Speech2Face的神经网络模型来完成训练。该模型分为两部分，一个是语音编码器，负责对输入的语音进行面部特征分析和预测；另一个是面部解码器，对输入的面部特征进行整合与生成。

　　在实际操作中，研究人员通过将一个百万视频剪辑而成的数据集放入模型，然后让AI进行一段时间的自我训练，之后只需凭借6秒钟左右的语音，AI就能实现对人脸特征的采集和还原，并且呈现出效果不错的图像。

　　从MIT研究团队给出的部分训练成果，我们可以发现：Speech2Face能较好地识别出性别，对白种人和亚洲人也能较好地分辨出来，另外对30-40岁和70岁的年龄段声音命中率稍微高一些。不过，由于AI的“听觉”不是100%可靠，并且训练素材不够丰富，其也会产生不少的识别错误，同时对黑人声音的辨别能力也偏弱。

　　虽然该技术还不是很完善，但满足MIT初的设想已经绰绰有余。研究团队指出，他们训练AI这项功能并不是为了准确还原说话者模样，而只是单纯为了研究语音与相貌之间的关系，并以此来用语音生成各种可爱的卡通用户头像。

　　可能你会觉得这样一个技术用作头像生成有点大材小用，别担心！因为其实类似的技术，目前其他研究机构也在积极开展中，并且有的已经投入到了一些有意义的应用场景。

　　比如卡内基梅隆大学曾发表过相似的研究，能够从声音猜测说话者的年龄、身高、体重、所处空间和环境信息。该大学研究人员认为声音就像是人类的DNA一样，蕴藏着丰富而独特的信息，在各行各业中能够获得妙用。

　　他们在该技术识别和还原准确度超过60%的时候，开始正式投入社会进行应用测试。目前，美国海岸警卫队仍在利用这项技术来识别恶意报警者，这项技术帮他们分辨出了报警者是否为恶作剧，同时缩小了调查的范围，这让他们每年减少了近150个恶作剧电话，节约了大量警力资源。

　　而据了解，卡内基梅隆大学的研究团队终的设想，是用AI这项“听音识人”技术来远程确诊帕金森等疾病。希望这项技术能够打开现代医疗的创新大门，为疑难杂症和一些绝症提供解决思路与办法。

　　除了将类似技术用于刑侦和医疗之外，现实中，相同的技术还被应用到了银行、保险、客服、招聘等众多场景与领域。其中，汇丰、摩根等银行采用声纹识别的方式来保障用户账户安全；大都会人手保险公司利用AI系统来识别客户的情绪与感受；一些保险公司用这项技术来判断来电者的意图；还有一些公司则将该技术用于招聘......

　　此外，2017年丰田汽车还曾在CES大会上，将该技术应用到了驾驶当中。AI被加载在摄像头、传感器、车载语音系统之上，协助判断司机是否处于疲劳驾驶状态，并及时作出提醒。这项技术让司机的驾驶有更加了智能化的保障。

　　总而言之，不管是何种应用，AI“听音辨人”的功能无疑是价值重大的，我们有理由相信，这项技术终会越来越多的出现在往后的生活与生产之中。不过，AI未来如果想真正成为人们的好帮手和好伙伴，眼下还需要进一步的升级与突破，发展之路还需期待！

智慧城市网

声音堪比DNA 在AI加持下妙用无限

上一篇：虚拟现实产业生态圈初步形成三类设备VR产品市场

下一篇：区块链应用遍地开花制造业绽放绚丽光彩

相关资讯：

上一篇：虚拟现实产业生态圈初步形成 三类设备VR产品市场

下一篇：区块链应用遍地开花 制造业绽放绚丽光彩

相关资讯：

上一篇：虚拟现实产业生态圈初步形成三类设备VR产品市场

下一篇：区块链应用遍地开花制造业绽放绚丽光彩