智慧城市网

登录

AI“读唇术”再获突破 准确度超人类专家

来源:前瞻网
2018/8/7 8:43:3536789
  【中国安防展览网 企业关注】数以千万计的听障人士,催生了庞大的助听器市场。接下来,AI的发展可能会全面摧毁这个产业,同时给听障人士带来无比的便利性和更加正常的生活。不过,对于正常人来说,这意味着又多了一个信息泄露的手段。
 
  对于听障人士来说,读唇无疑是优于手语和助听器的交流方式,既不会阻隔和正常人的交流(手语就不行),也不会给生活带来太大不便(助听器就不行)。的缺点就是,读唇术太难学,而且误差也很大。幸运的是,AI就是专门用来解决这种问题的。
 
  现在,研究人员正在报告一个新的人工智能程序,它比专业的唇读本和的人工智能程序要好得多,它的错误率只有以前佳算法的一半。如果完善并集成到智能设备中,这种方法可以让每个人都能读懂唇语。
 
  根据《Science》网站上的一篇文章,国外科研人员开发出了一个新的AI读唇程序,比现有的无论是专业人员还是AI程序,效率和性都高得多,它的错误率较现有佳算法下降了50%。试想,若将这种程序和未来的智能设备,比如AI眼镜相结合,听障人士的日常交流即可畅通无阻。伦敦玛丽皇后大学计算机科学家贝儿(Helen Bear)惊叹:“这是一项了不起的杰作!”
 
  毫无疑问,让人类自己学会唇语,然后编写成计算机代码,巨大的工作量并非人力所能完成的。在这种情况下,机器学习再次发挥了作用。科学家们只需在系统内存入数千小时的视频和录音,计算机就能自己解决问题。
 
  因此,研究人员从YouTube下载了14万小时的视频,囊括了人们在各种各样情境下的交谈内容。随后,他们编写程序,用以细致标注不同的口腔运动、读音。随后,这个程序自动过滤掉了非英语的语音、未说话人员、低质量的视频内容和非直接拍摄的内容。然后,他们将剩余长达近4000小时、包括超过12.7万个英语单词的片段保留了下来。
 
  哥伦比亚大学计算机科学家阿克巴里(Hassan Akbari)评论称,这个过程,以及由此产生的数据集——比当前大的同类数据集大7倍——对于任何开发类似读唇系统来的人来说,都是“重要而价值连城”的。
 
  在接下来的开发过程中,近年来逐渐成熟的神经网络系统扮演了重要角色。对于一些简单的计算元素,这种模仿人类神经系统建立的计算系统,可以地“思考”和“学习”。而经过剪辑和归类的视频片段,就是这种简单的计算元素。
 
  如前文所说,当研究小组给程序输入未标注的视频时,程序会自动筛选出一些口腔运动片段。而神经网络提取了这些片段后,可以计算每个视频帧可能的音素和它们的概率,后利用可能的音素序列生成英语单词序列。这个就是AI的“学习”过程。
 
  研究人员曾对新AI程序进行过37分钟的测试。据他们提交给arXiv网站的一篇文章,在一段陌生的对话视频中,AI正确识别了41%的唇语内容。这看起来不多,但却是目前的佳成绩。在同一项研究中,专业唇读者出错率为93%(在现实生活中,有语境和肢体语言的情况下,准确率会大大提高)。
 
  目前,对已经学习的内容,AI程序已经掌控到非常精细的程度,例如,它可以通过发出“t”时的不同唇形,判断整个词是“boot”还是“beet”,这对于提高准确性大有帮助。
 
  贝儿表示,除了为听障人士解决交流难题,解读历*,甚至可以解开世界大的谜题之一:在2006年的*决赛中,齐达内在听到马特拉齐说的话后,愤怒地用一记头槌撞向马特拉齐胸口,导致自己被罚下场。而马特拉齐到底说了什么?现在仍是个谜。
 
  这种技术还能用在分析安全视频,甚至可能成为特工装备。可以肯定的是,对于那些看重隐私的人来说,这种技术就是噩梦般的存在。那种走在街上,随便说什么都会被摄像头捕捉到的感觉,也许会让他们很不好受。
 
  原标题:聋人福音or隐私杀手?AI“读唇术”再获突破 准确度超人类专家
 
 

上一篇:人工智能+安防大热 仍面临这三个问题

下一篇:轨道交通安防问题怎么办 视频监控来解决

相关资讯:

首页|导航|登录|关于本站|联系我们