智慧城市网

登录

神经网络LipNet能解读唇语 AI监控技术将更先进

来源:网易科技报道
2016/11/11 11:51:2035714
  【中国安防展览网 企业关注】 据Theregister报道,牛津大学、谷歌旗下AI公司DeepMind以及加拿大研究所向机器学习学术大会(ICLR2017)提交的论文称,它们开发的神经网络LipNet可以解读唇语的秘密,AI监控技术将变得更加先进。


神经网络LipNet能解读唇语 AI监控技术将更先进
  
  研究人员称,通过分析视频中某人讲话的“时空视觉特征”,LipNet可以破译其正在说什么,比人类专业的唇语解读专家更称职,准确率高达93.4%。这是超越简单词汇分类的AI模型,可以使用句子级序列进行预测。
  
  解读唇语是非常复杂的工作,即使对于损失了听觉的人来说,其平均准确率也仅为52.3%。研究人员称:“机器破译唇语有巨大的应用潜力,可被用于改善助听器、公共空间默写、掩盖对话、在嘈杂环境中语音识别、生物识别以及处理电影默片等。”
  
  但是对于那些担心中央监控系统读取其秘密对话内容的人来说,还不必感到惊慌。研究人员承认,极为的唇语破译十分罕见。大多数情况都是有限的词汇被串联成句子,而且它们往往没有任何意义。
  
  研究人员利用网格语料库(GRI Dcorpus)训练和测试LipNet。这个语料库中有一系列音频和视频,包括34名演讲者每人讲的1000句话。这些句子都有“简单的语法结构”,包括指令(4)+颜色(4)+介词(4)+字母(25)+数字(10)+副词(4)。
  
  括号中的数字代表每个类别可选单词的数量,这意味着它们共可以组成6.4万个句子。由于许多文件已经丢失或损坏,现在还有13名演讲者说出的32829个句子。
  
  LipNet需要许多训练,才能达到如今的程度。在这些视频中,大约88%被用于训练LipNet,12%用于对其进行测试。LipNet专注于演讲者说话时的口型变化,并打破图像帧进行分析。随后,LipNet将这些信息输入神经网络中,并通过多层分析,从而按照发音解读出单词和句子。
  
  距离处理2人之间真实的对话,LipNet还有很长的路要走。这套系统要求大量数据进行训练,以应对口音和语言变化。即使如此,如果你依然担心受到窃听,或许可戴上口罩!

上一篇:救援中人工智能用武之地都在哪里?

下一篇:佳能图像传感器芯片将用于安防监控领域

相关资讯:

首页|导航|登录|关于本站|联系我们