声、图、文三架马车在深度学习道路上还能驰骋多久？

来源：深度学习大讲堂

2017/4/25 16:19:0235611

　　【中国安防展览网企业关注】外界看来，深度学习也许仍处于计算机科学家和数据专家们正在对其能力进行测试的研究阶段，实际上，深度学习已经有一些实际的商业应用，随着研究的进行，更多的应用也将实现。目前主要的应用有：

　　语音识别：商业和学术界都在使用深度学习进行语音识别。Xbox，Skype，Google Now 和 Apple Siri，都已经在其系统中采用深度学习技术。

　　图像识别：图像识别的一个实际应用是自动图像说明和场景描述。这对于在一个拥挤地区有*发生时，从旁观者提交的数千张照片中查明*活动的执法调查至关重要。自动驾驶汽车同样能从中受益。

　　自然语言处理：神经网络作为深度学习的核心组成部分，很多年来一直被用来分析和处理书面文本。专业化的文本挖掘可以用于处理用户投诉，医疗记录或新闻报道。

　　在此次深度学习大讲堂，邀请了俞凯老师、颜水成老师、李航老师等三位大咖讨论深度学习的未来，其中围绕语音识别、图像识别、自然语言处理等方面展开深入讨论。

　　声、图、文领域相互借鉴

　　山世光：今天的三位大咖里，俞凯老师做语音识别，颜水成老师主攻视觉方向，而李航老师则在自然语言的理解处理领域非常资深，而且在更加广泛的人工智能上问题上也有研究，包含了声、图、文三个领域。虽然过去中财网对通用的人工智能曾经有过很高的期望，但是实际上一直没有落地，但是如今深度学习给大家带来了很多的机会，而且底层的技术有了越来越多的共性，比如说卷积神经网络不仅在语音里面有用，在自然语言处理里面也有应用，所以我想请三位从这个视角谈一下，这一轮AI在通用技术方面有什么样的进展？

　　俞凯：关于这一轮的AI潮，我说一下自己的感受。我先抛一个观点，凡是在机器学习范式上一样的东西，声图文全都可以用，而且任何一个机器学习方法在这三样里面都可以用。什么叫范式？比如说分类问题，CNN之所以在语音识别里用的多，很重要的一点就是它能够处理高度非线性的映射，有非常好的分类能力。只要是面对这样的问题，就一定可用，所以我们现在也很关注图像方面的东西。

　　只要是能够归结为范式性的东西，是分类，第二是回归，这是典型的两类事，第三是序列标注。只要能归属这三类的，几乎都可以通用，只是用的方法不一样。

　　李航：你刚才提到深度学习和大数据的结合红利，以及人工智能在技术层面上的打通，未来在应用层面上也会有很多的机会。

　　现在在UC Berkeley有一种研究，就是给机器人看一段“人开门”的视频，机器人在看完视频之后，可以学会自己用手去开门。以前这种运动和视频的理解是完全不同的领域。大家自然可以想到相关的，比如我跟你说一段话，这个机器会不会理解，能做什么事情，这种可能性在未来应该是有的。在深度学习、大数据这些技术的延长线上，假设有很多的数据，以及很强的计算能力，这种跨模态、跨领域的应用，应该是未来发展的一个增长点。

　　颜水成：大部分人对于通用智能的理解，目前还停留在概念阶段。可能大家主要想的是通用人工智能是什么样的，但是对于怎么样让机器实现或者产生通用人工智能，其实讨论的不是特别多。总的来说通用人工智能暂时是遥不可及的事情。

　　山世光：我把刚才这个问题换一个问法。比如说过去做人脸识别，我们可能连计算机识别领域的其他的子问题怎么做都不关心。但是现在不一样，现在要做人脸识别，只看人脸识别的论文肯定是不行了，还要看其他类似领域或者更通用的论文。从这个声图文这三个大的领域来说，它们之间的相互借鉴和技术层面的交叉，我觉得已经越来越多了。像CNN是从图像领域里面起来的，1989年就开始在做了。不知道俞凯老师是不是可以介绍一下，在语音方面的应用和图像方面的应用会有什么样的差别？

　　颜水成：根据我的观察，在声图文领域里，声音的问题相对来说比较少一些，比如像语音识别、TTS、或者声纹识别，而图像领域的问题太多了，而且落地的方式比语音多很多。这也许是为什么计算机视觉领域的从业者比语音识别更多。

　　俞凯：我觉得颜水成老师是一语中的，但这个观点我肯定是不同意的(指声音领域的问题相对较少的观点)，其实是语音的人看起来借鉴图像的人比较多。

　　颜水成：但是深度学习在语音上是早成功的。

　　俞凯：实际上不只是深度学习，真正图像的人看语音的论文相对来说比较少的，这跟整个领域的覆盖有关，所以我觉得刚才是一语中的，主要就是对问题的挖掘，这跟整个的历史发展是相关的，这是事实。但是倒过来讲，我是不太同意的，原因很简单，语音放在那，它就是一个模态，里面涉及到环节非常多，所以就会出现一个现象，真正搞语音的人出来创业的比较少，特别难做，为什么呢？因为你必须什么都懂，包括那些学术界还没弄出来的，但是你必须弄出来，才能终变成一个系统。

　　颜水成：所以它是一个闭环的，包含麦克风阵列、降噪、语音识别等一系列问题。

　　俞凯：语音大的特点是什么呢？它不像图象，任何一个子问题马上都能看得见，你必须得绕一个圈，要么回答你了，要么看到识别的结果才可以。它的链条是非常长的，从刚才说到的硬件、软件、信号、特征、模型、再到后处理，这一系列完了之后才能看到一个结果，很难知道哪一块做的好或者做的不好，因此对后面的结果有重大的影响。如果你从中单独拎出去一块，想要直接评估它的指标并不是那么容易，所以这个是语音发展的一个特点。

　　山世光：其实我觉得视觉和语音领域，还是借鉴很多来自于自然语言理解领域的一些技术方法，比如说上一代的一些模型，已经在视觉领域里面用了好多年，在深度学习出来之前，基本上是这一套。那么除了这个之外的话，据您(李航老师)的了解，还有什么样的技术可能是在原理或者历*，也借鉴了自然语言理解的技术？或者反过来说，自然语言的理解领域的同行们，他们会不会也关注语音或者视觉这些领域的进展？

　　李航：刚才你说那个现象，以前可能在自然语言和其他的人工智能领域之间也是这样，大家不会关注视觉和语音方面的事情。现在这个界限慢慢越来越模糊了，大家会互相借鉴，这个现象可能是历*没有发生过的。然后你们刚刚说的这个声图文，其实“文”里面有一个和声、图本质上不一样的地方，它有这个符号(symbol)，它的本质的特点就是在语音识别以后，转换成了符号。在语言表达的时候，我们认为我们能够理解一些概念，传达一些概念的时候，其实是有对应的符号的，这个就是跟语音和图像不太一样的地方。

　　说到深度学习，刚才俞凯老师说的我也挺同意的，2014年左右，有一个过去了，下一波从我们自然语言处理的角度来看的话，怎么样能够把深度学习的技术neural processing和symbol processing结合起来，是自然语言未来必然要去解决的问题。这里面有很多挑战，首先就是目前还不清楚人的大脑里面这种符号到底对应的是什么东西，怎么样能够像做CNN一样扩展现在的深度模型也不是很清楚。符号其实是挺硬的东西，而深度学习、神经网络是很软的东西，我们处理人的语言，包括对话的理解，从文本里面获取知识，理解文本的内容，这些应用都是需要这种软、硬处理的结合。我认为自然语言处理和深度学习未来发展的重要关键就是“怎样做neural symbolic processing”，这块是可能跟其他两类不太一样。

　　声、图、文怎样落地？

　　山世光：我近其实特别羡慕做语音的，为什么这么说呢？因为语音这个领域，它处理的结果直接变成了符号，但是视觉这块，我们自己说一图胜千言，好象是说一张图可以有很多很多的符号出来，但是它其实和非常的命令，比如说我们去控制一个东西，和语音以及语言是直接相关的，从这点来讲的话，语音就有非常丰富的内容，可以很的去表达，这也是为什么说语音的应用比视觉更早了一步。特别是语音识别，跟自然语言理解的连接更加直接一点，而视觉这块就稍微弱了一点，但是近两年有一个专门话题是vision和language(视觉和语言)，大概是从2015年才开始的，之前也有人做，但是做的很烂。2015年之后看起来好像有一些声称通过了图灵测试，但是我觉得还是有点弱。从这点来讲的话，比如说做APP，我自己去创业的时候，别人都会说视觉能不能做一个单独的APP给用户用，而不是说作为一个锦上添花的东西嵌入到一个已有的系统里面去，是不是视觉会有这种缺陷？

　　颜水成：现在还是有不少这种纯视觉的APP的，比如美图秀秀、FaceU，这些就是典型的视觉。我个人觉得视觉这个领域的话，因为它经常可以有不同的创新，比如说今年非常典型的热点就是短视频的生产和聚合，各大创业公司(以今日头条为代表)，以及传统的IT公司(比如360、百度、腾讯)，都在推动短视频，这些东西跟传统的纯粹图像分析不一样。短视频兴起后，你的计算模型的efficiency，推荐算法等，都会跟以前完全不一样。比如图文的时候，可以用surrounding text做一些事情，那么短视频出现之后的话，可能就没有什么太多的caption(字幕)或者title(标题)的东西，这个时候主要依赖的是视觉的东西。无论是学术界工业界，其实对短视频的分析的投入和研发的力度是加强了的。虽然声音还在里面，但是可能对于文本的依赖性变弱了。从视觉维度来说的话，深度学习和大数据结合红利又一波又要来了，而不是到了瓶颈期。

　　山世光：就是视频的结构化、符号化和后端的搜索、应用的连接。

　　李航：这是个挺好的例子，其实刚才我们提到的语音，俞凯老师做的东西跟语言相关，只不过是从语音对话的角度去看这个东西，其实语音和语言比较容易自然的结合在一起，现在已经变成一个相对比较大的领域。我对未来的预测是，真正做语音识别的人会越来越少，而做语音对话的人会越来越多，这是一个整体的大的领域，而语音识别是其中一部分。

　　颜水成：对于语音对话这块，我个人的观点有点不一样，对话非常依赖于语料，这样的话，只有两类公司比较适合做这个事情。一类的话就是有search engine的公司，还有一类就是以腾讯、微软为代表的，有instant message产品的公司，比如微信、Skype。这些公司有天然的优势。

　　李航：我们俩说的其实不矛盾，这个领域有这样的应用，那么自然就需要将语音、语言的处理技术融合起来。相对来说，传统的语音识别和语言处理的人会越来越少，而在更大的应用背景下，更大的技术范围内，人会越来越多，这是我的预测。

　　这三种用的技术都不一样，而它的商业化模式区别也比较大。所以我会有一个感觉，可能细分能让大家把这件事看的更具体一点。回答刚才山世光老师提到的关于图像商业化这个问题，我也再说一个观点：不解决痛点，只解决痒点。什么意思呢？就是我一天不上微信，我简直就不行，我昨天两点钟到了宾馆，我睡觉之前一定要看微信，因为在飞机上没法看，那个是痛点，真的很痛，我如果忘了这个，比如说李老师给我发了微信，我如果不知道，这后面就麻烦了，但是如果我不打开那个对话APP，这是没事的，所以这是痒点，这一点特别关键，它到底是疼的还是痒的。而从视觉的角度上讲，其实我的感觉是有很多痛点的，而且比以前还痛，这就是为什么，虽然现在语音的发展潜力非常大，但是从现实的情况上来看，整体上视觉公司估值已经比语音这边高，而整个核心的应用是一个什么东西呢？安防。安防这件事情是非常清晰的应用。刚才提到的好几类，包括说这个APP的问题，要区分你做这个APP的性质是什么，到底是工具性，还是社交性的，如果连这个都不区分的话，你的方向就不清楚，你就不知道，技术在里面占多大比例，工具性的占的比例高一点，但是社交性的、游戏性的技术比例可能很低很低。而在安防领域，其实图像是完全dominant的。

　　颜水成：安防其实也有个问题，其实公司都是都希望自己的技术能直接与用户做交互，而做安防的话其实是默默的在后台弄这个东西，普通老百姓不一定知道这个东西的存在，这可能是它的一个缺点。其实我觉得做视觉的人，还是希望能让用户看见，就是做2C(to customer)东西。

　　俞凯：我个人感觉，如果是2C的话，也只有两种情况，一种情况就是你就是一个感知工具，这个感知工具是不可或缺的，比如输入法，这个在自然语言处理里面是完全不可或缺的东西。还有一个方向就是必须得是个系统，单独语音可能不行，单独图像可能也不行，它可能会以其中一个为主，但是必须是个系统。

　　颜水成：请问现场有多少人体验过HoloLens？(现场观众举手)，看起来二十分之一都不到。我们现在在座的根本没有多少人知道AR当前的现状是怎样的，没有体验过AR眼镜目前处于什么水平。我次带HoloLens眼镜的时候，只是在实验室里面体验了十分钟，用起来特别麻烦，因为微软一定要把它的账号跟HoloLens绑起来，又不好输入，我又不熟，搞的非常痛苦。但是有一次我太太恰好去外边旅游，我一个人在家里，我就用了整整半天的时间，在家里把HoloLens设置好，把里面各种各样的功能体验了一遍，然后就觉得这个东西还不错，离我想象的科幻电影里的样子又近了一点，但是还是有问题，HoloLens太沉了，视野太窄，而且续航也不太给力。后来看到Lumus这个专门做光学镜片的公司，它的产品能够把信息从侧面投影出来，通过光波导这种形式把信号反射到你的眼睛里面，能把眼镜做的和真的眼镜大小差不多。这样的话，极有可能能做到一款和普通的眼镜大小差不多的AR眼镜。

　　此外还有一些人在做SLAM技术，以及一些配套的手势控制的技术。特别是当我看到Lumus的那个眼镜，加上一个叫Infinity公司的SLAM技术，合在一起的时候，你就会觉得这个眼镜可以做的很小，并不是遥不可及的，我觉得AR眼镜发展的脚步比我们想象的快了一些。所以大家有机会的话，应该去体验一下。

　　(原文标题：四位AI大牛纵论：深度学习和大数据结合的红利还能持续多久？文章有整理，包括不改变愿意删减)

智慧城市网

声、图、文三架马车在深度学习道路上还能驰骋多久？

上一篇：以科技的名义：别让“丁义珍们”跑了

下一篇：信息安全仍系重中之重未来或可决定企业生死存亡

相关资讯：

上一篇：以科技的名义：别让“丁义珍们”跑了

下一篇：信息安全仍系重中之重 未来或可决定企业生死存亡

相关资讯：

下一篇：信息安全仍系重中之重未来或可决定企业生死存亡