深醒科技:智能改变现在 创新驱动未来
- 来源:深醒科技
- 2018/11/10 12:06:1734107
【中国安防展览网 品牌专栏】近日,2018中国“AI+”创新创业峰会在广东·佛山举办。这场由人工智能学术界和产业界联手打造的行业盛会,汇聚了全国人工智能领域的专家学者、产业精英以及科技企业代表。深醒科技联合技术创始人史震云女士现场做了主题演讲,对自己正在从事的机器视觉的行业应用进行了回顾,并对未来发展中遇到的关键问题进行了分析。
以下是演讲主要内容:
深醒主要是在做机器视觉,目前在人工智能领域落地的应用很多,主要是从打造安全社会及智慧和谐社会出发。目前我们在人脸识别、物体识别、图像搜索还有智能监控这些领域有比较大的进展,在行业里面算是颠覆性的应用及改进。
从核心技术来说,我们现在主要做的是五个主要的关键技术点,分别是目标检测、目标跟踪、目标识别、行为识别以及目前同样重要的图像增强技术。
关键技术-目标检测
在目标检测中新的算法层出不穷,比如在GPU上用的MTCNN,把检测和定位做到一起;中科院提出的CPU上实时的人脸检测方法FaceBoxes,速度和精度都有一定的保证。在基于深度学习的视频分析中,主要涉及到要把检测对象非常准确地从背景噪音数据中检测出来,现在应用多的是在安防场景,无论对车、对人还是对物。
在一个大场景中,比如这个会场一眼望过去数百人,在200万的摄像头中,前排的人脸稍微大一些,人脸大小能达到100X130像素点;后排的人脸非常小,可能是30X30像素点。计算机视觉首先需要通过目标检测确定是人、是水瓶、还是桌子……所以精度是位的。
第二是效率问题。现在我们一般还是用回归算法,一般回归算法会用单回归和双回归,现在实际应用场景当中为了提率,一般用单回归的算法来实现快速的检测。
在技术研发上,我们一方面要考虑效率问题,另一方面考虑精度问题,这两者之间的权衡也是在产品中需要主要考虑的问题。当然现在随着硬件对我们的支撑作用越来越好,这个领域的落地性逐步得到增强。
关键技术-目标跟踪
在目标检测之后,有些情况下要做目标跟踪,有些情况可以直接进行目标识别。目标跟踪是指在给定某视频序列初始帧的目标大小与位置的情况下,预测后续帧中该目标的大小与位置,为了提高运算精度,往往会对某个特定物体进行持续的跟踪。
现在判别式跟踪方法用的比较多一些,终是在有限算力的情况下,实现一个的目标识别。
在标准数据集中,人脸识别往往都号称能做到识别精度在99%以上,那么在实际应用场景中精度是没有这么高的。以安防领域为例,拿人脸识别这个单项来说,我们在真实的场景中由于有各种各样的光线变化和局部的遮挡等原因,实际识别率能够达到80%到90%就非常好了。现阶段人工智能在实际应用中更多实现的是一个辅助决策,在实际运用中的确需要人工进一步的判断。
创新技术-足迹分析
有经验的刑侦专家,可以将每个人的足迹特征,包括磨损以及重心分布等,大概判断出该人员的性别、年龄、身高、体态,甚至一些步态习惯。现在我们用人工智能技术通过对各类特征的分解以及小批量的数据训练,能够通过足迹图像自动识别出该人员的一些属性特点。目前这个软件能达到接近80%左右的精度,这个比例实际上已经高于很多有经验的刑侦人员的判断精度了。但实际上使用的训练集非常小,大概只有不到1万对的数据。
行业应用-智慧安防
目前世界范围内都在建设智慧城市,包含以下几个主要的分支。是从安全的角度,泛指大的智慧安防。智慧安防核心的视频智能应用包含人脸、人像、车辆识别以及行为识别,以云计算为基础,加上视频监控的整个系统。此外包括社交网络、智能家居、虚拟现实和自动驾驶等更广阔的民用领域。大数据运用往往可以把以上的系统模块串联起来。
在公共安全方面,核心的是基于监控视频,把人、车、物的所有行为轨迹与时间经过拥挤分析,得到一个辅助决策的指令。一方面保障社会治安,一方面提高民众的生活舒适度。像现在机场安检、酒店入住、轨道交通包括网吧上网大家应该都有一些感受。
公共安全中对黑名单的安全布控,可能普通民众很难感受到他的存在。以我国接近14亿的人口基数,为了保障公民的安全,公安队伍普遍劳动强度非常大。人工智能出来以后大的好处,就是它可以把海量的视频数据快速进行过滤处理。现在中国有数以亿计的摄像头投放在路面上,但是这个视频数据数量实在太巨大了,以人工有限的时间是过滤不完所有视频信息的。现在人工智能很有效地把这些人车物数据提取出来,得到一个简单的分析统计数据。这个分析统计数据的正确率在人口基数当中可能只有百分之八九十,但是可以大幅度的提高民警的工作效率,提供辅助决策指令给到民警。
以黑名单人员的有效发现率为例,我们之前做过一个测试,在一个地级市放了不到20路的系统,把几个常规出入口的摄像头接入后台的服务器进行实时检索,看看路面上到底走了多少全国在逃犯。就这么一个系统,我们只运行了不到一个月的时间,抓获的全国在逃犯比过去一年还要多。
行业应用-学校
现在社会面都比较关注平安校园,这几年出的事也挺多,主要关注校园内是否有外来人员的入侵、内部人员管理是否合理,包括现在可能有些中学、大学也关注教学质量的评估等等。一般现在平安校园会把包括视频在内的多类型数据全部接进来,对多类型的数据进行检索,比如出入口管理、宿舍管理、家长和学校之间的联动、课堂点名、外围监控,这里面常用到的技术包括人脸人像识别、区域管理以外,还有一些动作行为识别,比如是否有人在打架斗殴等等,这些都是可以通过数据监控,后通过人工智能来实现的。
这些在学校的应用部分比较成熟,但是一些较新的技术还处于相对早期。比如刚刚说到的一些行为分析,比如是否进行踢打、勒脖子等等行为,这个还处于相对早期的阶段,容易产生很多误识别,这个实际是由于人类动作和意图间的差异导致的,有些朋友间的打闹和打架从动作上看可能差异不大。这就涉及到一方面需要通过技术优化,一方面考虑是否需要和其它类型的数据进行交互,终在实际应用中将它的误识率降下去。
行业应用-住宅小区
现在国内的小区开始逐步推进网格化管理,现在有一个职位叫网格员,其实他们大的作用不仅仅是保障民众的安全,同时也是提高民众的生活质量。在这类智慧小区的系统中,系统可以通过对人的行为轨迹和行为规律进行分析。比如说有一个孤寡老太太,网格员登记了她住在哪,什么生活轨迹,基于这个模型分析,在发现老太太出现极大偏差于模型的情况下,判断她是不是出事了。模型会自动触发,然后把结论数据给到网格员,网格员就可以上门去查看是什么情况。
创新研究-情绪感知
此外,更多类型的动作行为分析、人脸情绪感知等等的技术大家也都在研究。以情绪识别这个需求为例,目前主要用的还是神经网络,这里面又涉及到技术和应用之间的GAP,很多情况,比如一个人大哭和大笑的时候,表情可能非常相似,这时候对表情的识别就会出现很大问题。现在来说表情识别还处于比较前期的推广阶段,精度不会特别高。