大华股份任宇鹏:更安全 更聪明 安防人工智能应用方向
- 来源:大华股份 作者:任宇鹏
- 2017/12/20 13:17:2038323
【中国安防展览网 品牌专栏】安防行业海量的数据源以及应用场景为人工智能的落地提供了良好的土壤,同时,该行业对于人工智能的落地具有非常急迫的需求。智能安防很有可能成为人工智能产业化的着陆场,同时也将开启安防行业新一轮的成长周期。
出于对市场的敏感,主流的设备及解决方案供应商已经开始发力,在安防行业的人工智能化市场有了不少的投入,凭借其各自深耕安防行业的经验,在人工智能落地方面取得了不俗的成绩。
一、多维感知及应用
视频的多维感知要求智慧安防系统向下叠加多维的物联感知(包括空间信息、动环信息、生物体征、深度语音识别等等);多维应用则体现在向上输出更多的视频数据应用价值,支持更为宽广的业务应用(比如智慧城市的“数据大脑”、城市交通态势分析、机器视觉、大数据预警与决策等等)。
多维感知通过集成多种传感器,将各类感知数据与视频数据相融合,使得传统的、分布式、开放和共享程度低的传感数据终以集中式的方式展现出来。不仅丰富了感知手段,同时还能直接将结构化信息传至后端,提升了整个系统的效率。多维应用则是在实现了信息数据的全面深入的感知和特征提取之后,着力于为智慧城市、交通态势分析等顶层业务应用提供更多有价值的数据信息,逐步构建城市智慧服务体系,从而进一步为城市民众提供有针对性的新服务和新模式。
多传感器信息融合是多维感知重要的技术之一,指的是利用计算机技术将来自多个传感器或多源的信息和数据在一定的准则下进行自动分析和综合,以完成所需要决策和估计而进行的信息处理过程。
如采用多个传感器(双目、TOF相机和激光雷达等)联合获取监控区域数据,进行行人检测及轨迹追踪。监控系统联合多个深度相机,并将每个相机的检测及追踪结果进行融合。可以有效的对同一区域内多个目标进行检测和轨迹追踪。多传感器感知及监控系统相较于传统的单一传感器(如单个单目或深度相机)监控具有非常大的优势,监控准确度和目标数目都有非常大的提升,对于视频中多个行人的前后匹配及追踪也更加准确。
值得注意的是,算法在多维感知中的地位日益凸显。该解决方案内包含了多个不同位置、不同视角的深度传感器,涉及大量的传感器标定、配准及数据融合算法,检测和轨迹追踪结果的准确性很大程度的依赖于算法的性能。因此智能算法的支持工作非常重要,其配准和融合效果的差异直接影响着检测和追踪结果的输出。
图1多传感器行人检测及轨迹追踪(客户端画面)
在交通监控场景中,某些路段需要检测车辆的长宽高是否超限,传统的二维监控视频,车辆的三维信息已经在成像过程中失去了,所以基于二维模型的各类算法都难以取得理想的精度。针对这种情况,就需要使用立体视觉及多传感器融合监控方案,如搭建双目相机并融合雷达、测距仪等传感器的信息。又如广场、机场等大范围监控场景,传统的单枪机视场角过小,而鱼眼相机成像的清晰度不够。鱼球联动方案是一种解决办法,鱼眼相机超过180度的视场可以覆盖整个目标区域,而对区域中具体某个目标感兴趣时,可以自动控制球机去观察该目标细节。但是,在应用中发现,鱼眼相机的成像清晰度不够的缺点仍然存在,导致一些小目标无法被检测出来。为了更好地满足客户的需求,大华又推出了多目全景相机与球机联动的解决方案。相比鱼眼相机,基于拼接算法的多目全景相机成像分辨率更高,而且能够根据应用的特点选择不同型号的全景相机。其中,守望者高清全景相机将8个超低照度200万图像传感器拼接成2个4K画面,实现360度全景监控,同时一体化搭载了30倍超星光球机,用以实现细节监控。
图2大华高清三目全景红外枪(监控画面)
基于这样的多传感器融合的硬件方案,在大场景中实现了如进入/离开区域、越界、徘徊、停车、人员聚集、快速移动、物品、物品拿取、人脸检测、轨迹追踪等智能功能。
二、前端智能
前端智能可以利用摄像机进行前端分析,理解视频画面的内容,而后将获取的图片、视频以及分析结果等传至后端存储。常见的前端视频分析技术,运用计算机视觉、图像分析等技术从海量的视频图像中识别和提取目标,并形成结构化的数据,帮助客户的抽取视频中的关键信息。其带来的大改变是延时的消失,可以近乎实时的进行判断分析。同时减轻后端的计算压力,使得后端的优势计算资源更加集中于实施深入的分析工作。
以安防中常用的区域入侵检测为例。某客户希望对一些关键场所进行防护,具体的需求就是禁止人员进入。在安装了监控摄像头之后,客户有三种方案可选择:
a)不进行实时报警,当有人进入关键场所,并造成事故后,查看对应摄像头的录像,并找到涉事人进行处罚;
b)指派专人负责实时查看监控画面,发现有区域入侵事件发生,则手动触发对应警报器,警告涉事人离开该区域或通知工作人员进行干预;
c)应用智能分析算法,自动检测区域入侵事件的发生,并自动触发对应警报器,警告涉事人离开该区域或通知工作人员进行干预;
图2大华高清三目全景红外枪(监控画面)
通过对比可以容易地看到,方案a)是一种事后人工查看录像方案,其大的缺点是难以防止事故的发生,即使是事后处罚,也难以找到涉事人。究其原因,是不能及时判断区域入侵事件是否发生,失去了展开防护的有利时机。方案b)是一种实时人工查看监控的方案,当监控负责人发现区域入侵事件后,可以采取一系列的措施来及时阻止涉事人,有效地防止事故发生。但是,该方案引入了人力成本,考虑到一个人能够负责的监控画面是有限的,能够保持专注地工作的时间也是有限的,需要投入的人力成本就比较高。再看方案c),该方案是一种基于实时智能分析算法的方案,不仅能够防止事故发生,而且不引入人力成本。尽管由于集成了智能分析算法,可能会导致摄像头等前端设备的成本上升,但相比人力成本几乎可以忽略不计。综合考虑,方案c)对客户来说,收益应该是大的,在实际中,客户的选择也正是如此。
方案a)与b)都是基于人工,利用的是监控视频的内在价值。而方案c)使用了智能分析算法来代替人工,挖掘监控视频的外延价值。从另一个角度说,监控视频的内在价值是需要客户自己想办法获取的,而外延价值是安防产品自主分析出来提供给客户的。从客户的角度看,要提升监控视频的内在价值,就需要大幅度增加人力成本,甚至会出现收益下降的情况,这是无法接受的结果。所以,在监控硬件成本基本相当的前提下,只有不断提升视频的外延价值,才能增大客户的收益,使安防产品满足客户日益增长的新需求。
相比人工方式,智能分析算法从监控视频中获取的信息具有实时性、准确性、可靠性、多样性等特点,并且几乎不增加成本。经过多年发展,监控摄像头中已经可以集成一系列智能分析算法,除区域入侵外,还有如运动目标检测、物检测、物体移除检测、绊线、入侵、逆行、徘徊、流量、密度、目标分类等等。这些智能算法的出现和逐渐成熟,极大地提升了监控视频的外延价值,促进了安防监控的广泛使用。
三、深度学习及后端分析
多前端、长时间的数据获取会形成海量的音视频数据。面对如此大规模的数据,如何快速准确的获取有效信息往往非常困难。传统的时间和劳动密集的人工查找方式效能低下,急需、自动和智能化的方法来解决以上问题。
深度学习的出现以及其在后端分析方面的应用,可以对视频及图片信息进行有效的结构化处理,完成传统方法无法实现的功能,同时处理效率和结果准确度也有很大的提升。
大华智能与“视频+”
在该背景下推出的智能视频结构化服务器“DeepSense睿智”系列,可以进行实时的视频结构化分析。“DeepSense睿智”系列是大华携手的人工智能计算公司英伟达(NVIDIA),发布的具有极高计算性能的智能视频结构化服务器。“睿智”服务器采用NVIDIATeslaP4GPUs作为核心处理器,多可支持192路全清视频实时结构化分析,相较于市场上同类别的产品,视频处理能力将提高50倍以上。“睿智”服务器能够将复杂场景中的人、机动车、非机动车分离,提取车辆特征,如车型、车系、车身颜色、车牌颜色、车牌号码识别、主副驾驶是否系安全带、是否打电话、有无遮阳板、有无年检标、有无挂坠、有无纸巾盒;针对行人,“睿智”服务器可以多方面分析其相关特征,包括性别、表情、年龄段、服饰特征(上下衣着颜色、眼镜)、携带物特征(背包、打伞)、运动特征等。用户可以按照待检索目标的特点,对人、机动车、非机动车的各种特征条件进行组合筛选,快速地进行检索。
图4“睿智”视频结构化服务器客户端画面
结束语
大华股份董事长傅利泉认为,安防行业正在升级为以视频为核心的物联信息服务的“视频+”时代,即“视频+多维感知”和“视频+多维应用”。这一模式要求视频安防向下叠加多维的物联感知,如空间信息、动环信息、生物体征、深度语音识别等等;向上输出更多的视频数据应用价值,支持更为宽广的业务应用,比如智慧城市的数据大脑,城市交通态势分析、机器视觉、大数据预警与决策等。“视频+”模式的提出,将更好的促进人工智能与安防产业的结合,进一步拓展监控视频的外延价值。
新一代的安防技术在多维感知、多维应用的常态下,正借助以深度学习为首的人工智能、大数据及物联网技术,实现多元快速发展,只有不断的坚持创新、推动并完善人工智能在安防领域的技术应用,才能解决安防领域日益增加的需求,提升整个安防领域的智能化水平,推动安防产业的升级换代。