李瑞敏:“大数据”的幸福与烦恼
- 来源:赛文交通网 作者:李瑞敏
- 2018/1/8 9:41:4740089
【中国安防展览网 企业关注】从1997年4月“97北京汽车电子暨智能公路展览会”期间清华大学交通研究所与中国电子工业科学技术交通中心、中国道路交通安全协会共同举办“97北京智能交通系统发展趋势学术研讨会”至今,不知不觉已经走过了20年,个人在智能交通领域的学习和工作也快接近20年,每每看到我国智能交通系统领域取得可喜的进步,心中亦是欢愉。
年末岁初,结合日常所感及日记积累,梳理数篇小文。
个词:数据
个写数据,这是无奈和必然的事情,无奈是因为“大数据”一词还是依旧太热太热了,必然是因为数据确实是智能交通系统发展的为重要的基础之一。
前言
2017年“大数据”虽然是热词,但不是一个新词,已经无法起到在芸芸众生中再度*吸引眼球的作用,在此背景下,我们继续发挥创新精神,与数据有关的词也就层出不穷。
例如,有了大数据,得有地方放,放到数据库里有点不合适了,就出来了“数据池”(有点小)、“数据湖”(不够大)、“数据海”(尚不多见),不知道未来会不会有“数据洋”?(百度之:数据池、数据湖、数据海都不是2017年的新词了,只是有的词2017年在智能交通领域开始较多频次的出现)。
当然,地上有海湖池库,那么天上呢?从而就得有“数据云”(也不是个新词了)。逐渐的,大家觉得“大数据”叫了好几年了,不太新了,已经开始出现“巨数据”的提法了。
言归正传,个人认识2017年在交通“大数据”方面还是有较大的发展(含部分2016年的情况)。
现状
成立了众多的各级各类交通大数据研究机构
国家层面有发改委确立的“综合交通大数据应用技术国家工程实验室”;部委层面有交通运输部设置的“综合交通运输出行大数据开放云平台”以及大数据相关的多个交通运输行业研发中心;在省级层面则有以贵州为代表的众多交通大数据体系,而一些发达城市也相应成立了各自的交通大数据中心或平台,例如“南京市交通大数据工程技术中心”。
同时,多个科研机构、高等院校也在各自的层面或联合、或独自成立了各种各样的交通大数据研究中心。虽然这些机构都还只是出于萌芽发展期,但是在持续的投入和努力下,未来应该成为我国交通大数据研究领域的主要力量,将会发挥积极的推动作用。
学术研究方面也有一定的发展
以近年来的学术论文发表为代表,一些的行业内期刊纷纷以交通大数据为主题组织专刊论文。同时,日常发表的论文中应用实际数据(或大量或海量)的成果也越来越多,无不显示了“大数据”对研究推进的支撑作用。
另一方面,基于所谓的“大数据”的行业分析报告也层出不穷,数年前还只有一个拥堵排名,现在已经出现了无数个各类交通的排名,机动车也排,非机动车的也排,无论手里有什么专项的数据,都去进行研究,遑论成果如何,也算是有意义的探索和实践。而有交通大数据字样的书籍也在不断的推出,显示了我们在大数据领域的卓有成效的探索。
各类交通“大数据”公司如雨后春笋般涌现
一是传统智能交通公司的多元化或扩展(用词未必恰当),都会给自己注上“交通大数据”的标签;
二是数据巨头们的介入,凡是掌握了与交通相关数据的一些巨头们,都在进入这个领域,有电信行业掌握大数据的,如移动、联通等,有出行领域掌握车辆轨迹数据的,如BAD等;
三是一些能够获取某类数据的,例如一些可以获得手机信令数据,再整合一些交通行业数据,也可以在某个地区某个领域做一些事情;
四是一些新兴的创业型企业,源于高校的、源于某个传统行业的,层出不穷。
问题
看了众多大数据的分析报告及应用成果(当然目前交通“大数据”的各类分析报告日渐增多,无法一一过目),感觉目前在应用交通“大数据”方面还是有一些问题应当注意。
偏颇
大数据分析技术从某个角度或层面也可视为更为广泛、复杂的统计分析,而统计分析的一个关键就是抽样的无偏性(只要不是的全样就涉及抽样的问题),而现在在交通领域中,一些涌现出现来的“大数据”类型往往都是有偏。
例如(下面的分析可能不够准确,因为并不了解准确的各家的数据源),一些互联网+的数据主要来自各类运营车辆和地图的用户以及网约车等的浮动车数据等。因此,基于这些数据进行一些反映交通状态的分析应无不可,例如反映道路的拥堵情况,但是用来分析人的出行行为的时候,就需要明确只是基于这一部分用户的情况,而非代表整个城市的出行人群。(当然也可能正好抽样是的,即使如此,或许也只是代表机动车出行的规律)。
抽样样本量大但是因为抽样偏颇而导致预测结果不准的情况已不罕见,这是当前使用某类“大数据”进行分析时需要注意的。
似乎还是没有深入本质
现在近乎每天都会有基于各类所谓的交通“大数据”的分析报告或文章出现,而很多报告有时在阅读后会有这样的反应:这些结论不用所谓的“大数据”也都知道啊。那么问题就来了,“大数据”的价值在哪里?
个人的一个认识,造成这种情形的一个原因是数据过于单一化,一些单一类型的数据虽然数据量急剧增加,但是反映的内容其实没什么变化,只是单纯的统计样本增加,由此形成的结论是利用之前的小抽样也能够知道的。
因此,未来交通大数据要充分发挥作用,多源数据的整合和交叉是一个重点。同时,由于缺乏多源数据的支持,使得很多所谓的大数据的分析依然只是停留在统计分析的层面(三维、展示做的再好看,也还只是简单的加减乘除层面的统计分析),虽然也会有一些有意思的结论,但是还是缺乏深入的对规律、机理、行为本质等方面的揭示,还是没有发挥所谓大数据更深层次的功能。
同时,大数据分析是一种新的思考方式,告诉我们应该尝试从数据中挖掘出知识来,但是这并不意味着每个数据(集)都能够挖出金子,因此,大数据是有用的,但不需神话之。
人员的问题
曾经多个书籍、报告都提到大数据人才的匮乏及其价值,因为在大数据的发展中,数据固然是重要的,但是更重要的是能够对数据进行分析的人,一个拥有大数据思维的人员是能否从数据中挖掘出金子的关键。而对于交通领域而言,这样的人不仅要对数据本身有着深刻的认识,而且对于交通问题要有充分的理解。
从量到质
目前我们对于大数据的使用,似乎还只是在一个量的问题上,可以把以前因为数据缺乏而不清楚的问题描述的更加清楚。未来我们需要的是要把大数据的应用提高到带来质的变化。
未来
超越可视化
近年来大数据的研究开发中的一个表象是大家在可视化上下了较大的功夫,又是仪表盘又是三维图,渲染的效果确实非常棒,眼看上去就会被吸引。
但是新鲜过后,还是需要能够应用,因为数据可视化只是实现目标的一种手段。虽然数据的采集、存储、维护的硬件技术条件飞速发展,但是必须看到,近年来为了管理和维护所谓的“大数据”各单位都在基础设施、维护体系等方面付出了较大的资源,而数据本身并无价值,其价值要体现在有益的分析中。
因此,未来除了提供便捷、美观的可视化效果外,如何深入问题实质,探究真正解决问题的大数据分析,应当是摆在交通大数据分析师面前的更为关键的问题。
提高支撑决策的能力
从数据出发,形成源自数据的知识,进而由这些知识指导人们的决策和行为,这是数据价值的发挥之道。未来,需求用户单位需要与数据分析组织密切配合,形成充分的交流和沟通,以便数据科学家(分析者)可以帮助用户从数据中获取洞察力和理解力。
借用《超越可视化》书中所述,健康数据生态系统的必要条件是6D:需求、设计、开发、发现、讨论、提炼,且构成不断的循环。
因此,没有明确的应用需求,即使花费大力气分析的数据结果也无法充分发挥价值或只是用来展示。发现洞见、影响决策和采取行动,应当是大数据可以提供有力支撑的方面。
其他一些大数据的应用需要注意的方面:需求驱动,避免“无病呻吟”;客观使用,避免“偏颇片面”;模型应用,注意“物理含义”;专业思考,寻求“有用知识”。
无论如何,近年来我们开始幸福地烦恼着,我们以前所常常困扰的数据缺乏的问题似乎在一定程度上有所解决,但更大的问题也来了:我们究竟可以用这些数据做些什么有价值的东西?
实际上,在近年来数据的支撑下,我们已经开始向着更为微观、更为宏观等不同层面进行了大量的探索,大数据的价值还是在逐渐显现,只是前途依然曲折。
大量数据的使用的大意义之一在于它能让计算机完成一些过去只有人类才能做的事情,甚至是人类无法做的事情,而这将终带来一场智能的革命。这也是下一个词所要探讨的话题。
后引用一句话作为结语:“数据既有助于解释事物的现状,也有助于解释它们的未来;但只有当数据能够告知、指引并引导出智慧的讨论、决策和行动时,它才变得真正强大”。
(原标题 洞见·2017 | 李瑞敏:“大数据”的幸福与烦恼作者简介:李瑞敏,清华大学副教授)