DYNAMICS 动态
人类已经等了五千年,#数据想象力#终于迸发
2016-04-14

最大的资源是数据


大数据——这个新生词汇萦绕在21世纪的开端。

2014年3月的第一个周末,马云在北京的一场大数据产业推介会上提出:“人类正从IT时代走向DT(Data Technology)时代”。

这位阿里巴巴的创始人认为,“未来的制造业要的不是石油,它最大的能源是数据。”

那么,数据真的有那么神奇吗?

对于这个问题,历史学家的回答是:

5000多年前人类最早的文字就是为数据量身打造的;

人类能够从原始的食物采集者进入稳定的农业文明,从原始部落走向城市、王国和帝国,数据也功不可没。

价值 | 数据的起源

公元前3500年-公元前3000年,在与北京直线距离6000多公里的两河流域,艳阳高照在这片肥沃的平原上。定居在这里的苏美尔人发展出发达的农业和繁荣的城镇。

不像靠采集和打猎为生的几百人原始部落,进入农业社会的苏美尔人口越来越多,地盘也越来越大。于是,苏美尔人遇到了一个棘手的问题——这么多人口,该怎么管理呢?该种多少麦子?该收多少税?

人类的“好记性”已经应付不了这些,只能借助外部工具了。于是苏美尔人率先发明了一套专门处理大量数字和数据的系统——“文字”。

(图说:没想到,人类最早的文字信息既不是诗歌也不是故事,而是财经数据:“29086单位大麦37个月”)

尤瓦尔·赫拉利在《人类简史》一书中评价说:

如果要管理一个大国家,数字可以说是一大关键。

人脑的限制大大局限了人类合作的规模和程度。

(可以用文字记录数据的)苏美尔人的社会秩序不再受限于人脑的处理能力,可以走向城市、王国和帝国。

价值 | 大数据之“大”

美索不达米亚南部的苏美尔人开启了人类的数据时代。那么,今天我们正在探索的大数据时代与五千年前有何不同?大数据又到底“大”在哪?对于普通人来说,这些问题可能还是傻傻分不清。

DT君联合“问卷网”做了一份关于对大数据认知和态度的调查问卷。在“什么是大数据”的多选题里,选择“全国人口普查”的人次最多,“政府财政数据”和“商业抽样数据”居后,而认为“淘宝‘剁手’指数”是大数据的人次竟然只有“全国人口普查”的1/4不到。

对于大数据的定义不尽相同,但它与普通数据最大的区别在于样本从部分变成了整体。按照《大数据时代》一书中的观点:

大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理。

根据这个观点,“商业抽样数据”肯定不是大数据的范畴,而“人口普查数据”则是。

有一种较为狭义的大数据论,认为大数据是基于用户痕迹,可以快速反馈的数据。这种观点明显是基于互联网时代,尤其是移动终端特征的。如果根据这个说法,上图四个选项中,只有淘宝数据可以被称为大数据。

还有一种让“小数据”变“大”的观点。数据专家涂子沛认为“小数据”在纵向时间上的积累,或者空间上的记录,再整合其他数据也能产生价值,成为“多源”的全息大数据。

那么到底什么是大数据?DT君认为,不用纠结于定义,而应该重在应用。正所谓“不看广告,看疗效”,大数据应该是能准确解释原因、预测趋势的数据。

价值 | 大数据的应用

大数据的收集与应用已经无处不在:购物网站的每一次消费和查看、搜索引擎的每一次输入、资讯平台点开的每一个标题……我们这些被记录下来的行为,都是大数据时代的基本粒子。

生活中让我们感受最深的大数据应用之一,就是交通大数据。比如2016年1月高德地图发布的《2016年春节出行预测报告》,预测了春节期间哪一时间段在哪个高速路段可能有怎样程度的拥挤,并给出绕行方案。

这种长时间的预测,必须要用到往年的数据,而更多情况下的交通预测是基于当下交通流量大数据的及时反馈。比如可以看出某一路段车辆的实时位置,然后系统会预测未来几分钟、几小时的车流。

精准的预测可以获取利益,也可以规避损失,其价值不言而喻。高德公司估算:使用高德地图躲避拥堵功能,平均每月为全部用户节省时间达700年,节油高达1840万升、价值1.3亿元。

除了交通,大数据还将在哪些领域开花结果?根据中投顾问的《大数据产业报告》,教育、交通、消费、电力、能源、大健康和金融是全球大数据应用的七大领域,总价值预估在32200-53900亿美元。

但是这数万亿的市场大部分还在脑海中。尽管大数据这个词已经铺天盖地,但人类还并没进入大数据时代。有专家认为,目前大数据给出的结果可靠性太低,如果急于应用到实际中,就好比是土木工程还没学好就开始造桥,结果可想而知。

开放 | 作为基础的政府数据

苏美尔人发明的数据记录系统,让他们有能力管理日益复杂的社会,可以知道有多少人口,每年产多少粮食、收多少税……自古以来,数据就是一个城邦、一个王国甚至一个帝国重要的治国依据。

在现代社会,公安部门有人口数据库,工商部门有企业数据库……每个政府部门、每级政府单位都有各自的数据库。虽然按照“用户反馈”这一特征,政府数据不一定能被称为大数据,但政府部门积累的海量数据,却是建造大数据“跨海大桥”的桥墩。

比如高德地图,就与交通部门有合作,拿到了交通部门的数据。不过,更多的情况是抱怨政府掌控的公共数据存在重重壁垒,公共数据不够开放。

政府公共数据是否该公开,又该怎样公开,民众也有自己的看法:

数据专家涂子沛认为,只要不危及国家安全、不侵犯公民隐私,政府公共数据就应该开放。原因很简单,政府收集数据用的是纳税人的钱,收集的也是纳税人的数据,自然要向纳税人开放。

但是数据开放不是简单的政府信息公开,涂子沛认为“公开”和“开放”是两个不一样的词:

公开是信息层面的,是一条一条的;开放是数据库层面的,是一片片的。

他认为,大数据时代,不同系统之间的数据要进行整合,要有统一的元数据定义。

好消息是,2015年9月国务院印发《促进大数据发展行动纲要》称,国家政府数据统一开放平台将在2018年底前建成,率先在气象、环境、信用、交通、医疗、卫生等20余项重要领域,实现公共数据资源合理适度向社会开放。

开放 | 商业数据是否也该开放

作为战略资源,石油曾多次引发争夺战。如马云所述,数据将是比石油更重要的资源,它又会引发怎样的争斗?

互联网大佬都在觊觎政府的大数据,都想获得这个庞大的资源。政府也越来越需要这些互联网大佬的技术,愿意与这些企业点对点合作。

但这些互联网企业自身也拥有着海量的数据资源,这些源于用户反馈的数据是否也该适当地向社会公开,甚至是与其他企业共享?

对此,民众是这样看的:

《财经》杂志的文章评价说,国内大数据领域的一些学者和业界人士抱怨,政府所掌握的公共大数据存在重重壁垒,难以共享,从源头上有碍于创新。这一观点有其合理之处,但并不全面。因为它难以解释,为何已经手握海量数据的国内互联网巨头,也尚未用大数据技术挖掘出扛鼎之作。

信任 | 无处安放的隐私

在原始部落社会,人类没有个人空间,甚至衣不蔽体、袒胸露乳,没有隐私的概念。即使是在中世纪的城堡里,那些还没有个人主义观念的贵族,也不懂什么叫隐私。他们甚至没有自己的房间,就睡在敞亮的大厅里,活在众目睽睽之下。

如今却不一样,还不识字的儿童也会有自己的房间,藏着自己的秘密。但就是在人类格外注重隐私的今天,我们却暴露在互联网之下。人类越来越多的行为被第三方记录:中午吃了什么、晚上去了哪里、今天走了多少路、跟谁聊天、甚至得了什么病。

对于这些被记录的个人行为,民众是怎么看的?我们以民众对APP获取个人地理位置的态度,做了调查。

斯诺登事件后,保护隐私就是民心所向,而得民心者得市场。美国FBI要求苹果公司协助解开一部嫌犯使用的iPhone5c,但苹果CEO库克拒绝了,甚至写公开信指责FBI破坏美国民主自由的立国根基(尽管最终FBI请第三方解锁了那部手机)。

隐私不仅涉及秘密,更涉及安全。如果说一般的数据是常规装备,大数据就是核装备。大数据可以像核能造福人类,也可能像核武器带来巨大伤害,尤其是多个源头的大数据泄露后被组合在一起,破坏力将大大增加。

其实对于政府来说,开放公共数据也面临着泄密的风险,即使是与科技公司点对点合作,个人隐私也是最容易触及的红线。

信任 | “靠谱”是大数据的生命

在DT时代,大数据将引领日常生活、指导企业生产、辅助政府治国理政。所以,“靠谱”是大数据的立身之本,不靠谱的大数据则可能把社会带上歪路。

大数据靠不靠谱,数据来源很重要。而另一方面,则需要有专业的数据挖掘和分析人员。LinkedIn去年公布了2014年最受雇主喜欢、最炙手可热的25项技能,其中统计分析和数据挖掘技能位列榜首。

大数据人才的炙手可热既反映了行业的向好,也反映了目前大数据挖掘分析的短板,而这种专业人员和专业技能的缺少,也极有可能导致目前大数据产品的失真。

可以想见,在五千年前苏美尔人的社会,会记录数据的人才一定是国之栋梁。而后来儿童也可以书写识数,有了数学家,物理学家……人类现在渐渐进入大数据时代,大数据的技能也势必越来越普及。

大数据能突破人类发展瓶颈吗?

从原始部落进入农业社会,数据记录系统的诞生使得不断增长的人类社会得到有效管理。

如今,全球化的世界面临着更加复杂的问题——人口的进一步增长、资源的不堪重负、环境的持续恶化、生物种群的不断减少……

原始的数据形式已然难以应对今天和明天的问题,大数据也许是解决之道。