“人的一生就是一堆数据,数据太重要了,只要数据在,人死了还可以让别人觉得他还活着。”
坐在帝国理工学院数据科学研究所里,听到研究所所长郭毅可淡然地说出这句话时,毛骨悚然了一下,窗外来来往往的人仿佛变成了一堆堆行走的数据。
进入大数据的正题之前,我们来看几个例子。
据2011年英国人口普查的数据统计,伦敦有约978万人口,其中白种人占到总人口的59.8%,亚裔占18.4%,黑种人占13.3%,混血占5%,阿拉伯裔占1.3%。而在伦敦978万人口当中,仅有约518万人在英国出生,这意味着近一半的伦敦人口为外来人口。更令人惊讶的是,这其中,印度、波兰、爱尔兰、奈及利亚、巴基斯坦以及孟加拉占据了人口来源数量国的前六名,如果不是看到摆在面前的精确数据,很难想得到。
看,在认清世界方面,数据很重要。
那什么是大数据?
前两年,一份由百度知道统计出来的《中国十大“吃货”省市排行榜》在网上热炒,“吃货省”广东夺冠。数据显示,在百度知道问答平台上,跟吃有关的问题有7700万条,占到2.3亿已解决问题中的三分之一。
在“网友们最想问”的问题中,“孕妇不能吃哪些食物”和“吃什么水果减肥最快”均有30万左右的人在提问;一个很萌的问题:“昨天晚上还活着的螃蟹死了,还能吃吗?”吸引了6万多网友的回复,回答人数最多。历史浏览量最高的是“看电影吃爆米花的习惯是从何时形成的”这样的冷知识,有863万网友关注。更加有趣的是,宁夏的网友最关注的是“螃蟹能吃么”,内蒙古、新疆和西藏的网友关注的是“蘑菇能吃么”,但是,吃货大省例如广东、浙江等地的网友关注的是“xx虫能吃吗?”正如广东网友“食面”评论:“看关注点就知道广东第一当之无愧。”
百度做的这件看似只是调解生活乐趣的小事情,就是大数据的一个典型应用。在百度知道7700万个有关“吃”的问题当中,涉及到的不仅仅是简单的单一类的数据,而是包括了食物的做法、吃法、成分、价格、营养价值和地域等等,可以说,这些原始的数据相当“乱七八糟”。但恰恰是这些杂乱的数据,经过挖掘、加工和整理分析,得到了有意义的统计规律,例如不同地区的饮食偏好等。
大数据有多大?拿维基百科上的例子来说,CERN做的LHC(大型强子对撞机)周长27公里,里面一共有1.5亿个传感器,每秒钟读数达四千万次。每秒钟发生的粒子对撞高达6亿次。剔除99.999%的无用数据,每秒钟也有100次碰撞需要记录。如果在这些数据里面仅仅使用十万分之一,那么一年也要积累25 petabytes的数据,相当于25000个1TB的硬盘。
不够直观?那么再举一个例子,一个人完整的基因数据就是非常大的。据华大基因创始人杨焕明院士介绍,这个数据量大得超出常人想象,在 PB(1015 字节,即一百万个 GB)这个数量级。如果仅仅从数据量的大小来看,这一个人的数据可能已经超过百度知道的数据量了。
大数据因为大,不仅远远超过人工的处理能力,也远远超过普通台式机的处理能力。只有特定的算法和特别设计的硬件架构才能够有效的处理大数据。上个月习近平携夫人对英国进行国事访问,郭毅可向习近平夫妇展示了大数据的研究成果:“我给习主席展示了三个不同项目,一是一带一路政策对邻国巴基斯坦会产生怎样的影响;二是上海地铁的人流分布和应急办法,比如静安寺地铁站封站,上海地铁的人流将往哪儿走;还有就是中国人口迁移的情况和个性化医疗的推广。” 在帝国理工的数据研究所,《华闻周刊》记者也有幸见到了这个“世界之最”——全球最大的数据可视化设施“全球数据观察站”。由64块电脑屏幕拼接而成的超级大屏幕是普通电影屏幕的两倍还大,在其背后,是37台电脑并行运算,将中国人口迁移趋势一一动态展现,随意操控下,小到一省、一市的流入人口人均收入、平均年龄、受教育状况等纤毫毕现。站在屏幕的中央,感受着数据在眼前变成触手可及的图像,如同站在浩瀚银河系感受时空交错间群星熠熠一般震撼。
“这种数据可视化技术,是进行大数据研究重要工具之一。”郭毅可介绍,数据可视化是研究如何将数据以形象化的方式展现出来的一门科学。它主要专注于分析,以连贯和简短的形式把大量的信息展现出来,而抽取何种数据进行形象化的抽象,本身就蕴含了对数据如何应用的科学思维。 他说,“这跟如今常见的大型显示屏可不一样,几十个电脑屏幕组成的动态数据图像如何准确衔接、其背后蕴含的是并行运算、多项目管理、编程,以及对数据的深刻理解。”
令郭毅可印象深刻的是,11年前,他曾经作为学术代表,参加了温家宝总理访英期间的座谈会,并提出建议:更好地将“中国制造”转变为“中国创造”,中国研究力量应该走出国门,走向全球,搞跨国实验室。如今,仅在数据科学研究所内,就有浙江大学、华为,以及建设银行等机构来此合作开设的3个联合实验室,一系列跨国合作的大数据研究,正在这里紧张进行。
去年9月,与浙江大学的“应用数据科学联合实验室”在帝国理工数据研究中心内挂牌。两校学者将在实验室共同开展大数据技术在能源、医疗保健以及生命科学等领域的应用研究。目前浙大已向实验室派出多个优秀科研团队,包括数学系的“城市污染的大数据建模、仿真及控制”项目和计算机系的“数字图书馆中海量资源的知识抽取和重组”项目等。
在问起大数据将从哪些方面改变人类生活时,郭毅可抚掌大笑,“你应该问,今后哪些方面会不被大数据改变。要我说,今后人类的生活没有一个方面不受大数据的影响。”
他向记者展示了“大数据在医疗方面也大有可为”的例子:对人的基因组进行分析,对未来的疾病进行预测,从某种程度上这也意味着基因治疗将成为可能。
2006年谷歌创始人谢尔盖·布林的妻子安妮·沃西基(Anne Wojcicki)在硅谷创立23andMe,专门从事基因测序,只需100美元,不管你住在世界的哪个角落,只需要吐一口唾沫或拔一根头发,邮寄到23andMe位于加利福尼亚州山景城的实验室里,两周后你就可以从他们网站上查询你的“身体秘密”。23andMe公司宣布,通过全基因组上超过100万个位点的基因信息分析,他们可以对259种疾病提出患病率的预测和祖先遗传分析,从而提前干预。仅仅在10年前,这项技术却需要耗费惊人的27亿美元,再加上数百科学家13年的时间。不久的将来,诸如23andMe这样的基因技术公司会越来越多,由此给制药业带来的影响将显而易见,有望实现真正的个性化诊断。
随着大数据计算的发展,中国也出现了一些试图复制23andMe模式的公司,比如创立于2008年的iDNA,还有近几年流行起来的华大基因、贝瑞和康。但他们都更注重线下的推广和销售,比如和一些医院,以及高端体检中心合作。除此之外,飞利浦现在正在研发的“个人健康管理系统”(Personal Health Management),它可以成为医疗系统管理慢性病患者的基础工具。该系统拥有供医务人员和病人使用的两个客户端,相互之间可以进行实时沟通,从而帮助医务人员更高效地管理病人,并使病人能在任何时间、任何地点获得健康服务。
而除了医疗领域,大数据对企业也将带来质的影响。2014年,美国互联网创业企业VC融资比2013年上涨了67%,累计达到196亿美元。大数据领域的迅速扩张最为明显,商务智能、数据分析和绩效管理是主要的细分行业,融资20亿美元,占总量的10%。畅销书《大数据时代》作者维克托 迈尔 舍恩伯格认为,大量的数据分析能够让传统行业更好地了解客户需求,提供个性化的服务。在“大数据”之前,企业得到的都是分散性的信息,因此在制定策略时做的都是短期行为。“大数据”则给出了一个结构性的信息,帮助企业做长期性的决策。
维克托在福布斯论坛上以美国零售公司Target为例,他们已经有大数据分析:有一天,客服人员接到一位非常生气的客户来电,这个客户说公司送给她17岁的女儿一个折扣券,而用于购买尿布或者避孕药,这位客户说:“我17岁的女儿根本不需要,你们要向我道歉。” 几天以后,客户又打来电话道歉,说你说的很准,我的女儿真的怀孕了。怀孕的女性会改变自己的生活习惯,有时候我们不知道她们已经怀孕,Target却先知道了。
基于大数据分析的结果,进行资源优化配置,才是大数据应用的落地点和真正价值。
临离开前,在帝国理工数据科学研究所的大屏幕上,郭毅可向《华闻周刊》展示了他最近的项目:以数据可视化的技术将整个宇宙呈现在眼前,墨玉一样的屏幕缓缓亮起了璀璨星河,十分震撼。当记者问起为什么做这个项目时,郭毅可盯着屏幕上的星系:“不为什么,就是探索。”
本文出自《华闻周刊》第200期精装杂志,订阅杂志