大数据的误解和中国的科技发展之路

赵文银 原创 | 2014-05-05 10:39 | 收藏 | 投票

毫无疑问,具有科学精神、理智的中国IT精英正在加快把美国“新概念”引入中国的速度,而中国巨大的商业市场也让美国的科技公司想方设法快速把“新概念”推销到中国。尽管人们并不明白这些概念的含义,但是既然是美国人提出来的,那么在国人的思维里,这些概念应该是很厉害的。

没有比中国更好的“忽悠”场所了。奇怪的是,人类的每次科技进步似乎都离不开“忽悠”的作用。在麦克·哈特的《影响人类历史进程的100名人排行榜》书里,牛顿、爱因斯坦、伽利略、亚里士多德这些伟大的科学家不仅是“忽悠”高手,更主要的是他们有一流的“忽悠”场所。

从历史来看,提供“忽悠”场所的区域必定是下一个科技文明中心。这也符合羊群效应特征,当大量的科技思想聚集在一起的时候,总有一些思想是革命性的。比如当爱因斯坦忽悠很多人研究他的理论时,尽管他本人并没有取得突破,但是其他人取得了突破,从而真正建立了具有革命性的理论体系。

尽管云计算、大数据发源于美国,但是中国的专家权威和IT精英很快把它们引入到中国,并利用独特的文化快速建立了庞大的“忽悠”场所,以至于西方国家的技术权威和IT精英也不得不把关注转移到中国。

这个由软件行业发起的技术“云忽悠”快速发酵,法律、经济、社会等领域的专家也快速加入进来了,法律专家开始讨论云计算对现有法律体系造成的冲击,经济学家开始讨论“云经济”,贫困县的农民也开始研究云计算(http://sn.yixian.em258.com),探索利用云平台推动农村经济发展的模式。

在“云计算”持续升温的时候,“大数据”又来了。与云计算不同的是,这次媒体“理解”了大数据这个名词,所以逢年过节或者重大活动的时候,大数据成了媒体喜欢用的热词。

 

一、大数据的误解

 

相对于云计算概念,大数据是一个单纯的技术概念,容易理解和定义。但是从目前网上收集的资料来看,人们对大数据的理解存在较大的偏差。产生这种现象的原因比较简单,即研究大数据的是计算机专家,并不是哲学家,他们采用数量的多少来直观地处理数据,而不会采用“量变会产生质变”的思想来处理数据。

1、“狼”真的来了

哈佛大学社会学教授加里·说,这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。

2013510日,阿里巴巴集团董事局主席马云在淘宝十周年晚会上,将卸任阿里集团CEO的职位,并在晚会上做卸任前的演讲,马云说,大家还没搞清PC时代的时候,移动互联网来了,还没搞清移动互联网的时候,大数据时代来了。

IBM的 大数据战略以其在20125月发布智慧分析洞察“3A5动态路线图作为基础。所谓“3A5,指的是在掌握信息Align)的基础上获取洞察Anticipate),进而采取行动(Act),优化决策策划能够救业务绩效。除此之外,还需要不断地学习Learn)从每一次业务结果中获得反馈,改善基于信息的决策流程,从而实现转型Transform)。

基于“3A5动态路线图,IBM提出了大数据平台架构。该平台的四大核心能力包括Hadoop系统、流计算(StreamComputing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)。

2、大数据的误解在哪里

维基百科的定义是,大数据(Big data),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集(data set)相比,将各个小型数据集合并后进行分析可得出许多额外的信息和数据关系性,可用来察觉商业趋势、判定研究质量、避免疾病扩散、打击犯罪或测定实时交通路况等;这样的用途正是大型数据集盛行的原因。

这个定义符合当前计算机专家的软件建模思维,即去掉现实模型中的复杂细节,由设计人员依据自身所掌握的知识,按照主观意识抽象出一个用来代替现实复杂模型的简单模型。

然而不幸的是,这种思维用于处理真正的大数据模型时,大麻烦就会出现了。蝴蝶效应让大范围内的数据效果变得不可思议。

对于计算科学来说,所有的理论和方法,都是为了处理数据本身的复杂关系。这是唯一的目的。如果把物理世界的存在事物当成数据体,那么物理世界的所有理论和方法,其目的也只是解决数据的存在关系。

人们对大数据的误解主要体现在以下一些方面:

误解一,大数据是大量简单小数据集的集合。真实情况是,大数据是由不同层次的数据集构成的复杂数据集合。其哲学逻辑描述是,大数据作为一个存在的事实,由一系列的数据集构成,数据集作为存在的事实,由更小的数据集组成,不能再分解的数据集被称为对象,是大数据的最小构成单元。

误解二,大数据的效果来自对大量小型数据集的合并分析。真实的情况是,真正决定大数据效果的是数据的组织连接形式,即结构。结构传递了结点上数据的效果,按照混沌理论,一个很小的局部事件,通过不确定性的非线性路径的传递,将产生蝴蝶效应。或者一个很大的局部效果,通过传递过程的衰减,变成很小的整体影响。

3、大数据的关键技术在哪里

尽管中国的IT权威专家或者技术人员很少质疑来自西方的新概念,把它们当成“真理”而大加宣传,但是西方的权威专家却在不断修正这些概念,有时会全面否定之前的定义或者观点。

据网上资料显示,UML之父Ivar Jacobson来中国参加一次活动时说,“软件工程中有几百种方法,种类太多本身就是一个问题,这些方法缺乏一个共同的基础,比如很难将CMMIScrum统一到一起。现在要做的就是重建软件工程的基础又比如google指出了hadoop存在的问题,并且采用其它技术来替换。

在中华文化里,“人穷志短”、“拉大旗做虎皮”是中国人很重要的的处世方式,这种生存哲学阻碍了中国取得原创革命性科技成果的机会。比如中国的权威专家一方面高谈完全自主知识产权的重要性,并以此通过政府的力量控制更多的资源,另一方面又想办法和西方的权威机构合作,利用他们的先进技术来保证自己在国内的技术领先地位,甚至少数人幻想这种方式可以让他们超越给他们提供技术的西方合作机构。

大数据是一个西方专家目前并没有弄明白的东西。谷歌的工程师发现当大量的数据出现时,就可以获得一种规律性的结论。于是西方专家提出了大数据(Big data)概念,并快速成为科学家、企业家和政府关注的对象。

据网上资料说,谷歌流感趋势预测的文章发表4年以后,新的一期《自然杂志消息》报道了一则坏消息:在最近的一次流感爆发中谷歌流感趋势不起作用了。

建立大数据模型并不是一件容易的事情,受还原论思想的影响,西方的计算科学家采用线性思维来建立大数据模型,大数据只是大量小数据体的集合,并不考虑数据聚集在一起后产生的整体效应。这不是说西方科学家不了解整体效果,混沌理论,蝴蝶效应也是西方科学家提出的。

除了民族自卑感外(长期的民族屈辱使中国人失去了原始创造的自信),追求个人(或者小集团)名利的社会大环境使中国失去了原始创造力的生存土壤。

建立大数据模型需要把西方的还原论和东方的整体论思想结合起来,参照《逻辑哲学论》里的描述方式,大数据是由大量不能再分解的数据单元构成的,这些数据单元连接成小数据体,小数据体再连接成数据体,最终连接成一个大数据体。所以大数据是一个巨复杂的数据模型,但是这个巨复杂模型又是由简单模型组成的。可见大数据的关键技术在于数据体的组织连接形式,即结构。

由此可见,大数据技术包含两大部分,一是简单数据处理,属于传统技术,目前已经有很多有效的方法;另外一个是数据结构处理,这是一个全新的技术,也是云计算的典型特征,在这个技术领域,中国和美国等发达国家处在相同的起跑线上。

 

二、中国的科技发展之路

 

人类所创造的全部文明,都是建立在信息技术之上的。人脑是最基础的处理信息的装置,而为了提高大脑的信息处理能力,人类在漫长的历史里,发明了很多辅助设备,比如结绳记数,算盘等,直到计算机的出现,人类才真正了解信息的意义。作为现代科学的领袖,美国在上世纪90年代,就果断地把信息技术作为国家战略,从而快速推动了工业技术和农业技术的发展,成为全球科技领跑者。

1、对中国来说,云计算带来的机遇到底是什么

经过几十年的努力,掌握中国大多数资源的权威精英建立了和西方技术沟通交流的通道,一个明显的事实就是,美国IT公司推出的新产品或者新概念,可以在很短的时间内出现在中国,比如苹果手机或者网站模式。但是这种表象的背后也存在一个危险的事实,就是中国和美国的应用产品接近同步出现时,其核心技术竞争力之间的差距却越来越大了。当中国的权威精英借助西方的技术、资金以及所控制的国内资源,展示取得的“试验”成果时,中国民间老百姓的创造力也正在因为失去市场资源而越来越虚弱。

云计算拉开了新一轮技术革命的序幕,把各国之间的技术竞争提升到了一个新的层次。这是一个空白的竞争层次,各国处于相同的起跑线,所以云计算带给中国的机会就是成为世界科技领袖,重建古代中国的科技辉煌。

2、探索云计算时代的科技发展模式

2014227日下午习近平主席在中央网络安全和信息化领导小组第一次会议指出,没有网络安全就没有国家安全,没有信息化就没有现代化”,“建设网络强国,要有自己的技术,有过硬的技术”,“要培养造就世界水平的科学家、网络科技领军人才、卓越工程师、高水平创新团队”。

云计算革命的真正意义在于修正当前科学的思维模式,推动了新科学的诞生。这种科技革命将破坏现有的科技结构,建立新的科技竞争力结构体系。谁将成为云计算时代的科技领袖,关键在于其国民的整体创造力。

当前中国科技发展存在的问题:

(1)单一领域的学术研究成果,很难转变成企业所需要的产品。经过多年的发展,产品已经从单一功能转变为提供很多功能,比如手机。这种应用需求的改变对研究机构提出了新的要求。

(2)科研机构获取利益的途径不正确,缺少创造革命性技术的原动力。由于权威人员控制了国家科技资源,可以从国家获得大量的科技经费,成为获得个人财富的主要途径,因此他们只要和国外有实力的企业或者机构搞好关系,就可以借助国外的技术,没有风险地确保了自己的利益。从人性的角度来分析,在没有生存压力的状态下,人是不会为了创造而承担风险的。相反,权威专家为了维护自己的利益,会设法打压一些创造性的技术,比如网上资料显示,伟大的发明家爱迪生为了维护自己的利益,利用自己的权威打压尼古拉·特斯拉发明的交流电技术。

(3)缺少发挥老百姓创造力的土壤。草根老百姓发挥创造力,就需要产生大量的行为活动,而这些行为活动必须在国家法律法规的框架下进行,因此需要尽快提高基层政府领导的知识能力,用创新思维来处理老百姓的创造性要求。

尽管中央要求地方政府为老百姓发挥创造力提供支持,但是要基层政府真正做到创造性地为老百姓提供支持,难度是很大的。比如易县云计算微创业联盟(http://yixian.em258.com)采用云计算推动农村信息化服务平台的建设,自发组织了很多农民,探索用信息化推动“三位一体”合作社发展的模式,目前已经实现了200多个村的信息互连互通,并采用“一村一商城”形式搭建供销渠道。但是在注册农民信息服务合作社的时候遇到了困难,按照国家法律法规,在没有注册信息服务合作社之前,以信息服务合作社的名义开展工作是不合法的,因此遭到了工商人员询问,当他们去工商局办理手续的时候,工商局以“这是新事物”为由而拒绝办理。但是当保定市有关领导了解情况后,认为这是创新,责成有关部门领导督办处理,提供帮助。这种认识上的区别来自知识层面,一般来说越基层的政府部门领导,受知识及环境的约束,对中央政策的理解和执行程度越弱。

IT技术的发展历史来看,云计算竞争或许在5-10年内就可以确定科技领袖排行榜,并成为一个国家全球影响力的关键指标。对于中国来说,如何获得真正的具有完全自主知识产权的云计算核心技术,或许需要考虑以下一些问题。

(1)社会环境方面,建立发挥全民创造力的环境,尽快打破由西方主导的通过国内权威专家控制中国科技资源的局面,真正做到让市场决定资源的分配。尽管通过科技权威获得西方先进技术非常重要,可以紧跟西方的科技步伐,但是真正推动中国崛起的是老百姓的原始创造力,只有这种创造力的成果才有可能超越西方技术。

(2)科技方面,在原始发明创造上加大投入力度,摆脱对西方专利技术及标准的依赖。

(3)政府方面,摆脱办公室官僚作风,真正融入老百姓中,帮助老百姓创建发挥创造力的平台。比如农民信息合作社是真正让农民成为信息的提供者和消费者,和种植合作社一样,农民自己成了信息的主人。但是由于国家有关部门没有提出可以成立农民信息合作社的通知,所以地方工商局也就不办理信息合作社的执照。以易县云计算微创业联盟为例,全县469个村,目前有近200个村已经实现了“一村一网站一商城”,并采用农民信息合作社的形式让农民掌握信息,但是由于不能在工商局办理执照,所以农民就不能利用信息开展商业活动,熄灭农民利用新生事物发挥创造力的激情,阻碍了农民通过勤劳和智慧创造财富的进度。

个人简介
赵文银,中国电子学会高级会员,中国电子学会云计算专家委员会委员。1986年毕业后分配到石油地球物理勘探局研究院工作。
每日关注 更多
赵文银 的日志归档
[查看更多]
赞助商广告