大数据产业

  大数据产业

  大数据的理念异常火爆,不仅仅是IT或者互联网人在谈大数据,搞金融、搞医疗、搞地产的......,人人都在谈大数据。但,大潮退后,裸泳的人自然要去遮羞,真正留下的企业才会成为大数据财富的拥有者。在国产大数据产业生态环境中,只有具备核心竞争能力的企业才能成为大数据产业链上的最后赢家。赛智时代的《2013年中国大数据产业链研究报告》试图找到答案。

  Dave Feinleib在大数据厂商生态图中比较清晰地划分了国际上主流的大数据研究、产品和服务厂商,大多数厂商的产品和技术都建立在Apache开源的Hadoop 分布式计算和存储的基础支撑平台上,包括开源的Hadoop/MapReduce、HBase、Mahout 和Cassandra等。开源基础技术之上,主流的大数据厂商分为大数据硬件基础设施(大数据一体机等)、大数据分析基础设施(商业化Hadoop等)、大数据操作基础设施(NOSQL数据库)、大数据基础设施和DAAS云服务(Daas)、商业智能、数据分析与可视化、日志应用、广告应用、垂直行业应用、大数据咨询与媒体服务等领域。

  国内企业(自主品牌)在大数据领域的建设和投资还刚刚开始,在上面这些领域都有公司涉足。

  首先,在大数据硬件基础设施方面,国内主要服务器厂商如曙光、浪潮、华为等公司均推出了自身的大数据一体机产品,如曙光的XData大数据一体机、浪潮的云海大数据一体机等。因大数据硬件基础设施强调基于低成本服务器集群搭建,这就降低了硬件的门槛,使得国内厂商在性能上并不逊色国外厂商,也有迎头赶上的机会,曙光一体机在农行的应用似乎也证明了这一点。

  第二,在商业化Hadoop发行版方面,国内的企业仍在不断摸索,华为的FusionInsight Hadoop在这方面走在了前面,更多的发行版将被推出,据了解国内Hadoop开源社区EasyHadoop的创业团队将推出Hadoop的发行版。在Apache开源项目的基础上,加入相应的优化和服务,这对于国内的hadoop开发者来说,并不是难事,这一领域的领先企业值得期待。

  第三,在NOSQL数据库方面,目前主流的互联网公司,大多采用的是国外开源的NOSQL数据库。但,淘宝、腾讯等公司在开源的基础上自主开发了NOSQL数据库,这也为国产自主NOSQL数据库播下了种子。国产数据库阵营的人大金仓、达梦、南大通用等企业也推出了相应的NOSQL或类NOSQL的数据库产品,但在主流互联网应用还较少,主要面向行业大数据应用。

  第四,在大数据基础云和DaaS方面,这是互联网、电子商务、电信运营商等公司关注的重点,希望通过自身大数据平台和海量用户数据分析,提供大数据分析云服务。这属于大数据的高级应用,技术和用户门槛较高,目前仅有新浪、腾讯、百度、阿里巴巴等大型互联网公司具备大数据云服务的能力。

  第五,在BI和数据挖掘、数据分析和可视化等领域,国内比较集中在报表,如润乾、帆软、用友华表、人大金仓等,文本分析的TRS、海量数据等,以及比较活跃的商业智能软件商如永洪科技等,整体实力还不算强。在基于复杂模型的机器学习和预测分析等领域,仍需要进一步加大研发力度。

  第六,在行业应用领域,目前的主流企业是大数据营销服务商,他们基于网络营销所积累的客户群和数据分析平台(DMP),提供基于大数据的广告营销服务,如百分点科技、传漾、品友互动等公司。随着不同行业大数据应用的兴起,越来越多拥有行业数据的大数据服务商将出现,如专注银行大数据服务的银联商务等。

  第七,在大数据社区、媒体、咨询、培训等领域,伴随着大数据的热潮,一大批社区、媒体、咨询和培训公司涌现出来,比如做社区的EasyHadoop、做大数据研究和应用咨询的赛智时代(CIOManage)咨询等。

  这是赛智时代咨询公司对国内大数据产业(国产自主)生态环境的初步观察,尚有许多不足之处,希望产业界的同仁们与我们联系,介绍和推荐自身的大数据产品和解决方案,协助我们共同完成《2013年中国大数据产业链研究报告》。

  大数据”时代,什么是数据分析做不了的?

  首页

  科学人

  小组

  问答

  MOOC 学院

  知性

  更多

  日志

  活动

  研究生

  果壳精选

  流言百科

  任意门

   

  登录 | 注册

  

  热点

  前沿

  评论

  专访

  视觉

  速读

  谣言粉碎机

  商业科技

  学科

  评论 互联网

  “大数据”时代,什么是数据分析做不了的?

  来园的桃子 发表于  2013-02-26 18:54

  (文/DAVID BROOKS)不久之前我曾与一位大型银行的首席执行官一同用餐。他正在考虑是否要退出意大利市场,因为经济形势不景气,而且未来很可能出现一场欧元危机。

  这位CEO手下的经济学家描绘出一片惨淡的景象,并且计算出经济低迷对公司意味着什么。但是最终,他还是在自己价值观念的指引下做出了决定。

  这家银行在意大利已经有了几十年的历史。他不希望意大利人觉得他的银行只能同甘不能共苦。他不希望银行的员工认为他们在时局艰难之际会弃甲而逃。他决定留在意大利,不管未来有什么危机都要坚持下去,即便付出短期代价也在所不惜。

  做决策之时他并没有忘记那些数据,但最终他采用了另一种不同的思维方式。当然,他是正确的。商业建立在信任之上。信任是一种披着情感外衣的互惠主义。在困境中做出正确决策的人和机构能够赢得自尊和他人的尊敬,这种感情上的东西是非常宝贵的,即便它不能为数据所捕捉和反映。

  这个故事反映出了数据分析的长处和局限。目前这一历史时期最大的创新就在于,我们的生活现在由收集数据的计算机调控着。在这个时代,头脑无法理解的复杂情况,数据可以帮我们解读其中的含义。数据可以弥补我们对直觉的过分自信,数据可以减轻欲望对知觉的扭曲程度。

  但有,些事情是“大数据”不擅长的,下面我会一一道来:

  数据不懂社交。大脑在数学方面很差劲(不信请迅速心算一下437的平方根是多少),但是大脑懂得社会认知。人们擅长反射彼此的情绪状态,擅长侦测出不合作的行为,擅长用情绪为事物赋予价值。

  计算机数据分析擅长的是测量社会交往的“量”而非“质”。网络科学家可以测量出你在76%的时间里与6名同事的社交互动情况,但是他们不可能捕捉到你心底对于那些一年才见2次的儿时玩伴的感情,更不必说但丁对于仅有两面之缘的贝阿特丽斯的感情了。因此,在社交关系的决策中,不要愚蠢到放弃头脑中那台充满魔力的机器,而去相信你办工作上的那台机器。

  数据不懂背景。人类的决策不是离散的事件,而是镶嵌在时间序列和背景之中的。经过数百万年的演化,人脑已经变得善于处理这样的现实。人们擅长讲述交织了多重原因和多重背景的故事。数据分析则不懂得如何叙事,也不懂得思维的浮现过程。即便是一部普普通通的小说,数据分析也无法解释其中的思路。

  数据会制造出更大的“干草垛”。这一观点是由纳西姆•塔勒布(Nassim Taleb,著名商业思想家,著有《黑天鹅:如何应对不可知的未来》等书作)提出的。随着我们掌握的数据越来越多,可以发现的统计上显著的相关关系也就越来越多。这些相关关系中,有很多都是没有实际意义的,在真正解决问题时很可能将人引入歧途。这种欺骗性会随着数据的增多而指数级地增长。在这个庞大的“干草垛”里,我们要找的那根针被越埋越深。大数据时代的特征之一就是,“重大”发现的数量被数据扩张带来的噪音所淹没。

  大数据无法解决大问题。如果你只想分析哪些邮件可以带来最多的竞选资金赞助,你可以做一个随机控制实验。但假设目标是刺激衰退期的经济形势,你就不可能找到一个平行世界中的社会来当对照组。最佳的经济刺激手段到底是什么?人们对此争论不休,尽管数据像海浪一般涌来,就我所知,这场辩论中尚未有哪位主要“辩手”因为参考了数据分析而改变立场的。

  数据偏爱潮流,忽视杰作。当大量个体对某种文化产品迅速产生兴趣时,数据分析可以敏锐地侦测到这种趋势。但是,一些重要的(也是有收益的)产品在一开始就被数据摈弃了,仅仅因为它们的特异之处不为人所熟知。

  数据掩盖了价值观念。我最近读到一本有着精彩标题的学术专著——《‘原始数据’只是一种修辞》。书中的要点之一就是,数据从来都不可能是“原始”的,数据总是依照某人的倾向和价值观念而被构建出来的。数据分析的结果看似客观公正,但其实价值选择贯穿了从构建到解读的全过程。

  这篇文章并不是要批评大数据不是一种伟大的工具。只是,和任何一种工具一样,大数据有拿手强项,也有不擅长的领域。正如耶鲁大学的爱德华•图弗特教授(Edward Tufte)所说:“这个世界的有趣之处,远胜任何一门学科。”

  

  编译自:《纽约时报》,What Data Cannot Do

编辑/发表时间:2014-12-20 23:58
编辑词条如何编辑词条?)                          历史版本

资料出处:《纽约时报》,What Data Cannot Do
贡献者:
蔡律