大数据与社交网络的理想与现实

王煜全 原创 | 2015-10-20 20:26 | 收藏 | 投票

大家好,我是王煜全,很高兴能在这里和大家做一下交流。

 

简单的背景介绍:

 

从2000年进入电信圈开始,我的工作就和“大数据”高度相关,只不过那时候不叫大数据,还叫BI,叫数据挖掘和数据仓库。后来搞社交网络,天天都是社交数据分析和社会化计算,其实也不到大数据的量级(比电信每天多少个TB还是差远了),但有社交关系的数据精度高很多,这也是为什么谷歌怕非死不可的原因。

 

这两年和大数据稍远了一点,反倒有时间来反思大数据的优劣对错,大数据好的地方就不多说了,群里很多老师比我专业,我主要来谈谈理想与现实之间的差距。

 

我觉得理想和现实的差距主要体现在三个方面:数据开放性上的;数据使用效果上的,和数据从业者自身价值上的。

 

一,数据的开放性

 

谈数据开放性。

 

我们的理想是:当各个领域的大数据得以汇总,我们就能做到对一个人的精确分析,还记得微信里流传过一个笑话:一个人整天被各种所谓精准服务包围了,因为服务提供者背后的大数据分析能力。但现实呢,小公司根本没数据,大公司的数据归不同部门管,根本没法统一,更别说跨单位之间的数据共享了。

 

我15年左右有一次见王建宙,和他说,移动有话音高端用户、有增值业务高端用户,也应该有影响力高端用户,因为现在是影响力时代,影响力高端一个人能影响一百个人,把影响力高端服务好,他们都说你好,就不用去央视打广告了。王建宙非常认同,表示一定要建影响力高端用户数据库,结果到今天还没建起来,为什么?因为这个需求的使用者是市场部和数据部,而支持者是后台计费中心,计费中心没任何功劳,也就没任何动力去实现。更重要的,数据量太大,做不到全国汇总,数据在各省的计费中心,而省里一般拿到上月数据后用三天时间做BI数据抽提,把他们认为有用的数据提出来,然后原始数据就压缩封存、基本再也不会打开了。

 

关键问题来了,要建立影响力高端数据库,需要一个指标:每个用户每月和多少个不同电话号码通话的号码个数。什么是影响力高端?就是和别人联系更多的人,不同的电话后面对应不同的人,所以看一个人每月和多少不同号码通话就知道他是不是影响力高端。

 

我当年在北京移动分析了的70多万全球通用户数据,结果发现人群中50%的人每月和少于20个号码通话;80%的人每月和少于50个号码通话;但确实有不到1%的人每月和多于150个号码通话。问题是,他们的BI系统原来不抽提这个数据,而那个系统是写死的,要抽提这个数据就要修改BI系统,所以计费中心坚决抵制!

 

这个问题其实并不罕见:大数据分析的需求方往往是市场和客户部门,但大数据的建设者是后台IT部门。而大数据是要反映人的真实行为的,提取哪些大数据才能反映哪些对市场经营有价值的信息,大数据建设者往往并不清楚,而市场方的人员只知道需求,却不知道如何满足需求。比如,市场人员可能会说:能否通过大数据分析找出每个用户都做过哪些航班去了哪里?后台大数据部门的人听了可能会简单回复:不能,我们数据库里没有飞行行为记录。但实际上,对移动而言,“异地开关机”数据就是详细的飞行情况数据,这些数据移动都有,就是每月被压缩然后存起来,从来用不上。其实很多无线互联企业也有这个数据,因为Android手机调用用户数据太容易了。我去年去腾讯做内部讲座,重新讲起这个老故事,讲座之后一个腾讯技术人员找到我说:我几年前就听你讲过这个方法,回来找我们后台数据部门的人碰了,这些数据他们都有,但他们说是用户隐私,不让我们用。其实,提取一个“异地开关机”数据,所有的飞行行为就全有了,利用这个数据给客户提供机票业务,携程怕马上就做不下去了吧!而且不用非得从个人做起,和大企业客户谈,集中管理他们员工的差旅行为,企业肯定欢迎。但这样的东西就轻易被数据部门领导否了,因为做了他们也没功劳。不知如果小马哥听了会怎么想。我当年也和亚信CEO张醒生总说过这个思路,张总很积极,但可惜也没推动。

 

所以大数据要做好,必须要前台懂后台、后台懂前台,两边一起坐下来研究,要做到这点,只能是CEO本人两边都懂!中国的企业大都是一把手文化,尤其是民营IT企业,所以一把手对大数据的理解和支持、甚至是热衷,非常重要。

 

二,数据使用效果

 

第二点:数据使用效果。

 

如果是不懂市场的人来做大数据,出来的只是一堆没有实际指导意义的分析,自然没效果,花钱又多,时间长了难免恶性循环。更麻烦的是:《大数据时代》说得没错,简单的大数据分析比复杂的小数据分析更有效,其结果呢,就是追求数据而不追求分析,有数据的拥兵自重,有分析能力的无缘置喙。

 

我们都知道现在很多电商网站的基于大数据的商品推荐实在做得不好,基本没有分析,都是你刚才搜索什么他现在就推荐什么;我们也知道中国有不少做基于大数据的推荐算法的公司,像百分点,但是,他照样烂他的,就是不能把数据交给你算,当然,我要是大电商公司的CEO我也不交。道理很简单,我推荐效率低,一个客户少赚10元钱,你推荐效率高,帮我一次性多赚20元,但可能就把我的客户拐跑了。

 

还有就是效率问题,算法再提升,个性化推荐费用也不低,而大面积撒网往往更便宜,一条群发短信才2-3分钱,一百人才2-3元,即使只打中了一个人,还是比针对性推荐便宜啊。我们原来做BI,讲来讲去就一个啤酒和尿布的经典案例;现在做大数据,讲来讲去也就是一个“给女孩寄孕妇用品”的经典案例。

 

大数据到底要大还是要精准,实在令人纠结。

 

社会化数据的好处,就是在大的基础上精准度提高,因为人以群分,按照《大连接》的分析,一个人的属性可以按50%加权分配到他的一度好友身上:我最近长胖了,我的一度好友有50%可能性变胖。我们当时都很激动,这下子整个社会学研究都可量化了,社会的宏观视角和微观视角可以打通了。当时还庆幸国内比国外领先,因为国外主要是Facebook,数据是不公开的;而国内大家是在微博上聊天、社交的,是公开的,所以我们投了一批公司基于新浪微博数据做算法用到各个领域,可惜后来微信替代了微博,也是封闭系统,数据拿不到,而新浪成了Twitter,只有新闻没有了互动。

 

我三年前和新浪高管有个交流,希望他们像梦网一样开放合作,打造复杂生态环境,当时曹国伟、王高飞、新浪数据体系的负责人王巍还有当时微博的负责人彭少彬一起参加的,老彭的思路很简单:我都要自己做!后来老彭走了,数据开放、搭建合作平台的声音大了些,但始终没做好,还是公司文化问题,那就是个媒体公司。一把手也特重要,曹国伟是CFO出身,对业务理解不够。

 

现在我们孵化的那批有三个公司起来了,一个是因为和新浪签了全国独家合作,有战略资源;另一个慢慢自己建了社区,不再依赖新浪;还有一个做电影预测的,幸亏一是电影票房取决于追星,不取决于公众互动,所以新浪数据质量下降不太影响预测,二是预测算法很复杂,需要时间训练,也需要有强大的电影数据库来校准,所以没竞争,做得还不错。

 

三,从业者地位

 

原来有本书叫《IT不再重要》,IT普及了,人人都上,用IT制造竞争差异就无效了,现在大数据也有这个趋势,大家都在搞,但搞好搞坏不关乎生死,甚至没太大差别,大数据就没法被一把手重视,大数据负责人更没法直接参与重大决策

 

王煜我是中国最早推广“竞争情报”概念的人之一,从1999-2002连续四年请美国竞争情报协会来中国开竞争情报大会,后来却逐渐放弃,就是因为情报部门撑死叫决策支持,对决策影响很小,更别说深度参与了。

 

大企业外做大数据的日子也不好过,小企业刚才说了,拿不到数据,就连研究人员都会被数据问题难住,著名的Ray Kurzwell,就是提出2047年奇点带来的那位,想利用大数据搞人工智能,找到谷歌,谷歌创始人很支持他,但坚持谷歌数据不能给公司外的人,结果他虽然早就是亿万富翁了,也只好加盟谷歌当个Director。社会网络研究的名人,密执根大学的Lada Ademic,前两年加盟了Facebook,也引起了不少议论。说白了,再有才华,没有数也没法做研究啊。

 

我去年参加湛庐文化的代表团,拜访了《大连接》作者、耶鲁大学的Christakis教授,他说,当年是开普勒发现了行星运行规律,但是在丹麦科学家第谷的长年观测数据的基础上做出的,他说现在开普勒出来了没有不知道,但第谷肯定有了,数据肯定有了,所以开普勒即使没来也快了。当时很激动,后来发现第谷有了,但数都在何处藏着呢,所以开普勒来了也没法算。

 

后来对当年那段历史感兴趣,又深挖了挖,原来当年第谷的数据也没公开,偷偷藏着的,开普勒是在第谷死后偷的第谷的数据,当时就觉得像黑色幽默:历史总是惊人的相似,到了今天要做数据还得靠偷[偷笑]。

 

总结

 

我开篇说了,今天只说问题,所以会显得负面,其实大数据肯定有价值,我对有些问题的形容也会有点儿夸大,但看到问题才能更好地前进,战略上藐视敌人、战术上重视敌人嘛。

 

大家做大数据一定要找好定位:

 

一、企业内部做大数据的一定要懂业务(或把内部懂业务的人聘成顾问),这样才能直接支持决策;

 

二、提供大数据服务的企业一定要自己有应用、要掌握客户、要减少对大企业的数据依赖(刚才有朋友说淘宝的数据推荐,我碰巧投过和淘宝紧密合作的公司,知道那个所谓的合作是怎么样的,不在这儿讨论了);

 

三、做大数据研究的人一定要找靠山,成电的周涛教授就不错,直接安排一票人到杭师大,和阿里紧密合作,还有腾讯、京东,做研究的人赶紧靠上去(百度不行,内部研究人员太强了)。

 

讨论交流

 

董振江 : 怎么能让有数据的愿意开放数据呢?

 

王煜全 : 难,利用无线互联的新机会自己做数据吧[偷笑]

 

王煜全 : 关键是思维方式的转变:我原来做咨询,和很多做风险投资都很熟,惊讶于他们对市场的研究极业余,想,要是我做风投一定拿很多钱做研究。等我现在做风投了,照样不花钱做研究。因为大多数研究是那个嘲讽麦肯锡公司的笑话:你把我有多少只羊再告诉我一遍,而很多决策的关键点不是数据。

 

肖榕 :大数据就是个工具,就是个铲子,以前说淘金没赚钱,买铲子的赚钱了,现在时代变了,买铲子肯定赚不了钱,挖到金子才赚到钱,所以关键还是找到需求,这是原动力

 

张长江 :的确,需求或者说商业模式是关键,数据积累起来能产生什么价值,这个是很多企业迷惘的地方

 

王煜全 :比如,我最近看一个美国的新能源企业,尽职调查基本没做我就拍板投了,因为这个企的CEO是连续创业者,上一个企业成功卖出后已经身价上亿了,公司的技术提供者是在MIT干了30年的化学教授、本来是首席科学家,后来干脆辞职下海来当CTO,我说,我再判断怎么会不他们专业,他们都全力投入了我还研究个什么啊[呲牙]

 

我说,我再怎么判断也不会比他们专业,他们都全力投入了我还研究个什么啊[呲牙]

 

@肖榕。同意,大数据是铲子,原来别人淘金没铲子,你提供铲子也可以分金子,现在卖铲子的多了,只能卖出铲子的价钱了。做大数据的就像我们原来做咨询,按小时收钱、按人头收钱都行,就是分不到对方的利润,劳动密集型,自身模式不好[偷笑]

 

肖榕:我们做政府数据,情况有些不同,IT部门总希望把数据利用起来,而业务部门最好不要用,因为什么都不清楚,他们就可以不用那么作为,目前看最好的方式还是促进政府数据开放,这依然是个难题。

 

王煜全 :@肖榕   政府我确实没经验,原来和移动合作后来感觉不爽,现在连国企都不碰了[偷笑]。两个小时了,就说这么多,再次感谢大家听我啰嗦[抱拳][抱拳][抱拳]。感谢华平教授,感谢董总[抱拳][抱拳][抱拳]

 

董振江:非常有启发性,感谢@王煜全总 

 

张长江 :感谢王总

 

王煜全:@张长江-上海电信 是啊,现在都很怀念,赶上电信产业最黄金的时候了

 

董振江 :@王煜全 您现在转无线互联也是黄金时代

 

王煜全:不过现在更好,中国人有机会到世界创新的大生态里建立影响[呲牙]

 

王煜全:是啊,无线互联的好时候刚开始,未来有的精彩呢[呲牙]

 

张长江 :发觉王总挺喜欢看书的,每次听他演讲,都能推荐几本有技术含量的好书@王煜全 [强][强][强]

 

婷婷::@董振江 ,这是第一次全程看微信分享,每次听@王煜全 老师分享都超级过瘾,能有收获啊!

 

王煜全:不敢当,找时间再交流啊。

 

王煜全:互联网开始改造传统产业了,但既不是互联网企业改造传统产业,也不是传统产业的巨头自我革命,而是深知传统产业特性和弱点的叛逆者,以互联网为武器,屠杀其他的传统产业。我们在国内就致力于寻找这样的叛逆者[呲牙]

 

婷婷:@王煜全 ,听您这么说,终于看到点希望喽!呵呵

 

王煜全:@婷婷  [握手]

 

董振江:今天分享和交流结束,感谢大家,再次感谢王总@王煜全 

 

个人简介
Frost & Sullivan中国区总裁,资深的电信市场营销和战略咨询专家,在业界有多年的丰富经验。王先生熟悉中国与世界电信市场的需求与运作,是OSS、业务创新、现代化运营管理、电信业务模式研究等国际先进电信经营理念的引进者和倡…
每日关注 更多
赞助商广告