数据的本质
第一部分 数据主义,未来一切都将数据化 (03 数据流动在于利益关系 )
  互惠互利,数据流通之匙

  寻找共同的痛点

  让天下没有难用的大数据

  数据生态圈须竞合并存

  未来人人都是分析师

  大数据能力的根源来自连接,而连接的基础是流通和标准化。

  所有的数据流通必须建立在一个永恒不变的道理上:互惠互利,否则你无法做到对数据进行适时的修正。

  大数据是自利、利它的成品。

  作为企业,要实现数据打通,需要有一个非常清晰的、自上而下的数据资源战略方向,也需要具备良好的、自下而上的协同能力,这两者相辅相成。

  实现从0 到1 的过程中,首先必须找到个体与机构之间

  的平衡点。

  当利益高于双方之间的竞争时,数据共享会变得理所当然。

  数据是虚的,解决方案才是实在的,没有场景作目标的大数据如同一盘散沙,但太实相的大数据又不灵活。

  数据应用有三个阶段:第一个阶段用数据,第二个阶段养数据,第三个阶段从看数据到用数据。

  数据分析的工作最终必须落在产品上。

  从数据的收集到使用,我们要学会与生态中的各种角色竞合,因为没有人能单枪匹马地完成整张数据大图。

  在拜访一些公司时,我发现,大家所讲的数据来源其实就只有几个,很少能看到“养好数据”的例子。也就是说,大数据产业目前面临的挑战,并不是没有好的算法,也不是没有好的数据工程师,而是数据来源比较单一。

  互惠互利,数据流通之匙

  在数据科学成为炙手可热话题的两年后,我发现我被企业管理层问得最多的问题是:如何确保有足够多的数据来发展人工智能?需要储备什么样的人才?我认为,大家都忽略了大数据能力的根源来自连接,而连接的基础是流通和标准化。老实讲,“不在此山中”的企业可能还对由此带来的痛苦没多大感觉。

  比如,有些CEO 问我,如何打通企业部门之间的数据,进而防止阳奉阴违的事情继续发生?以阿里为例,数据打通绝对不是马云一声令下就可以解决的问题。从2014 年开始,阿里管理层数次要求各业务部门(包括支付宝)无条件地将数据互通,然而换来的终究也只是表面的打通而已。手下人的阳奉阴违也是花招不少。比如,我有数据,但是我不告诉你有什么;就算你知道我有数据,但我不能保证提供给你的数据有质量。因为没有业务关联,对方很难长期、义务地配合你,所以就更不会把新增的业务数据和盘托出了。

  在这个人工智能蓬勃发展的时代,数据的增量比存量多。多变的业务场景也意味着需要敏捷的数据更新(包括结构)。在你使用数据时,数据本身可能早就出现了定义上的变化,Data broken(数据断裂)指的就是数据已经不能反映当前现实。因此,以这些断裂数据为基础的任何人工智能算法,都会相应地产生偏差。这种事件表明了什么?所有的数据流通必须建立在一个永恒不变的道理上:互惠互利,否则你无法做到对数据进行适时的修正。虽然说高层掌握着权力,但要发挥出整体的数据战略,只靠从上而下的命令是不可能的,也少不了从下而上的共建共创。只有这样,才能实现合力而成的多源异构大数据。所以我一直强调:大数据是自利、利它的成品。

  我举个例子。公交车的摄像头在行驶过程中录下的数据能否共享给其他企业?该公交车公司当然不乐意,摄像头录下来的数据就是我的资产,凭什么无条件地交出来?但如果此时一家地铁公司说,若你愿意分享这个数据,我会在地铁内为市民提供公交车换乘信息的大屏幕作为交换呢?又或者,政府主动提供客流量数据,作为其他公交车公司主动提供数据的相应回报呢?答案应该就明朗多了。当实现互惠互利时,技术问题也就水到渠成了。

  在阿里时,我是怎么处理部门间数据互通这件事情的呢?很简单,首先是找出大家有意愿共用的部分,我称其为企业内的公共数据,然后安排资源把这一部分先建设起来。选择公共数据也有一定的技巧,简单归类就是:各部门已经在高频率但低效率的单线流通的数据,被野蛮重复复制到各部门的相同数据,大家都有意愿首先标准化的数据。当这些带有公共性质的核心数据建立起来之后,大家就能更容易地感受到数据高质量流通的意义及好处。要保证这些数据的质量和新鲜度也相对变得容易了。

  之后,我采取的是共创共赢策略。我将我们部门所有的、我认为很有可能成为公共数据的数据,全部都放在大家眼前。如果其他部门有人要使用的话,这些数据可谓招之即来。当然,前提是这些资源都是我先开发完的。当他们所有人都开始使用这些数据时,我就可以输出技术及标准,去帮助其他部门完成更大范围的数据打通。

  上面两个例子说明的就是打通大数据,不管是一家企业还是一个城市,都非常需要找到利益驱动的本源,然后找出数据流通的共性,这可以是因为新的发展机会、改善各单元的效率,也可以是降低风险等。总而言之,互惠互利才是大数据流通的永恒关键。

  机构越大,人事越复杂,数据打通的开展就越困难,这也就解释了为什么政府部门的大数据进步得这么慢。政府机构对大数据的建立具有集中性这一得天独厚的优势,但却没有积极性,更谈不上什么互惠互利了。作为企业,要实现数据打通,需要有一个非常清晰的、自上而下的数据资源战略方向,也需要具备良好的、自下而上的协同能力,这两者相辅相成。如果你一味地想通过权力来强迫他人将数据白白地拱手让给你,那就对不住啦,只能画虎不成反类犬了。

  寻找共同的痛点

  任何零散的数据一旦连接形成大数据,便会威力无穷。以医疗数据为例,如果我们把人类生物学的复杂性比作一部动画电影,那么在100 年前,我们对这种复杂性的了解大约相当于电影画面的一个像素。可是,若看完整部电影,我们便很容易知道它说的到底是怎样一个故事。医疗大数据,是了解整部电影的最佳窗口。可以说,当各种医疗数据成功实现了联防,癌症便不会再如今时今日般让人恐惧。在庞大的市场及科研潜力面前,埃里克· 夏德特(EricSchadt)这位试图让医疗数据共享成为现实的先驱者,颠覆传统创立了自己的基因数据公司Sema4。Sema4 是一个致力于创建千万级基因技术库的基因数据平台。虽然这件事情非常伟大及意义非凡,但其面临的困难也十分巨大。连夏德特本人也无奈地承认:“ 尽管已经投入数十亿美元,用于对现有数据网络进行现代化改造和提供安全保障,但数据泄漏事件仍然时有发生。”若不彻底根治这一问题,支撑项目的信任基础将变得脆弱无比。

  然而,患者的医疗数据属于个人拥有,还是由医生与患者共同创造的呢?任何大数据的形成必须经历两个过程,即开放与规范,两者为递进关系,前者是深度连接的前提,而后者则涉及数据的可用性。实现从0 到1 的过程中,首先必须找到个体与机构之间的平衡点。人们愿意将自己的基因数据分享出来吗?凭什么?企业集结了这些大数据之后,又如何对个体产生价值呢?若不能达到互利,又如何让更多人自愿贡献出自己的基因数据呢?

  下一步要解决的问题,是如何鼓励已拥有大量数据的医疗机构共享数据,让它们走出自己的数据孤岛。从我过去在阿里的经验来看,唯一的方法就是:找出几方共同的痛点,当利益高于双方之间的竞争时,数据共享会变得理所当然。

  接下来便是规范化。我们辛苦收集到的数据,该以什么方法加工,进而成为解决问题的原材料?数据界大致分为两派,一派坚持原始数据,即尽可能保持数据的原貌(裸数据);另一派则喜欢把收集到的数据规范化和格式化,根据使用的场景进行预处理。其实,数据是虚的,解决方案才是实在的,没有场景作目标的大数据如同一盘散沙,但太实相的大数据又不灵活。所以,无论金融大数据还是医疗大数据,都会经历从无到有、从有到高度连接、从高度连接到实时流通,最后经过工程化把数据提炼成随时可用的“业务石油”。到那时,毋庸置疑,它会产生无限商机以及无与伦比的回报率。

  让天下没有难用的大数据

  在阿里上市前夕,我完成了第一部著作《决战大数据》。之后,在准备离开阿里时,又心生了为该书写增订版的念头。洋洋洒洒,新了8 万余字,希望能为自己在阿里的经历做个总结。当然,我的数据生涯还未结束,从阿里到红杉资本,我更希望能够真正说明数据行业生态。借用阿里的一句格言:“昨日的成功是今天的起点。”

  回顾我在阿里的6 年时光,从经历来说,我先负责支付宝,继而负责淘宝,最终负责整个阿里集团的数据工作,并创立了跨业务群的数据委员会。实际上,这个过程同样也是我对数据应用的理解历程:第一个阶段用数据,第二个阶段养数据,第三个阶段从看数据到用数据。在加入支付宝之前,业界都认可我是一个比较懂得用数据去设计、改良、迭代产品的首席产品官。这个背景也影响了我日后的很多决策。

  产品需不断迭代

  加入支付宝后,我面对的第一件事就是着手组建支付宝数据分析师团队。2010 年的支付宝,大部分业务团队对数据团队都不太满意,而且高层对数据能产生的价值也没有太多认识。同时,由于当时数据负责人调职,导致支付宝的数据分析和数据技术部门被分开管理。面对数据分析和技术团队的目标不一致,业务部门对为什么要使用数据以及如何善用数据充满疑问,甚至有人认为数据分析仅是门面功夫。但我坚持数据分析产品化路线,相信分析的工作最终必须落地在产品上。

  从解放集中式的数据分析师团队到“人人都是分析师”的泛化过程中,我们的业务部门自己就可以便捷地使用工具解决问题。经过一年多的努力,有一天CEO 走到我办公室对我说:“你知道吗?你们做的产品让我觉得很爽,我很喜欢这个产品。”看到同事和老板对产品的支持,让我肯定自己在支付宝走的这条路是正确的。如果让我总结这其中的精髓,我的秘诀是:数据分析也要讲究用户体验。

  数据产品设计的切入点必须要问“问题是什么”“ 什么数据才能解决这个问题”。只有得到用户的信任,我们才能够做更多的好产品。产品需要不断迭代,而非一劳永逸。这就是我们做产品的理念。

  不懂商业就别谈数据

  我在支付宝期间,几乎每个月度报告都会让管理层讨论三四个小时。一份数据报告居然会成为管理层的讨论焦点,每次都会有很多高层管理者关注我讲了什么,这时我就知道我肯定成功了。当然,同时我也会提醒数据分析师们,千万别以为仅靠一份报告就可以解决所有事情,一定要让业务部门知道这份报告是大家一起探索得出的结论,这是我管理团队的一个基本理念。这样的月度经营报告同时也是数据分析师团队每个月的绝佳演练机会,在我的团队里,一直有这样一个口号:不懂商业就别谈数据。

  这段难忘的经历,让我骄傲的不是我自己的成就,而是每次在公司外听到别人说支付宝的数据分析师团队是国内最强的数据团队时,我都会由衷地为他们感到骄傲和自豪。在阿里的6 年,我最难忘的就是和兄弟们一起并肩作战,让天下没有难用的大数据。

  数据生态圈须竞合并存

  这段时间我四处飞来飞去,身边人都觉得我比以前在阿里的时候还要忙。过去在杭州时,总感觉自己看得不够多,如今终于有时间出来走走,看看各种数据公司,看看许多公司到底如何使用数据,这正是我想要做的。在阿里,要数据有数据,要人有人,要钱有钱,什么资源都不缺,反而让我感觉少了些拼搏精神,多了点“大公司病”。事实上,通常没有数据的人,都更期待有数据可用;通常资源不足的公司,会更懂得怎样用好自己的资源。

  很多人说,中国互联网BAT 这“三座大山”让数据力量难以释放,但我相信这种现象会随着技术的不断进步而改变。我也看到很多年轻人在尝试挑战,不少从大公司出来的年轻人正在创业,在五花八门的领域中挖掘数据价值,这让我备感欣喜。

  乐观地说,从他们身上,我已看到中国大数据生态圈的雏形。我认为,这些特征也体现了“双创”的重要理念。但记住,不要跟红顶白,而是要从解决问题着眼,并最终落地在商业价值上。例如,有时你以为自己在做产品,其实只是一个小功能而已;但如果是产品,却又不一定有商业空间。

  去过美国旧金山湾区的朋友都知道,许多当地创新公司的创始人大多来自谷歌、Facebook 等,这些龙头公司其实也是产业创新的源泉。从数据的开放程度看,谷歌、Facebook、Twitter 等公司的数据是大家的创业资本,这些土壤为大数据产业链注入了活力。尽管这些数据还需要经过很多加工和处理才可以被我们使用,但毕竟这些数据都相对容易获取。

  此外,对比中美两国的数据环境,中国有一个数据金矿,就是政府的数据开放。政府到底能否适度释放更多有用数据,让这个产业成长得更好呢?这个决定举足轻重,非常关键。数据产业的另一关键是开源的小区、公司之间的合作与竞争关系并存。从数据的收集到使用,我们要学会与生态中的各种角色竞合,因为没有人能单枪匹马地完成整张数据大图。懂得这个道理的公司才会是未来的数据之王。
正在读取...
连载精彩推荐
金融科技和信用的未来
----[美]扬尼斯·阿齐兹迪斯(Ioannis Akkizidis)曼努埃尔
  从加密货币到区块链,从PayPal到金融科技,金融科技创新正咄咄逼人地对传统银行体系发起挑战,颠覆似乎就在不远处。《金融科技和信用的未来》为我们整合两个领域、创建更稳定、更具快速响应力的新信贷世界提供了视角,绘制了蓝图。 两位作者根据他们在风险管理和金融科技创业领域的丰富经验,为我们展示了技术及信贷领域的创新,并从盈利分析和风险管理两个层面对银行的信贷模式进行了深入解析。 传统银行业融合金融创新者的新创意,创新者借用银行针对复杂组合进行财务分析和风险管理方面的丰富经验及专业知识,并终塑造一个互惠互利的混合金融业,将成为未来银行和金融科技领域的必经之路。
读书会友
合作联系
  • 合作联系:蒋伟
  • 电话:010-85760688-819
  • QQ:1713194385
  • Email:pr@chinavalue.net
赞助商广告