工业数据分析方法:从SPC到大数据的发展脉络

郭朝晖 原创 | 2018-04-04 12:27 | 收藏 | 投票

  用数据分析生产过程的问题是很久之前就有的想法。统计过程控制(SPC)就是较为早期的系统性方法,套路很清楚、工人都会做。这个方法的思想是:当某些检测数据发生偏差时,可能意味着发生了需要人来关注的系统性问题。

  但是,应用这个方法时一般要求数据是独立同分布的,否则就难以判断正常还是异常。然而,当产品、原料发生变化时,很多检测指标就不是独立同分布了。而且,SPC涉及的点太多时,也就容易失去关注焦点。

  工业过程的数据挖掘或知识发现一般并不要求数据满足特定的数据条件,人们试图从繁杂的数据变化中找出规律性的东西。但是,由于没有对数据条件作出假设,这种方法能否奏效,具有很大的运气性、结果难以预期,属于“有枣没枣打一杆子”。所以,数据挖掘一般没有什么系统性的方法,对分析师的个人水平依赖很大。

  在我看来,工业大数据分析应该比数据挖掘规范、有相对稳定的套路和可预期性。提出这个观点的原因,是大数据有两个基本的假设:样本=全体、数据混杂性。如果数据质量足够好,这两个条件保证知识是在数据中有表现的,关键是能否用数据本身论证清楚。所以,与数据挖掘或知识发现相比,大数据分析应该有更多相对规范的“套路”。当然,具备这两个前提并不容易:现在看来,往往需要人们有意识地建立这样的数据条件,而不是有什么数据用什么数据。

  所谓论证清楚,就是确定一个猜想是不是成立,或者说从众多的猜想中确定那个猜想是正确的。“确定性”其实有程度的差异,这决定于数据中证据的多少和人们已有知识的强弱,必要时可能必须要用实验来验证。

  数据分析的水平体现在尽量用数据获得更大的确定性、并提高分析过程的(人工)效率。这时,可能需要找到合适的办法,让计算机发挥计算和存储能力强的优势,自动地用多种方法遍历各种可能性。这个想法落地的瓶颈,在于缺乏对问题的一般性、规范化描述。

个人简介
宝钢研究院首席研究员
每日关注 更多
郭朝晖 的日志归档
[查看更多]
赞助商广告