伴随传感器采集的数据越来越多,IoT领域越来越多的参数被纳入考虑的范畴,数据之间的关联关系持续增强,而这些新型关联关系,将会激发全新的模型和视野。
数据分析是一种探索活动,陈广乾通过多年的教训和经验总结,形成了一套工业大数据在企业落地的逻辑与方法。
他在海尔时就主导大数据相关项目,并且知道不是所有的数据都是大数据。社会数据早就有,质量数据也早就有,关键是这堆数据里,能否通过分析深度数据,形成新的数据模型,来实现新的价值组合?利用这些综合的算法分析,找出什么样企业、什么样的数据,适合什么样的模型,是他做工业大数据分析的一个基本方法论。
他首先解决的是工业数据难于理解的问题。工业对象的系统性明显,复杂程度高,对数据分析的质量要求高。而深入理解各个工业,则要花费太长时间。
他在和清华、北大等大数据领域的博士沟通时了解到,虽然博士们对数据算法有很深的研究,但是却找不到数据后面的业务含义,原因是他们欠缺业务模型训练。而业务模型训练是非常重要的,它是具体行业问题的“解铃人”。
接着,将业务模型建立起来以后再做算法,算法形成后,回过头来检测与实际业务需求的差别。实施的过程本就是不断调整的过程,不断训练模型,一直到这个模型能解决业务问题,能产生实际效果,形成一个闭环的循环。
以陈广乾带领团队完成的工程机械大数据项目为例,根据下面他们绘制的工程机械经销商业务全景图,利用工业大数据分析,他们完成了代表性企业的运营优化任务,最终的项目绩效相当亮眼:
项目成功预测工程机械老客户6亿元的潜在金额流失,其中重度流失2.8亿元,中度流失2.3亿元,潜度流失0.9亿元。
项目成功挖掘工程机械新客户8.2亿元销售机会,其中大型机2.2亿元,中型机3.5亿元,小型机2.5亿元。
基于销售网格,项目全面支持1,000名现有员工实现20亿元的债权逾期管控。
所以这是基于前端的用户标签如:相似性、消费行为的聚类性、分群性来做算法,这是基于算法模型。
专供工业大数据的时序数据库
在工业大数据存储领域,除了传统的关系型数据库和分布式数据库以外,还有一种类型的数据库是非常必要和实用,就是时序数据库,工控领域也称其为实时数据库。
由于IoT领域几乎全部传感数据和控制数据都是时序数据,陶建辉总结了工业大数据的时序空间特性。
时序数据库并不单单只是一个数据库,而是一个系统,包括对各类工业接口的数据采集、压缩、存储、检索、实时计算,基于监测数据的反馈及控制功能等。
时序数据库的出现,主要是为了解决关系型数据库不太擅长的领域,包括:
1、海量数据的实时读写操作:工业监控数据要求采集速度和响应速度均是毫秒级的,一个大型企业几万甚至几十万监测点都是常有的事情,这么大容量的高频数据,如果用关系数据库进行存储,很难进行每秒几十万次的数据的读写操作。
2、大容量数据的存储:由于数据采集是海量的监控数据,如果用传统数据库存储,将会占用大量空间。如用关系数据库保存10,000个监测点,每个监测点每秒钟采集一次双精度数的数据,需要5-6TB空间,如果考虑其它因素再建立索引,则需15-20TB空间。时序数据库采用专门的压缩算法,存储量能够缩小到1/40,因此只需500GB的空间就能有效存储。
3、集成了工业接口的数据采集:工业通讯、传输的协议种类繁多,时序数据库一般都集成了大量的工业协议接口,可以对各种类型的工业协议进行解析和传输。
具备流式计算能力的工业大数据平台在2017年前后渐热,出现了大量的开源和商业产品。
陶建辉抓住上述开源大数据平台在物联网大数据处理上性能价格比低下的问题,开发了专业高效的时序数据引擎TDengine,大幅降低应用开发难度和成本,缩短应用推向市场的时间。
TDengine正在高铁项目上进行测试,替代原有的MySQL,大幅提升了数据分析的时效性。
工控领域市场份额最大的实时数据库是美国OSIsoft公司的PI System,因其在物联网领域的前瞻布局,2017年获得了软银的投资。在2018年5月初,OSIsoft公司一年一度的用户大会中,PI System不仅进行了全新升级,提供机器学习能力,同时支持边缘和云端运算,还正在尝试与区块链的结合应用。
工业大数据之工控大数据
我认为工控大数据是工业大数据中非常特殊的一类,因此单独进行阐述。
制造业领域的生产相关数据,我们姑且把它称为工控大数据,虽然它并不符合通常意义上大数据的标准,但仍旧可以借鉴互联网大数据的技术,创造崭新价值。
来自GE统计,现在工业企业内部由机器产生的数据量是非常庞大的,以TB来计。由于前期很多技术原因,以及对数据采集不够重视,我们并没有充分利用这些数据,利用率不到2%。如何提升工控大数据的利用率,关系到智能化水平,这是工业企业面临的最大挑战和难题之一。
如果给出详细定义,工控大数据是指在工业领域的工厂内部,通过传感器等物联网技术进行数据采集、传输得来的数据,由于数据量巨大,传统的信息技术已无法对相应的数据进行处理、分析、展示,而在传统工业信息化技术的基础上借鉴了互联网大数据的技术,提出的新型的基于数据驱动的工业信息化技术及其应用。
工控大数据尤其注重数据质量,怎样才能把工控大数据的质量控制好?郭朝晖的经验告诉我们,如果一项数据不与业务结合,数据出多少问题都没人知道。所以工控大数据,必须首先让这些数据“有用”。数据有用了,数据质量才会持续改进,数据质量高了,才有被利用的基础,推动智能化才划算。
上一篇:短视频变现渠道和盈利模式
下一篇:物联网时代的营销场景