暂无数据

工业大数据分析应用实例分析

顾瑛玲 发表于 2019-8-8 20:10:12 | 显示全部楼层 |阅读模式

还不登入呢,在等啥呢?快来和Hier们一起学习ICT小知识!

您需要 登录 才可以下载或查看

x

【提纲】

1. 工业大数据分析应用的实例

2. 工业大数据分析应用的商业价值

【讲师简介】

Alexis Eggermont,Eager Analytics Limited,联合创始人。Alexis Eggermont 在布鲁塞尔大学,伦敦政经学院和哈佛大学主修过经济学,物理学和数据科学等学科,曾任职于咨询公司,随后创建领先的通信运营商大数据分析公司Real Impact Analytics,而后又联合创建Eager Analytics着重于物联网方向。


何志强,Eager Analytics Limited,联合创始人。何志强曾从事金融衍生品及项目融资等交易,随后联合创建Eager Analytics,他持有美国德州农工大学国际分校MBA金融方向学位。


Alexis Eggermont、何志强:


大家好,很荣幸今天能在这里跟大家交流,物联网智库给物联网爱好者们提供了一个很好的平台。我叫何志强,和Alexis都是Eager Analytics Limited的创始人。Eager Analytics成立于2014年,我们专注于为物联网和工业搭建分析系统。我们为客户搭建平台,基于客户收集的联网设备数据,为客户提供有价值的分析。我们今天讲两个具体的我们为国内大型机械生产厂家开发的商业应用:销售预测和故障预测。


故障预测


设备维护对很多公司来说是很重要的业务组成部分。对于我们的建筑机械制造商客户来说,设备维护是成本中很大的一块,因此他们非常想将他们的设备维护工作计划管理的更好。针对这个需求,我们提供了一个系统给客户,使得客户可以查看每台设备下个月出现故障的概率。


1.PNG

技术上如何实现的呢?


每台设备收集了上百个变量,包括油温,发动机转速,GPS位置,液压油位等等。这些变量被抽样并通过移动电话网络传输回客户的服务器上(Hadoop cluster).。利用这些数据,我们开发了一层应用层,来预测每台机器出现故障的概率。


第一步是从我们收集到的成千上万的数据中提取有用的信息。


比如说,最新的液压油位应该比较重要,但是过去一个星期的液压油位的方差(我们通过计算得到的一个特征),可能也是一个预测因素。我们计算在特定时间窗口的几千个这样的特征值。有些特征值依赖于方差,有些特征值依赖于违规数量,有些特征值依赖于离群值,有些特征值仅仅是工作量数据。


第二步是创建机器学习的算法来构建这些特征值与故障之间的实证关系。


这里我们查看所有设备的历史故障,计算在发生故障前的所有特征。然后我们应用机器学习算法来寻找两组数据间的最强关系。这步完成后,我们可以将模型应用在新产生的数据上,并预测所有设备未来发生故障的概率。为了预测不同种类故障的概率,我们可能要重复上面的过程很多次,这样结果能过比较完整,不同类型的故障有不同的发生概率。


结果


其中我们能够很好的预测哪台设备将会出现故障。对于熟悉升力曲线的朋友来说,对于出现某些故障排名在前5%的设备,我们实现的提升系数为6,这意味着查看所有设备中的这5%被标记为最危险的设备,我们将发现下个月占全部设备中6x5%=30%的故障。但是对于有些类型的故障,模型很难实现预测,例如,我们很难预测树倒了砸到设备出现故障的情况。


如何应用到具体商业?


预测故障的概率对于制造商用户来说非常有用,因为他们可以最优化他们进行维护的安排。例如,他们可以根据模型预测结果而不是机器年限等来安排他们的巡检。用户还可以更好的在一定程度上预测他们将会需要哪类型的更换零件,需要多少以及哪里需要等等。


销售预测


很多公司做销售预测时仅是简单的推测销售的趋势以及季节性因素等。这样做相对容易,但是这些并不是我们所研究的。我们观察设备、产品的使用习惯,并置其于外部宏观环境中,这样来帮助公司预测的销售。


技术上是如何实现的呢?


举例说明:如果您们在销售联网的产品,例如联网的卡车,或者其他联网的产品,您就可以看到您的用户使用您产品的情况,比如说如果经常使用,这可能意味着他们将替换或者增加他们对您产品的需求量。如果用户的使用行为在减少,这可能意味着用户可能不会增加他们的购买。


我们用两种数据作预测:


设备使用的相关数据

经济数据


两组数据都是分省分月的,这也就意味着,在过去几年中的大约有几千条数据记录允许我们比较有把握的进行预测。


对于经济数据,我们通过我们自己的程序在官网不间断的收集几百个经济变量。对于设备使用相关数据,我们计算出一系列我们认为跟客户业务行为相关的变量和范式。


下一步是建立一个计量经济模型来发现这些变量之间的关系。简单的回归在时间序列中不起作用,因此在从数据中寻找规则之前,我们先将所有特征转化成静止的信号的这步工作就称为非常重要的工作。这也意味着我们提出了季节因素,趋势因素等。


在我们找到最好的模型来描述历史的销售如何跟其他历史变量发生联系后,我们现在可以根据最新收到的设备数据和经济数据来预测未来。


最有预测力的变量也可以被用来视觉化发现销售潜力。比如说,如果您发现每个产品每天的平均使用时间是预测未来6个月之后销售的最好变量,这样您可以将所有产品的每天平均使用时间展示在地图上。这样您就能发现哪个区或者哪个市有巨大的销售潜力,这样您可以全力在这些地区营销,来增加您的销售收入。


结果


这个模型是一个完善的计量经济学模型,可以用来预测每个省除季节性因素及趋势因素之外的很大部分的销售变化。当我们添加季节因素和趋势因素到我们的预测中后,我们发现真实的销售曲线和预测的销售曲线很好的吻合。对于预测,一贯来讲,我们要非常小心。因为有很多原因会导致销售的上升或者下降。我们可以预测一些最重要的因素(用户的商业行为),但是我们不能预测全部因素。例如,如果政府公布新的刺激经济的措施,或者如果公司出现传闻影响到声誉等,模型就不能考虑到这些因素。不过在大多数时间,这是一个在大多数情况下都非常有用的模型,但是需要进行精心的使用,如同其他预测模型一样。


如何应用到具体商业?


公司拥有预测产品需求的能力这将为公司带来非常多的优势。进一步讲,如果一家公司能够预测未来销售会出现下降,那么管理层可以提前调整其战略,例如减产或者降库存。同样道理,如果您能够预测6个月后产品需求会出现上升,那么您可以更好的做相关决定,保证公司有能力能够满足后期客户对产品的需求。


更进一步来说,发现销售的预测因素也给公司一种提示,那就是销售潜力在什么地方。这些销售潜力可以精确到地区或客户或其他。公司的销售团队可以在提前知道客户有强需求的情况下联系客户。所以这是一种强有力的工具,真正的可以帮您从竞争中脱颖而出。


感谢大家的参与,我们今天分享的内容就这些。


【课后提问环节】

【提问】工业大数据和消费大数据相比,有哪些特点?这两类数据分析的难点分别在哪里?

【回答】工业大数据有很多种形式。其中很多是机器日志以及传感器读数。就我们所看到的而言,工业大数据的挑战有:


如何收集正确的数据来解决某些商业问题

如何保证数据质量达到要求


其中数据质量问题非常关键,因为很多部分可能会出问题,从不合格的硬件(数据采集传感器)到数据传输过程中的问题,再到数据清洗整合算法的错误。我们见过很多的这些问题的实际案例。工业企业需要花时间来应对这些问题并逐渐改进他们的系统。


我们没有太多消费数据,但是我们感觉硬件功能方面应该不会有太多问题。但是人这个对象是更难判断的,所以建立模型来预测每个人的行为可能会比较难。


【提问】针对垂直领域或企业的工业大数据分析建模过程中,是否更需要这一领域专家对一些相关关系的经验输入?

【回答】这是一个有意思的争议。人们一般都分为两派。一派认为如果想让大数据分析有意思,那么必须懂得深入了解掌握相关工业领域的技术知识。而较新的一派则认为如果你有足够的数据(数据质量也很好),那么你可以发现很多有用的东西即使你对那个领域不了解。举个栗子,最近一下机器学习的专家为解决物理问题提供了很多帮助,即使这些机器学习专家完全不懂物理。我们认为这个问题真的是需要具体分析,但是从目前来看,拥有相关垂直领域的知识会有好处。例如,对于故障预测,跟相关的工程师讨论来正确的定义故障就非常有帮助。将来,在数据数量更加充足,质量更加好,算法在自动生产特征更加聪明的情况下,相关领域的专业知识可能需要的更少。


【工业4.0读书会提问】销售预测如何与设备故障预测结合在一起运用的?

【回答】关联因素和权重是由计算机自己决定的,通过机器学习的过程


【工业4.0读书会提问】销售预测的关联因素和权重如何确定?

【回答】两个模型,分别应用。


【提问】工业大数据是否有现成的模型,或者企业自己定制开发比较合适?

【回答】一般来说,企业会需要开发自己的解决方案(经常是雇佣第三方)。现在已经有很多的这样那样的工具存在,比如说,你可以采用IBM SPSS 来校准模型,但是收集数据,清洗数据,整合数据,产生特征,建模,视觉化展示,这些一般来说都要求根据企业实际要解决的特殊问题定制。


提问】工业大数据应用在哪些行业潜力比较大?

【回答】一些行业的应用已经比较成熟,比如说互联网,电信等等。有些行业的应用正在兴起,我们认为工业4.0,物联网和医疗行业在近期有巨大的潜力。


【提问】工业数据挖掘方面有没有比较成功的模型或者案例可以分享?

【回答】世界范围内有很多成功的模型或者案例。我们今天讲的两个模型(销售预测和故障预测)是国内成功的模型。我们相信也有很多其他很好的模型,比如说优化生产或者运营的模型等等。


【提问】大数据应用中 ,对企业哪些部门能带来哪些直接效益 ?比如研发 、制造 、销售 、售后是否有案例以及数字?

【回答】这个取决于模型。我们的销售潜力应用极大的帮助了销售部门。我们的故障预测应用很好的帮助了售后维修部门。研发部门可以可以从联网产品产生的大数据分析中受益,营销部门也可以。


【提问】一些用户数据的采集是基于联网设备和产品,如果用户没有联网或者短期内不太可能把设备都联网,那如何能收集到数据进而进行预测?

【回答】如果仅仅是部分设备和产品联网,这样仍然可以进行数据分析。如果产品、设备全部不在线,则不是物联网大数据分析了。虽然你可以周期性的下载数据,但是这样也不是物联网数据分析。


【提问】对不同的设备,算法差异大吗?有开源的资源吗?

【回答】我们创建的算法适用范围比较广,所以适用于很多设备,但是我们都会先跟工程师交流。开源资源有一些开源的机器学习资源,但是没有针对企业需求的。


【提问】工业数据分析中 ,震动分析是否有比较好的算法以及工具 ?数据的维度往往是有经验的工程师提供的,如何利用大数据分析?找到工程师忽略的维度?比如:天气。

【回答】在我们的项目中,我们还没有用到过震动分析,但是我们相信应用起来应该比较容易。一旦您加装了加速表后,您就可以抽样震动数据并利用低通滤波器或高通滤波器,分析震动的幅度和强度。从这些方面计算出来的一些特征值很可能与一些情况相关,例如故障。


在提供重要的特征方面,工程师往往非常有帮助,但是我们也发现有时候工程师在一些故障早期的表征面前摸不着头脑。这些时候数据科学可以帮助他们创建一些有意义的特征。简单的算法例如种量分析经常可以将复杂的系统变成简单且有意义的系统,虽然这个系统不容易被人类工程师解释,但是这对机器学习任务来说非常重要。更高级的技术,例如特征学习,也可以帮助创建特征。即使工程师可以提供特征,机器学习在准确告诉我们每个特征的重要程度以及这些特征如何结合等方面非常有帮助。


【工业4.0读书会提问】计量模型中什么是关键因素,如何判定?

【回答】我们在初期不告诉计算机哪些是关键因素,计算机自己学习得出。


【工业4.0读书会2群提问】对于机械类故障预测,为什么没把可靠性理论,和设施本身的问题带入,这是不是可以帮助分析和预测?像GE的例子实际上就是结合这些的,你怎么看?再有系统故障和部件故障模型也有很大不同,你们怎么考虑的?本身可靠性模型也可预测故障的。设施本身的问题是指故障产生的基理等。

【回答】我们的方法相似于可靠性理论,我们用到的一些数据有零件的历史等变量。


物联网.jpg


精彩评论54

正序浏览
吉光军 发表于 2019-8-13 13:41:12 来自手机 | 显示全部楼层
受益非浅

杨建国 发表于 2019-8-13 15:33:28 来自手机 | 显示全部楼层
非常好

姬东峰 发表于 2019-8-13 16:15:17 来自手机 | 显示全部楼层
通过学习,提高自己。

丁鲁明 发表于 2019-8-13 19:12:08 来自手机 | 显示全部楼层
学习

久元峰伯 发表于 2019-8-14 09:12:28 来自手机 | 显示全部楼层

郭晓康 发表于 2019-8-15 23:10:58 来自手机 | 显示全部楼层

李敏 发表于 2019-8-16 06:41:48 来自手机 | 显示全部楼层
努力学习,逐步提高

张雷 发表于 2019-8-16 10:05:36 来自手机 | 显示全部楼层
认真学习中

扶凌云 发表于 2019-8-16 11:21:46 来自手机 | 显示全部楼层
认真学习中


0关注

6粉丝

90帖子

热门帖子
相关帖子

版权所有 华为技术有限公司 1998-2020 保留一切权利 主站备案号 粤A2-20044005号-43

Powered by©©Discuz!技术支持 : HiCLC learningcloud@huawei.com