首页 观点正文

周涛:大数据助力企业转型升级

周涛:“数据挖掘就是从数据中发现知识的过程”

——传统企业亟待借力“大数据”转型升级!

8月10日,由成都市经信委主办,成都市电子商务协会等承办的2017年“互联网+实践专题论坛—互联网对企业升级转型的影响”举行。论坛上,行业专家思想火花碰撞,提出了不少新颖的观点。电子科技大学大数据研究中心主任、数之联CEO周涛发表《大数据助力企业转型升级》主题演讲,“纠正”了传统认知的关于大数据认知解释,并进一步阐述大数据的发展趋势和特征对于传统企业升级转型具有广泛的应用价值。

(数之联CEO周涛发表主题演讲)

以下为演讲实录:

今天的报告是一个命题作文,谈谈大数据怎么帮传统企业转型升级。一谈到传统企业,除了农业,大家能想到的聚焦点就是工业制造。我的报告今天分两个部分,前面简单讲怎么理解大数据及大数据时代,而后集中讲大数据如何帮助工业制造企业实现转型升级。

什么是数据?

数据的概念百度百科说的非常复杂,是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材,而我们认为数据是可定量分析的记录。几百年前,从地理开始记录星象才有了开普勒三大定律、牛顿万有引力,那时我们就有很多数据。一两百年前豌豆的杂交记录实际上就是生物学的数据记录。所以数据很早,远远早于计算机之前。现在我们放在计算机时代,可以通过数据挖掘的方法获得一些知识,其中一部分知识又能够转化成价值。

什么是大数据?

提法比较多,百度百科指无法在一定时间范围内常规软件工具进行捕捉、管理和处理的数据集合,这种提法比较盲目的,我们不太认同。最早,IBM提出4V:Volume(大量)+Velocity(高速)+Variety(多样)+Value(低价值密度)。在我翻译的维克托·迈尔的书里面,他曾经提到说“大数据所代表的是当今社会所独有的一种新型能力—以一种前所未有的方式,通过对海量数据进行分析,来获得有巨大价值的产品和服务或深刻的洞见。”

在我看来,我们现在大体上处在大数据时代的门口,推动我们走到这儿的大概有三个目标,第一是数据总量的爆发性增长。我们现在几乎所有的互联网数据,包括未来、包括车联网,很多数据都会通过传感器、互联网分析被记录下来。现在全球存储的数据总量16ZB,再过8年,这个数据量会翻十倍,到达163ZB,这是第一个大的趋势,数据总量的爆炸性增长,它让我们普通人很难在十多亿淘宝单品、数万亿网页做出选择,这就是信息过载(Information overload,可获取数据的爆炸增长和普通人分辨甄别数据之间的矛盾)。

第二个大的变化就是数据形态。以前绝大部分数据都是表格里的数据,我们用一些简单的商务智能的方法就能进行统计分析,比如回归分析、决策树、支持向量机,贝叶斯分析、神经网络等等,都可以得到各个项与最终结果之间的关联。但是现在绝大部分数据,去年新增数据的89%都是非结构化的数据,它主要包括文本、图像、视频、语音、社交网络等等,这里面有大量重要有价值的数据,但是难以用一些简单的方法去挖掘,所以这是第二个大趋势,怎么样去分析非结构化数据,并且在某些特定情况把它变成结构化数据。

第三个大的变化就是数据的组织形态发生了变化。以前绝大部分数据我们认为它都是一个一个孤立的项,比如说淘宝知道我买了什么东西,新浪微博知道我有什么朋友,线下的医院知道我们得了什么病,公安知道我们犯了什么罪,但我们不知道这其中的关联,买了这个东西的人得了什么病、犯了什么罪。现在我们可以逐步的通过一些商业方式、政策打通在很多个局委办和数据集中同一个人、同一家企业、同一个终端在不同地方的数据,所以这属于第三个大变化。

什么样的情况下我们可以说进入了大数据时代?

我认为有三个大的体征,第一是数据的外部化,就是一组数据它不仅仅在一个地方发挥作用而是能够流动共享,在十个、一百个、上千个地方发挥价值;第二就是人工智能,我们要用人工智能,尤其是机器学习、数据挖掘的技术去获得简单统计分析所得不到的深刻洞见,再用这种深刻洞见去指导我们高效准确地决策;第三就是价值,光有这些数据,它首先是成本。我们所谓的大数据时代不是说用越来越多的钱存越来越多的数据,而是有越来越多比例的数据能够发挥价值,至少能够战胜存储它的成本,把这些结合起来才能叫大数据时代。

所以我认为“大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。”

什么是数据挖掘?

数据挖掘与第一性原理不同。第一性原理是基本的宇宙中基本常识和参数,再基于一些简单的定理来推导原子分子各种各样的性状。但是数据挖掘不一样,举个简单的例子,了解一个人跑一百米跑的快不快,那我就用一个人的很多数据去了解身高、腿长、臂长、摆臂的幅度和他跑步的速度之间的关联关系,这是数据挖掘,但是我不可能建立一个方程真的去描述一个人他怎么去跑步,这太复杂,不是大家想象的用牛顿力学就能够建立一个人跑步的精确方程,这涉及到人体内很复杂的过程。

但是呢,我们没有这些第一性原理的认识,依然可以建立一个数据挖掘的模型,因为数据挖掘本身是从数据中发现知识的过程,它可以抛开基本的数学、物理的方法来解释,但是这两者之间并不互相排斥,而是互相关联。举个例子,当你了解到第一性原理,比如你大概知道虽然不能建立方程,但我大概知道牛顿力学,大概知道什么东西和跑步有关系,那就可以帮助找到我所需要的数据,比如一个人腿的长度和他跑一百米的速度是有关,但是和腋毛的长度是没有关系的,但是如果你什么知识都没有,那你为什么不去测腋毛的长度要去测测腿的长度,所以计算机almost把它们put到同等重要的位置,但不是,是因为我们认为腿长是重要的,腋毛长度没关系。

反过来讲,当我们有了数据挖掘的工具实际上是可以反向发现一些方程,最早在09年就有人用数据挖掘的方法反向推理已知的定律。最近Science期刊用数据挖掘去发现一些很优美的方程,这些都是很典型的两者互相帮助的例子。

数据挖掘就是从数据中发现知识的过程。----周涛

但与第一性原理不同,数据挖掘不是从基本参数和公理体系出发,而是直接从数据中得到知识。数据挖掘的可信度不如第一性原理,但是能够处理更加复杂的系统。两者有相互结合、互为补益的趋势。

数据挖掘在工业企业的应用实践

下面讲讲工业中怎么样用机器学习、数据挖掘的方法能够帮助我们进行提升。

举一个很典型、简单的例子,我喜欢吃巧克力,巧克力的保质期一般是12个月,保质期的概念最早来自于寿命分布,一个东西出厂时间是T(横坐标)从0开始,纵坐标是质量好的概率,开始是1,基于这个寿命曲线,日本人最早提出保质期的概念,但实际上保质期不是一个非0即1的过程。一块儿巧克力保质期是12个月,我在刚过保质期第一天打开吃,并没有坏掉,一千块里只有3块坏掉,还有997块是好的;如果再过一年,相当于过保质期24个月后打开来吃,只坏掉40多块,再过一年就要坏掉将近一半,所以说在这个简单的保质期背后实际上是有巨大的浪费,我们希望个性化的去处理这个事。

下一个是很普适的例子,管理工业耗件的寿命。

在整个工业的机加工里面消耗量最大的就是刀具,在和富士康的合作中,郭台铭自己说每年消耗掉5-8亿把刀,每把刀80元左右,每年上百亿消耗在刀具上,怎么管理刀是富士康的重点。我们在重庆做了工业大数据的研究院,其中第一个所就是智慧刀具研究所。

常州瑞生一年一个车间大概消耗500万把刀,上千台车床,每台车床每年用5000把刀,我们通过改造他的车床,加了一个集流器读电流的数据,同时加了摄像头看刀口的数据(改造的成本大概2000多),可以看到磨损的电的时间序列和刀头的图像信号,对于这种时间序列我们用稀疏贝叶斯学习,图像用卷积神经网络深度学习,通过建立的预测刀磨损的寿命模型,现在每把刀寿命可以提高25%,而且还降低了加工坏手机壳的概率,一年一个车间可以省下一百多万把刀。

再讲一个生产线上给集成电路做SMT的贴片封装案例。集成电路做封装涉及到17个加工工序,80多个操作,每个操作都会记录很多组数据,一个集成电路板从粗板原材料到刻蚀、红外线烧蚀到最终的集成电路板过程中会有很多板子坏掉,还会有优品、残次品的分级评定。通过测几十个指标然后会给一个定级是否合格,再往下变成商品。加工过程的80个action如果中途已经发现坏掉就可以直接抛料,这会节省很多成本,因为整个加工流程的成本比原材料的成本要大很多。

第二个问题,我想了解几十个测试参数和加工流程中的每一个action中的数据之间关系,到底哪些因素是主要决定加工优品、次品,哪些因素决定哪几项指标。针对SMT的流水线,通过对吸嘴、原件数据的数据整合,整理、衍生出500多个抛料特征训练设备检测模型。在对SMT流水线数据的建模过程中,利用集成模型可以精确地判定是否存在异常。其中进料的准确率,相比之前的87.60%,达到了现在的96.77%。

以上是两个简单的例子,我认为整个工业4.0涉及到生产经营的方方面面,但是最核心最要害的东西是在加工生产过程中,这是一个硬骨头,我们其他的问题诸如仓储、生产线的管理、供应链的管理、营销以前多多少少都是有人做的,但是加工过程怎么优化,这里面涉及到很多很难、很有挑战性的问题,所以我希望工业制造企业可以花点儿力气多关注一下机器学习、人工智能在加工过程中的应用。

未来,不管是什么类型的传统企业,有多传统,一个以数据作为原材料,以人工智能做牵引的时代到来是不可阻挡的,所以最后通过我的报告传给大家的一句话就是希望大家充分的拥抱新时代,做更好的准备。我很欣赏机械师的一句话:胜利总是青睐有准备的头脑。希望今天在座各位能够更好更充分的准备,从而成为下个时代的胜利者。

责任编辑:陈近梅

分享:
2022全数会
贵州

贵州大数据产业政策

贵州大数据产业动态

贵州大数据企业

更多
企业
更多