杨军
摘要:在数字时代的大背景下,越来越多的企业转型成为数字大师,使用数据来指导整个企业的生产发展、管理决策。而数据挖掘技术无疑是现代企业乘风波浪的一把利器,它能抽丝剥茧地透过现象,看清商业的本质,为企业决策提供强有力的科学依据。本文针对数据挖掘的实现进行了研究,对这项技术在企业相关应用做了指导,在企业数据分析层面上有一定的借鉴意义。
Abstract: In the background of digital era, more and more enterprises become digital master, using data to guide the entire enterprise production development, management decisions. Data mining technology is a tool for modern enterprise development, it can see the nature of the business through the phenomenon, and provide a strong scientific basis for the decision-making of the enterprise. In this paper, the implementation of data mining is studied, the technology application in the enterprise is guided, which in has a certain reference significance for the enterprise data analysis.
关键词:数据挖掘;特征;铸造企业;应用
Key words: data mining;feature;casting enterprise;application
中图分类号:F721 文献标识码:A 文章编号:1006-4311(2017)35-0209-02
0 引言
现在数字技术已经不是苹果、谷歌等科技公司的专享技能,在当今数字技术时代,传统行业与数字技术结合,应用数字技术,挖掘数据价值才是大势所趋。成熟灵活地使用数字技术,改变并极大地拓宽公司的战略选择,所以企业需要不断利用自己在行业方面的数据,结合现在的数字技术,建立一个企业大师系统,为企业领导层提供战略指导数据依据。
在数据利用方面,大部分企业都遵循了“整合数据-分析数据-挖掘数据-指导决策”的思路。现在大部分企业更多的认识是在数据整合这个层面,通过数据总线、数据治理机制等是可以将企业的数据进行合理化地治理、汇总。分析数据和挖掘数据层面就需要更多的专业人士进行统一建模和分析,才能得到合理、正确的战略决策。这时候数据分析、数据挖掘显得更加重要。
Data mining,中文名称叫做数据挖掘。这两年伴随着大数据一词也红得发紫。数据挖掘人才也成为各大公司争抢的重要角色。数据挖掘一般分为两类,一种是预测性,通过分类、回归的算法将数据的预测性展示出来。另一种则是描述性的数据分析,主要方法有聚类、关联规则挖掘、时间序列分析等。有了大量的数据为基础,再根据我们的目标决策,这时候就需要选择不同的数据分析方法,就可以达到要实现的目标。在实际使用中,又要根据实际的情况使用一种或多种工具进行分析。
1 数据挖掘在企业应用的步骤
1.1 明确问题
在数据挖掘中,需要碰到不同的问题采用不同的方法,有时候如果选错了方法,就如同缘木求鱼。明确问题就显得非常重要。明确问题的方法主要是围绕以下几个问题开展的:
①首先明确问题属于哪种常见的类型,是分类还是聚合?所要解决的问题是属于哪个类型,这个涉及到解決问题的方法、后期分析数据采用的工具。如果想要做预测性的问题,一般需要采用分类。同样数据分析方面,划归到聚类方法。
②所挑选的数据集合是否够大,足够支撑我们的分析。现在数据挖掘技术都是针对大样本量的。包括现在经常使用的朴素贝叶斯算法等使用的模型都比较简单,学习效率高,在大样本量下会有很好的表现,当数据集合较小的时候误差就会变得很大,精度也会达不到要求。
③我们所使用的数据是否满足设置的问题。这是对数据源进行的验证,数据源的信息是否可以通过分析得到所需要的结果。一般会对数据的分布情况、数据维度等方面进行校验。最后得出结论。
经过以上的思考,就可以确定整个分析方案需要达到的目标和后续将使用的大致技术,将会得到企业大师系统构建的蓝图。
1.2 对得到的数据进行预处理
这里就是对得到的数据进行一个简单筛选。大致分为数据集成,删除数据冗余、数据冲突,数据采样,数据清洗、缺省值处理及噪声处理。其中数据采样取决于我们研究的问题、数学模型的处理能力和样本量的大小。这是需要额外关注的地方。在预处理阶段要根据自身使用平台的性能等问题,选取一个大小合适的采样样本,之后将数据中的异常值进行过滤,保留对我们的目标影响最大的几个因子。
这一部分在企业大师系统的架构中,可以结合数据总线等应用进行。对企业资源管理系统中的数据进行筛选,将系统数据中具有不完整、无效的数据进行清理,保留对整个结果最有用的影响因子,再进行建模。这点也是符合六西格玛管理方法的。
1.3 特征工程
这个阶段将最大限度地从原始数据中提取特征以供算法和模型使用,简而言之,就是对需要解决问题的核心因子的几个有用属性进行提取选择和构造。这里通过将在上一阶段中获取的重要影响因子转化为特征,更好表示预测模型处理的实际问题,提升对于未知数据的准确性。特征是一个或者一组对象的客观特性的抽象结果,比如颜色就可以认为是物体的一个特征。在处理文本的时候,需要对文本进行处理,通常使用的步骤是:网页、分词、去停用词、向量化。这样就可以将一个文本转化成数据表单。从而符合所要构建的数据模型。endprint
业界流传着一句话,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。足见这部分的重要程度。
1.4 数学模型
建立数学模型。就是针对参照某种事物系统的特征或数量依存关系,采用数学语言,概括地或近似地表述出一种数学结构。而这个数学结构关系,反映了特定问题或者特定事物的状态。
在建立数学模型过程中,需要考虑训练集大小,特征维度、问题线性可分、特征之间关系等问题。再加上常用的逻辑回归算法、Ensemble方法等属于比较专业的领域。逻辑回归算法主要用在寻找危险因素、预测、判别等方面。这些优秀的数学模型需要相关更为专业的分析人员来建立。
1.5 数据训练
数据训练。经过特征工程后,选择合适的模型进行训练,根据评价标准选择最优的模型和参数,就可以对未知的数据进行预测,产出结果。这里面选取要满足模型性能,所拥有的输入特征、训练数据中噪声、提取特征中的噪声以及模型的复杂程度等因素。再找出变量之间相互关系的方法就是在不同数据量的训练数据上训练模型并绘制学习曲线。这个过程并没有精确的“正确”答案。处理相关问题,可以先生成很多逻辑回归问题,然后对生成的每一个问题,研究训练数据的数量与训练模型的性能之间的关系。最后通过观察这一系列问题上的关系总结得出一个简单的规则。当然这个过程需要专业人员进行分析和研究。
1.6 网站行为中的应用
对于开发系统中使用用户的行为分析。最常见的就是用户画像。对于网站运维人员他需要了解使用该系统的人群是什么样的,他才能对网站更好的维护,或者下一版的改版。此处我们以购物网站为例,这里已经很明确要了解整个用户的受众群体。首先需要收集用户的登陆时间、在系统中查看的商品、活跃时间等数据,尽可能的全面。在众多繁芜丛杂的数据中保留这次分析需要的数据,比如查看的商品和活跃时间。再对用户进行分析,提取特征,比如男人关注什么,女人关注什么,老人关注什么等等,每个群体的登陆时间也会略有不同。这时候我们根据这些特征,进行建立数据模型,就是那些行为可以让我们认定这个人是什么年龄段的。建立完成模型,通过大量的数据验证这些,我们就可以得到一张用户画像,比如80%的用户是年轻的女性,她们喜欢晚上上网,经常购买的是口红之类的物品。这样就得到了一张完整的用户画像。当然在实际企业应用中,比这个例子更复杂,需要更多的专业人士的辅助。
1.7 生产过程中的简单应用
在鑄造行业中,经常会遇到质量的问题。首先,同样需要收集铸件生产过程中的所有数据,比如铸件尺寸等铸件的信息,每道工序的操作员信息,每次工艺的工艺信息。拿到大量的信息之后,可用使用六西格玛的一些方法,将主要问题进行聚焦。再加上我们之前获取到的数据,就得到了一个完善的特征库。同样用每次生产的信息进行建模,使用大数据进行分析,通过足够多的数据进行训练模型。我们甚至可以得出在那些工序环节出错的概率,及时去纠正相关问题,提高产品质量。当然这也是六西格玛与数字化手段相结合。
2 结语
数据技术在企业生产、经营等各个方面起到了非常重要的作用,它是企业数字化系统的核心功能,是企业BI系统的重要指导方向,它的分析成功越来越重要。数据挖掘技术的良好应用将可以更好的为企业决策层提供决策依据,从而促进整个企业高效的良性运营,并使得企业更具竞争力。
参考文献:
[1]Jiawei Han.数据挖掘概念与技术[M].机械工业出版社,2001,8.
[2]朱明.数据挖掘[M].合肥:中国科技大学出版社,2002,5.
[3]陈文伟,等.数据挖掘技术[M].北京:北京工业大学出版社,2002.
[4]刘莹.基于数据挖掘的商品销售预测分析[J].科技通报,2014(07).endprint