刘宇阳
(光大科技有限公司,北京 100040)
企业在经营发展的过程中,必然会积累大量的数据资源,相关数据资源能够反映企业的经营情况、经营风险以及市场走向等信息。利用好相关数据资源,对于进一步提升企业经营决策能力以及风险规避能力具有重要的意义。现阶段,大数据BI工具的出现与发展为企业大数据分析与挖掘提供了有效的方法。在大数据BI工具的支撑下,大量的企业数据资源能够被分析应用,从而为企业经营决策提供重要支撑,因此需要对大数据BI工具的应用进行深入分析。
利用大数据技术进行企业数据的分析与挖掘,最有效的方式就是利用BI工具。大数据BI工具对大数据技术的基本实施过程进行了详细的封装,在此基础上,再通过BI工具对数据进行分析与挖掘,无须编写代码,这样即使没有IT技术背景的管理人员也可以利用BI工具对数据进行分析和处理[1]。在企业管理领域应用BI工具能够有效提升大数据挖掘与分析效率,有利于经营管理人员将精力集中于数据的分析以及企业战略决策上,而不用为编程而发愁。目前市面上存在多种BI工具,不同的BI工具在功能与使用场景方面存在一定的差异,具有各自的特点。常规的BI工具主要有数据汇集、数据清洗、数据转换、数据分析、数据可视化等多种功能,不同的BI工具在数据分析方面存在着很大的差别。有些数据分析工具以传统的关系数据库为基础,对SQL的查询和统计进行简单的分析,有些则采用了以机器学习等智能算法为基础的复杂分析方法。当前常用的大数据BI工具有IBM Cognos、Oracle OBIEE、SAP BO、Tableau、帆软FineBI、微软PowerBI、QlikView、SpagoBI等。
大数据的来源主要有物联网、互联网应用、传统的数据资源等,相关数据资源的获得途径也不尽相同。物联网所提供的数据资源大多是无组织的,且大部分都是视频、音频和各种感知数据,相关数据资源的价值并不高,因而通常都是通过数据分析商来获得[2]。互联网数据主要包括网络应用数据和手机App应用数据,主要表现为网络链接、文本、数据表以及其他无组织格式的图片、音频、视频等,这类数据在数据价值方面往往有着较高的密度,主要通过网络获取,也可以从数据分析商处直接购买。传统的数据资源大多属于结构数据,其价值较高,数据来源主要包括ERP系统、政务系统、各种公司的内部系统等,这些数据可以从相应的系统软件中获取。而在公共平台上发布的气象、交通等数据,则可以通过网络进行数据采集。
在利用算法进行数据挖掘和分析前,必须对数据的完整性和质量进行检验,对不符合标准的数据进行数据清洗,确保所采集的数据有较高的规范化水平,能够满足机器学习的要求[3]。在采集到的原始数据中,经常会出现特征值缺失、异常值、重复等问题,针对相关问题需要对其进行进一步的分析和处理。数据集的缺省将影响数据的聚类、分组和预测,若将包含缺省的数据进行大规模的删除,将会造成大量的隐性数据丢失,严重时会降低大数据的客观真实性,进而降低算法的精确度。在数据缺省不高的情况下可以采用人工填写、平均值填充、特殊值填充等方法来填充数据,无论采用何种方式对缺省数据进行处置,都要根据具体的情形进行适当的调整。在进行数据预处理时,还可以通过贝叶斯网络和神经网络等方法来分析和挖掘丢失数据。在数据预处理过程中,还需要对离群值过大的数据进行处理。离群值是指数据集合中不合理的数据,例如使用者替换数据、传感器测量的误差、实验的误差、处理数据、抽样中的异常和天然异常数据等。在处理离群点时,应采取与丢失点同样的处理方式,并尽可能地对产生的异常值进行校正。
在所采集到的数据中可能存在大量重复数据,重复数据可以是多条数字完全一样的数据,也可以是同一数据集合中的某一特定特性的数据,其值会因数据的不同而有所差异。如果是前者,可以直接进行去重处理;如果是后者,则要看具体的业务状况,可以将这些重复的数据进行合并,也可以不进行处理。
目前,大部分的机器学习算法都对数据的特性有特殊的需求,在利用机器学习算法进行数据挖掘和分析前,必须根据需求对数据进行标准化处理[4]。数据标准化也称为数据规范化,可以克服因具有各种特性的单元尺度所引起的数据间的不可比较性,进而改善机器辨识的精度。目前,最常见的数据标准化方法有最小化、非线性标准化、z-尺度标准化、平均标准化。
在数据挖掘方面,需要运用机器学习、深度学习等人工智能技术来建立分析、判断和智能决策支撑体系。机器学习对于大数据分析的重要性是毋庸置疑的,能让我们对过去和现在的数据进行更好的分析,并且对将来的数据进行更精确的预测[5]。将机器学习运用于企业管理领域,能够有效地从大量数据中挖掘有用的信息,寻找出最优的营销战略,从而极大地改善企业的经营决策水平,促进企业生产力的提升,使企业的运营风险降到最低。目前来看,机器学习算法主要分为有监督学习和无监督学习算法。有监督学习算法又可以分为两种,一种是分类算法,另一种是对样本数据进行预测的算法,该算法基于离散类型的分类信息,利用回归算法对数字数据进行预测,所预测的对象为连续类型。K-近邻算法、线性回归、朴素贝叶斯算法、支持向量机等均属于监督学习算法这类算法训练不需要包含明确的分类对象,所以也不需要对新的数据进行预报。聚类算法、密度估算法等是目前最常用的算法。在应用聚类算法时,若要估计不同类别的相似程度,可用密度估计法来进行分析;采用无监督算法,可以减少特征的维度。K-均值算法、最大期望算法、DBSCAN算法等都是非监督学习算法。
在进行数据探索、分析预测时,可采用数据可视化的方法,能够使抽象的数据以图形化的方式直观地呈现,从而大大提升了数据分析的效率[6]。很多BI工具都带有Dash-board(Dashboard)数据显示模块。Dashboard可以为使用者提供数据跟踪、挖掘和多维数据处理功能,并提供大量的数据源,能够实现实时数据更新,具有互动显示面板。在可视性图形分类上,BI工具可以为用户提供各种类型的图像,如区域图、热力图、流向图、点图等。
现阶段,随着信息技术不断发展,市面上出现了大量的大数据BI工具,不同的BI工具在软件功能设计以及使用场景方面存在一定的差异。从应用实践来看,数猎云是一款功能强大且具有较高实用性的大数据BI工具软件,因此本文以数猎云为例,探究大数据BI工具在企业大数据挖掘中的应用。
数猎云是一款基于数猎云客户机接入数猎云大数据服务器的图形大数据BI工具,该款工具软件与许多BI工具的区别在于,不但具有数据转换、分析、可视化、数据处理等多种数据处理模块,以及几十种统计分析、数据挖掘、机器学习等算法,且无须编程,只要用鼠标轻轻一拉,就可以完成对企业数据的分析和预测。
数猎云所采用的机器学习算法为监督学习算法,在应用的过程中能够依据大数据对企业经营过程中的风险进行分析预测。在利用该BI工具进行企业经营风险预测时,需要对预测模型进行训练,并对数据集的特征进行提取。在这个过程中,Education、Self_Employed、Loan-Amount、Loan_AmountTerm、Credit_History、属性_Area等为特征变量,Loan_Status为分类标签,并利用算法模型的特征变量,对企业经营过程中的风险进行判断。
业务数据分析的目的是利用向量机在原始数据基础上对企业经营风险进行预测[7]。支撑向量机的是一种二元型有监督的学习算法,在应用的过程中首先要对模型进行训练,然后才能对数据进行预测。模型训练的数据来源为企业OA系统所提供的CSV格式文件。企业OA系统所提供的样本数据可达数万条,在模型训练的过程中可将数据按照70%、30%的比率分成两个小组,前者是训练预测模型的支持数据,后者是训练试验模型的训练数据,以评价模型的作用。数猎云与数据源进行连接,从企业的业务数据中抽取出CSV数据,在此基础上将CSV数据转换为结构数据,再将结构化的业务数据写入对应的数据库,实现业务数据的汇集。
将数据挖掘、统计分析、机器学习、深度学习等应用于大数据分析中,通常都会对数据的输入有一定的限制。Married、Depen-dents等存在数据空值、数据类型不统一的情形,必须进行数据清洗和处理。在清洗处理前,可以利用数据浏览和统计的方式来研究和描述数据的质量。以Married画像为例,在数猎云中,Mar ried的属性(业务类型、业务指标完成情况)可以被分类,以此来判断Married的非法属性值有多少。在预处理过程中要尽可能地弥补Married的缺失,并在必要的时候引用相关的商业数据,如Married业务类型和Dependents业务指标之间的关系。从商业角度来看,不同的业务类型其业务指标有一定的差异,当业务类型较为复杂时,业务指标达成也存在很大的困难。这样,Married的缺省值就可以根据这种业务相关性来填补。针对数据集中的Self_Employed、CoapplicantIncome、Loan_Amount_Term、redit_History、Loan_Status等属性,因为相关属性缺失的比率不高,很难拼接成有意义的信息,因此可以对相关属性的空白值记录进行删除。
支持向量机是一种监督学习算法,该算法需要训练预测模型,并对训练后的模型进行预测性能评估。只有经过评估,才能真正应用到实践中去。在运用模型时,必须将模型预测结果与实际经营情况进行分析对比,在此基础上不断完善模型。对支持向量机进行训练,可以得到精确的预测模型。在数猎云中,支持向量机的输入要求是CSN型。首先可利用NumAssemable转换工具,其归类标(Loan_Status)和多种特性数字的类型、标准化CSN数据(应用实例、CoapplicantIncome、LoanAmount、Credit_History)组合为CSN类型,并将CSN数据输入到SVM中,设定迭代次数、步长、正则化参数。在分类门限等相关参数的基础上,进行建模。模型训练完成后,要注意对模型的训练效果进行观察。模型的预测精度是由0到1来计算的,随着时间的推移,模型的精度也会越来越高。在测试精度不高时,要对模型的训练参数进行调整,以便对模型进行完善。针对模型的训练可以反复进行,直至模型精度符合需求为止。在评价模型的过程中需要应用预测精度。在数猎云系统中,首先需要将多个具有不同数值的特征信息进行组合,将这些特征信息输入到网络中,然后进行仿真计算,得出相应的模型预测结果。通过对预测结果与实测数据进行对比,检验模型预测结果是否具有准确性。■