乔冰琴 段全虎 高翠莲
【关键词】 大数据; BI工具; 贷款风险预测; 大数据处理流程; 企业大数据应用
【中图分类号】 F234 【文献标识码】 A 【文章编号】 1004-5937(2021)24-0131-07
一、引言
大数据的发展与应用已经深入人心,大数据在企业中的应用实践也不断地落地开花。王秋菲等[1]利用网络爬虫技术获取了亚太实业自2009—2016年间的相关数据,对这些数据进行挖掘分析,提取出能揭示公司财务是否存在舞弊行为的重要审计证据。张志恒等[2]基于大数据文本挖掘技术构建了审计数据分析框架,利用文本挖掘模型挖掘出审计疑点,为大数据审计提供审计证据和线索,从而提高审计质量。
随着企业信息化的进一步高速发展,数据来源更加多样化、数据体量更加巨大化、数据格式更加复杂化,这为企业应用大数据进行日常经营管理、分析和预决策带来了挑战。张红英等[3]分析了大数据时代财务分析面临的机遇与挑战,指出大数据时代财务分析面临的机遇有财务数据与非财务数据混搭、结构化数据与非结构化数据混搭、宏观数据与微观数据混搭,这些“混搭”为财务分析带来了广阔的数据“蓝海”,大数据技术为提高基于数据总体的企业财务决策提供了支持,使传统财务的阶段性报告转向动态实时报告;而大数据时代财务分析面临的挑战有信息安全、获得信息的成本以及信息处理人才。路伟果等[4]指出数据挖掘技术将重新定位会计人员和会计部门的角色、扩大会计确认的要素范围、更多地采用可视化技术解释数据以及企业将面临更大的信息安全风险;进一步指出会计人员要逐步转型为数据分析师和算法工程师、增强会计人员的数字素养和提高可视化管理能力、构筑信息安全防护体系等。乌婷等[5]指出,大数据对管理会计的思维、范围、方式及效果创新产生了深远影响,提炼出大数据时代下管理会计应具备的职业能力:思维创新能力、数据分析挖掘能力、IT应用能力及业务综合处理能力,为管理会计人员胜任大数据时代下的管理会计工作提出相应的建议。
大数据时代,企业管理人员利用大数据BI(Business Intelligence,商业智能)工具进行企业经营分析和数据挖掘已是提高企业竞争力的重要措施。张超等[6]指出财务智能是商业智能的核心,是大数据、人工智能等新技术与财务的融合,其涉及ETL(Extraction、Transformation、Loading,数据抽取、转换、加载)、DW(Data Warehouse,数据仓库)、OLAP(Online Analytical Processing,联机分析处理)、Data Mining(数据挖掘)等技术,同时文章指出要进一步运用机器学习、深度学习等技术来构建财务决策模型,强化企业的智能化决策支持系统。王毅辉等[7]对国内外BI工具进行比较,针对烟草商业企业给出了选择BI工具进行财务分析的要求。王瑜等[8]在医疗设备多维数据分析中应用PowerBI工具进行跨库数据检索、分析与展示,说明PowerBI工具对医疗设备档案异构数据集成、转换、自动抽取等具有很好的支持能力,能满足多维数据高效检索的要求。王缘[9]针对小米BigBI工具提出了产品优化方案,使BI工具既满足企业大数据分析的需要,又能提升产品的易用性和易学性。
二、大数据BI工具简介
在企业中应用大数据技术进行数据分析和挖掘的最有效、最便捷的方法是使用大数据BI工具。大数据BI工具对大数据技术的底层实现细节进行了封装,使用大数据BI工具进行数据分析和挖掘不需要编写任何代码,非大数据技术人员利用大数据BI工具也能非常方便地进行企业经营数据分析和可视化。大数据BI工具使企业管理人员聚焦于数据本身的特点、数据之间的关系、数据分析的目标,而不必担心编程能力的高低。
市场上不同的BI工具有一定的共性,也各有其特性。一般的BI工具都具有数据汇集、数据清洗与转换、数据分析和可视化等功能,不过各BI工具在数据分析环节的差异较大。有的数据分析是基于传统关系型数据库进行SQL查询与统计的简单分析,有的数据分析在简单分析基础上还包括基于机器学习等智能算法实现的复杂分析[10]。目前常见的大数据BI工具有IBM Cognos、Oracle OBIEE、SAP BO、Tableau、帆软FineBI、Microsoft Power BI、QlikView、openI、SpagoBI等。
三、大数据分析挖掘流程
大数据分析挖掘流程可以分为4个环节,如图1所示。
(一)數据获取
大数据的来源主要有物联网数据、互联网应用数据以及传统信息系统数据,不同来源的数据有不同的获取方式。物联网产生的数据主要是非结构化数据,这些数据多呈现为视频、音频和各类传感数据等,其数据价值密度较低,一般这类型数据可以从数据分析商处获取。互联网应用数据包括Web应用数据和移动APP应用数据,这些数据多呈现为半结构化形式的网络链接、文本、数据表及非结构化形式的图像、音视频等,其数据价值密度较高,一般这类型数据既可以从数据分析商处获取,也可以使用技术手段从网络中爬取。传统信息系统的数据多以结构化数据为主,这也是大数据中价值密度较高的一类数据,比如来自企业ERP系统、政务系统以及各类企业公司内部信息系统中的数据等,一般这类型数据多由对应的信息系统软件采集,对于政府开放平台上公布的诸如气象数据、交通数据等也可以通过技术手段进行网络爬取。
(二)数据预处理
在使用算法进行数据分析和挖掘之前,首先应该检查数据的完备性和数据质量,对不合要求的数据进行数据清洗;其次应该将数据进行标准化处理,使数据集符合机器学习的要求。
1.数据清洗
获取到的原始数据往往存在特征值缺失、异常值或重复数据等质量问题,在进一步进行数据建模挖掘之前,需要对这些数据进行清洗加工。
(1)缺失值处理
数据集中的缺失值会对机器学习的数据聚类、分组、预测造成影响。对于缺失数据,可以采用简单删除法进行删除或采用数据替换法和插值填充法进行替换和填充。简单删除法一般用于缺失值样本比例较少的情况,否则过多的删除包含缺失值的数据可能会丢弃大量隐藏信息,影响数据集的客观性和机器学习的正确性;数据替换法和插值填充法是一种补齐数据的方法,可用于缺失值适中或较少的情况下,补齐的方法可采用人工填写、平均值填充、特殊值填充、热卡填充、K-means填充、多重填补、回归等。但无论采用哪种方法处理缺失值,都一定要根据实际应用场景进行合理处理。
对于缺失值也可以不按上述方法进行处理,贝叶斯网络或人工神经网络等方法可直接在含有缺失值的数据集上进行分析和挖掘。
(2)异常值处理
异常值是数据集中的不合理值,比如用户输入的错误数据、传感器测量误差、实验误差、数据处理错误、抽样错误、故意异常值或者自然异常值等。处理异常值时可以采用与处理缺失值相同的方法,而且要尽量根据造成异常值的原因去修正异常值。
(3)重复数据处理
重复数据可能是多条数值完全相同的记录,也可能是同一主体的某个具有唯一特征的属性在数据集的不同记录中取值不同。对于前者,可直接做“去重”处理;而对于后者,就得根据实际业务情况来处理,可以合并这些重复数据,也可以不做任何处理。
2.数据标准化
大多数机器学习算法对数据集的特征值有特定的要求,在使用机器学习算法对数据集进行数据分析和挖掘之前,需要将数据集按照要求进行标准化处理。
数据标准化又称数据无量纲化或数据归一化,用于消除不同特征属性的单位量纲带来的数据不可比性,从而提高机器学习算法的准确性。常用的无量纲化技术主要包括以下四种:
(1)min-max归一化
min-max归一化也称min-max标准化、线性归一化或者离差标准化,按照公式1将特征值映射到[0,1]之间。
其中,min(x)和max(x)是特征x的最小值和最大值。
(2)平均归一化
也可按公式2對特征值进行归一化。
(3)非线性归一化
非线性归一化是通过一些数学函数,如对数函数、指数函数、正切函数等,将特征值进行映射,使用时需要根据特征值的分布选择非线性函数。例如:log10x、atan(x)×2/π。
(4)z-score标准化
z-score标准化也称标准差归一化或者零均值标准化,按照公式3将数据集转化为接近标准正态分布的形式。
其中,μ和σ是特征x的均值和标准差。
(三)分析与挖掘
在数据分析与挖掘中,应利用机器学习、深度学习等人工智能技术构建分析决策模型和智能化决策支持系统。机器学习在大数据分析中的重要性不言而喻,机器学习使得我们既可以更好地分析历史数据和当前数据,还可以更准确地预测未来数据。在商业智能中应用机器学习,可以帮助人们从海量数据中提取出有价值的信息,找到最佳市场策略,大幅度改进商业决策,提高生产率,从而促进企业利润最大化和经营风险最小化。
机器学习算法可分为监督学习和无监督学习,如图2所示。
其中,监督学习的训练数据必须带有分类信息,即包含特征数据和对应的目标变量类别,通过监督学习得到特征与分类目标之间的对应关系,预测时输入特征便可得到预测目标的类别。监督学习又可分为分类算法和回归算法,分类算法用于预测实例数据的分类结果,即预测目标是离散型的分类信息;回归算法用于预测数值型数据,即预测目标是连续型的值。K-近邻算法、线性回归、朴素贝叶斯算法、支持向量机、决策树等都是监督学习算法。
无监督学习不需要数据集包含明确的分类目标信息,因为无监督学习不需要根据训练结果去预测新数据。无监督学习包括聚类算法、密度估计算法。聚类算法会自动根据数据的相似度进行离散类别划分,若在聚类的同时还要估计数据与类别的相似度,则可使用密度估计算法;另外,无监督学习还可用于减少特征维度。K-均值、最大期望算法、DBSCAN等都是无监督学习算法。
(四)数据可视化
在进行数据探索、分析预测的过程中,可以利用数据可视化功能将数据以易于感知的图形方式进行展现,有效提高数据分析的效果和效率。许多BI工具都具有Dashboard(仪表盘)数据可视化模块,Dashboard既能给用户提供数据跟踪、钻取和多维度分析功能,还支持多数据源、实时数据更新和交互式仪表盘。在可视化图形类别支持方面,BI工具均能提供多种类别的图形,如区域图、热力图、流向图、点地图等。
四、企业大数据分析应用实践
下面给出基于大数据BI工具——“数猎云”实现的企业大数据分析应用实践案例。
(一)实践环境
数猎云是一种图形化大数据BI工具,用户基于数猎云客户端访问数猎云大数据服务器。基于数猎云进行大数据财务分析可以按照4个环节来实施:获取数据源、数据汇集与转换、分析和挖掘、数据可视化。如图3所示。
与其他很多BI工具不同的是,数猎云不仅能够汇集转换数据、分析数据、可视化数据,更重要的是,数猎云提供了上百种数据加工组件和数十种统计分析、数据挖掘及机器学习算法,操作人员不需要任何编程,只需通过鼠标简单地拖拽组合和进行相应的参数设计,即可进行复杂的企业大数据分析与预测。
(二)业务数据分析
案例数据是某金融企业的贷款申请与发放信息,基于监督学习算法——支持向量机对贷款风险进行预测。使用支持向量机进行贷款风险预测时,首先要训练预测模型,训练数据集中的属性Gender、Married、Dependents、Education、Self_Employed、ApplicantIncome、Coapp-
licantIncome、LoanAmount、Loan_Amount_Term、Credit_
History、Property_Area等作为特征变量,Loan_Status作为分类标签,训练后的支持向量机模型可以根据特征变量来预测是否应该为某个申请贷款的人发放贷款。
1.问题定义与数据探索
本次数据分析挖掘的目的是根据原始数据使用支持向量机对用户的贷款风险进行预测。支持向量机是一种二分类型監督学习算法,需要先训练模型再用模型去预测数据。本案例的数据源是由企业OA系统提供的CSV格式文件,数据源包含的特征属性和部分数据行如表1所示。
各特征属性的含义如表2所示。
样本数据记录共5万条,按70%■30%的比例分为两组,前一组3.5万条数据为训练数据,用来训练预测模型;后一组1.5万条数据为测试数据,用来测试模型的训练效果。
2.数据汇集
在数猎云中连接数据源,从中抽取贷款记录的CSV数据文件,将CSV格式的数据转换为结构化数据,再把结构化后的业务数据写入数据湖的对应数据表中,实现业务数据到大数据平台的汇集。
3.数据预处理
大数据分析用到的数据挖掘、统计分析、机器学习以及深度学习等算法,一般会对算法的输入数据有限制要求,在数据建模前,应根据模型的要求对输入数据进行转换和整理。
从表1展示的部分数据可以发现,Married、Dependents等列存在空值、数据类型表示不一致等情况,需要对数据进行清洗加工。在清洗加工之前,可以通过浏览数据或使用统计方法等手段对原始数据进行探索和画像,以帮助了解数据质量。例如:统计某列空值比例(存在空值的行数/总记录行数)、统计某列包含非法字符的比例(存在非法字符的行数/总记录行数)。
(1)缺失值处理
以对Married进行画像为例,在数猎云中,可对Married属性值(已婚/未婚/空值)进行分组统计,据此来发现到底有多少不合法的Married属性值。对Married的缺失值要尽量进行补充,补充时要参考关联业务数据的含义,比如Married婚姻状态和Dependents家庭中子女数有一定的关联关系。根据业务常识,如果子女数大于等于1,客户已婚的可能性很大,反之客户已婚的可能性比较低。因此可以根据此业务关联性,补齐Married的缺失值。
对数据集中的Gender、Dependents、Education、Self_Employed、ApplicantIncome、CoapplicantIncome、LoanAmount、Loan_Amount_Term、Credit_History、Property_Area、Loan_Status等属性,由于缺失值比例并不高而且难以补全为有意义的信息,所以在此将有空值的记录进行删除。
(2)数据类型转换
贷款风险预测用到的输入数据包括除Loan_ID和Loan_Status外的所有特征属性,根据这些输入的特征属性预测分类目标Loan_Status的值,Loan_Status代表贷款状态。从表2可以看到,贷款风险预测用到的特征属性和分类目标的初始数据类型都是文本类型NVARCHAR,由于支持向量机要求输入的特征变量和分类目标均是数值类型,因此下面对这些属性进行数据类型转换。
ApplicantIncome、CoapplicantIncome、LoanAmount、
Loan_Amount_Term这四个属性在实际中均应为数值类型,可直接在数猎云中将这四个属性全部转换为数值类型。
Credit_History在原始数据集中取值为文本型的0/1,也可直接将其转换为数值类型。
Gender、Married、Education、Self_Employed、Property_Area、Loan_Status等属性都是取值为离散值的文本类型,这需要在数猎云中转换成对应的数值类型,以满足机器学习算法的要求。上述特征变量中,Gender、Married、Education、Self_Employed、Loan_Status均是2种取值,Property_Area是3种取值,在数猎云中将2种取值的特征变量均转换为0/1取值,将3种取值的特征变量转换为0/1/2取值。取值转换对应表如表3所示。
(3)非法数据处理
原始数据的Dependents属性值中出现了3+这样的值,表示家庭孩子多于3个的情况。因为Dependents要转换为数值类型以用作支持向量机的输入特征变量,因此需要对Dependents的值做去除+号的处理,并将Dependents转换为数值类型。在数猎云中,利用字符串替换功能将+替换为空,再将所有的Dependents取值由字符型转换为数值型。
(4)数据标准化
由于ApplicantIncome、CoapplicantIncome、LoanAmount、Loan_Amount_Term四个特征变量的取值范围相差较大,需要在训练前进行量纲标准化处理。可以直接在数猎云中将这四个特征数据组装成CSN,再使用标准化工具(包括Standard、MinMaxScaler和MaxAbsScaler三种形式)对CSN数据进行标准化,形成标准化模型,以供后续训练、测试和预测时使用。
(三)数据分析与挖掘
支持向量机是一种监督学习算法,使用该算法建立预测模型时,需要训练预测模型,并对训练好的模型进行预测能力评估,通过评估的模型才能用于实际预测。模型使用过程中,不断根据预测与实际结果的对比反馈,进而调整修正模型。模型训练、评价、使用反馈环如图4所示。
1.训练模型
用训练数据集训练支持向量机以得到预测模型。在数猎云中,支持向量机的输入要求为CSN类型,因此,先用NumAssemable变换工具将训练集中的分类标签(Loan_Status)和多个数值类型的特征数据(Gender、Dependents、Education、Self_Employed、标准化后的CSN数据(ApplicantIncome、CoapplicantIncome、LoanAmount、Loan_Amount_Term)、Credit_History、Property_Area)组装成CSN类型,再将此CSN数据作为支持向量机的输入,设置好模型的迭代次数、步长、正则化参数、分类阈值等参数后,开始模型训练。模型训练结束后,要注意观察模型训练结果,其中precision代表模型预测的精确率,取值均在0和1之间,数值越接近1,模型就越好。在precision不高时,要调整模型的训练参数重新进行模型训练。训练过程可以重复进行,直到precision的值达到合理的要求。
2.评价模型
评价模型是检验使用模型进行预测的precision。在数猎云中先将测试集中的多个数值类型的特征数据组装成CSN数据,再将此CSN数据作为预测模型的输入,运行模型以得到预测结果。将预测输出的贷款状态和测试数据集中的贷款状态进行比较,检查预测模型在预测数据时的准确度。
3.使用模型进行预测
模型训练成功后就可以在实际中使用模型对贷款风险进行预测了。对某个贷款申请人,模型可以根据此人的特征数据预测出是否应该给其发放贷款,从而辅助金融企业控制贷款风险。
至此,在数猎云中完成了贷款风险预测案例,在数猎云中创建的数据分析工作流如图5所示。
(四)数据可视化
数猎云提供了强大的数据可视化工具,支持多种类型的报表展现、多维分析和数据可视化。在数猎云平台的deepBI模块中,对贷款风险预测结果进行可视化仪表盘设计,设计结果如图6所示。
五、结语
围绕使用大数据BI工具实施企业大数据分析和挖掘的四个环节:获取数据源、数据汇集与转换、分析和挖掘、数据可视化进行了阐述。基于数猎云大数据BI工具完成了贷款风险预测,以此尝试为企业管理人员在日常管理工作中从事数据分析和挖掘工作提供思路和建议。
为更好地在企业经营管理中应用大数据BI工具进行数据分析和预测,企业管理人员可参照以下建议不断提高自身的大数据分析和挖掘能力:(1)熟悉待分析的数据,能针对分析目标提取数据特征。(2)熟悉数据清洗的方法,能对“脏数据”进行清洗使之成为有意义的、合理的数据。(3)熟悉数据标准化的方法,能将不同量纲的数据转换成符合数据分析和挖掘要求的数据。(4)熟悉各种机器学习算法,了解各类算法的特点、用途和参数的含义,能根据工作要求选择合适的机器学习算法进行数据预测。(5)熟悉各种可视化图形的特点,能依据数據特点选择合适的图形进行数据钻取、探索和分析。
【参考文献】
[1] 王秋菲,栾丹,张洛迪.网络爬虫技术获取审计证据的应用研究——以亚太实业审计为例[J].会计之友,2020(17):131-136.
[2] 张志恒,成雪娇.大数据环境下基于文本挖掘的审计数据分析框架[J].会计之友,2017(16):117-120.
[3] 张红英,王翠森.大数据时代财务分析领域机遇与挑战[J].财会通讯,2016(5):84-85.
[4] 路伟果,刘光军,彭韶兵.数据挖掘技术对会计的影响及应对[J].财会月刊,2020(7):68-74.
[5] 乌婷,乔引花.大数据时代管理会计职业能力建设探讨[J].会计之友,2017(19):38-42.
[6] 张超,肖聪,朱卫东,等.财务智能可视化分析与文献综述[J].财会月刊,2019(3):24-32.
[7] 王毅辉,阎慧峰.财务BI工具选择和在烟草商业企业中的应用研究[J].现代经济信息,2018(24):120.
[8] 王瑜,鲍鲲,黄婷婷,等.基于Power BI工具的大数据分析在医疗设备多维数据分析中的应用研究[J].中国医学装备,2020,17(5):169-173.
[9] 王缘.小米BigBI商业智能工具用户体验优化设计与实践[D].长沙:湖南大学硕士学位论文,2019.
[10] 黄宜华.大数据机器学习系统研究进展[J].大数据,2015,1(1):35-54.