胡杰
摘要:文章首先简要概述与数据挖掘技术相关内容,随后从分类、聚类两种数据挖掘应用较广的维度来开展研究,分别有神经网络、决策树法、层次方法、基于密度(或网络)方法等;剖析了数据挖掘技术应用于信用信息分析的问题,而后围绕问题内容,指出可从强化海量数据处理效果、快速提炼信息分析报告、提前预测未来发展趋势、积极融合智慧化服务平台等方面解决问题,以期为相关技术工作提供可靠参考。
关键词:数据挖掘技术;信用信息;分析算法;对策
中图分类号:TP311. 13
文献标志码:A
0 引言
大数据即巨量资料,指所涉及的资料量规模巨大,无法通过主流软件工具实现获取、管理的咨询。新时期背景下大数据有着无限潜力和优势,但同时也给各领域工作带来考验。有更多的人在现代社会中挖掘出数据的价值和战略意义,并开始延伸到对数据的研究中。如何在数据海洋中获得利于发展的信息和商机,有效提升利润,就必须借助于各种智能化方法来分析处理,即采取相应的数据挖掘技术。利用数据挖掘技术能深入数据深层找出隐含的知识,从而提升各种管理决策的科学性,减少不必要的损失,优势突出。
1 数据挖掘技术简述
1.1 数据挖掘技术定义
数据挖掘( Daca Mining)是指从大量数据中通过计算分析方法来获得其中隐藏信息的过程。该概念属于计算机科学的学科领域,常常和人工智能、数据库等多领域紧密联系,又有着“资料探勘”“数据采矿”之称。此技术的实施过程主要包括3个阶段:第一,准备数据;第二,挖掘数据;第三,对结果进行表达及解释[1]。如今,数据挖掘理念受到了信息产业的关注,对大量数据有效利用并转化成有用信息,将其利用在生产控制、商务管理、市场分析、科学探索上。
1.2 数据挖掘技术模型
数据挖掘技术的模型主要是信息挖掘过程的模型展示。此过程可将信息挖掘的步骤划分成以下3步:第一步,预处理。预处理就是提前对海量的冗余的数据信息加以筛选、剔除,只留下有效的数据,确保数据挖掘技术的应用效率。第二步,信息特征的抽取[2]。整理上一步骤所筛选出的数据信息后,对信息结构间转化,保障转化后的结构能被计算机软件所识别和存储,满足用户信息使用的需求。第三步,数据挖掘。将上述步骤中所处理好的数据和信息收集后并加以挖掘,将挖掘出的结果用客户能识别的语言表现出来,确保符合以人为本的原则和实际应用需求。
2 数据挖掘技术在信用信息分析中的应用算法
2.1 分类算法
2.1.1 决策树法
决策树法( Decision Tree Method)是常用的机器学习算法之一,也被广泛用于风险性决策问题中,具体如表1所示。决策树就如同树木的枝干,从主到次进行逐一分解,随后形成不同的规则链条。决策树的生成有3个较经典方法,分别是信息增益(ID3)、增益指数(ID3,C4. 5)、基尼指數(SLIQSPEINT)。此外,还存在多种改进的算法。关于此方法的应用优势较多,如便于理解和解释,计算代价相对较低。即便是存在冗余数据,也不会对最终决策造成较大的不利影响[3]。但需明确的是,该方法也存在不足,如天生过拟合、数据碎片问题、有一定的复杂性。
2.1.2 神经网络
神经网络( Neural Necwork,NN)指模仿生物神经网络的结构和功能的计算模型。多数情况下,它能借助大量人工神经元的联结来分析,属于探索数据的新模式[4]。该方法最突出的优点是能够对收集出的数据加以分类,例如能有效识别垃圾邮件信息,提取出相关的词汇后来及时判定:又如还可利用在疾病的判断中。例如有患者在医院经多项基础检查后,系统会自动生成了许多数据,单纯地分析数据无疑难度较大。此时便可利用神经网络的计算方式,及时分析该患者是否得病及其种类。在数据挖掘过程中,神经网络的运作主要有4点:(l)确定输入、输出(见图1);(2)找到一种或多种算法;(3)找到数据集,训练模型;(4)产生新数据,输入模型得到结果。
2.2 聚类分析
聚类分析与分类算法的相同处在于,都是将数据分组后再挖掘及分析,但不同之处是聚类分析的数据处理对象有未知性。
2.2.1 层次方法
层次方法聚类,是将数据对象组合成“聚类树”的方法。该方法的处理方式有多种,可从上至下、从下至上。可进一步分成凝聚、分裂形式。BIRCH可利用层次法或其他方法对海量的数据进行聚类。(1)凝聚。白底向上处理并将各对象看作一个簇(数据被划分后的子集),合并后组成更大的簇,直到所有对象均处于相同簇中,或满足某终结条件[5]。(2)分裂。和凝聚相反,分裂的方法是将所有数据纳入一个簇中,而后逐步将其细化、分裂,直到各对象形成一簇或达到终结条件,处理过程结束。
2.2.2 基于密度法
以DBSCAN法为例,该方法将簇定义成为“密度相连点的最大集合”。该数据挖掘算法的优点在于:第一,不需要了解形成簇类的数量;第二,能发现任意形状簇类(见图2);第三,识别出噪声点,甚至是检测到离群点;第四,和数据库一同使用后,能加速区域的查询[6]。但此方法同样存在不足之处,例如:第一,不能很好反映出高维数据;第二,无法很好反映出数据集以变化的密度;第三,若计算资源有限,但数据量却非常庞大时,会极大地影响到该方法运算效率。
2.2.3 基于网格法
此方法优点有处理效率高、时间短,典型方法包括STING,WAVECLUSTER.CLIQUE等。以STING为例,它能将空间区域划分成多个的矩形单元。和其他运算技术方法相比,优点如下:第一,能实现独立查询分析;第二,利于并行处理数据和增量更新;第三,此方法最典型的优点是效率高[7]。但要注意虽然此运算方法处理速度很快,效率较高,但可能会降低簇的精确性和质量。
3 数据挖掘技术在信用信息分析面临问题及对策
3.1 数据挖掘技术应用于信用信息分析面临的问题
第一,信息来源单一。信息存在来源单一、覆盖面窄的问题,而该问题所导致的结果,则是无法更全面地挖掘信息,促使最终的信用信息分析可信度、科学性明显降低。第二,信息更新缓慢。当前社会经济发展速度迅速,各种金融活动的流动也随之加快。若对信用信息的收集、分析跟不上节奏,会导致信用信息的分析时效性显著降低,影响到信息的具体使用。第三,信息分享不足。部分企业或单位不愿对信息合理的配置和共享,不仅可能影响到信息分析的时效性,甚至造成信息孤岛、分散、屏蔽的状态,无法满足当前社会用户需求。第四,利益驱使影响。受到市场利益的驱使,以金融企业为例,在获得大量用户数据信息后,若对信用信息加以垄断,就能在激烈市场竞争中占据有利的位置[8]。但如此举措会影响到信用信息数据的联通,加大了其他企业的数据挖掘成本。第五,法律制度较落后。和国外的发达国家相比,我国对信用信息的管理制度重视度相对不高,也缺乏更完善的信用管理法规体系和法律依据,诸多因素都会限制信用信息的发展水平。
3.2 数据挖掘技术在信用信息分析的应用对策
信用信息也有巨大信息量,数据挖掘技术能很好地对该类信息加以处理,满足新时期用户需求。我国对于信用信息的分析、评价相关制度建立相对于其他发达国家更晚,可以以数据挖掘技术为基础,有效提升信用信息的运用价值。以下从4个方面来探究其应用。
3.2.1 强化海量数据处理效果
在对相应的信用信息数据分析处理时,最为关键的分析和评价,可着眼于对数据挖掘技术的计算方法上。分析除了借鉴其他发达国家的优秀经验外,还应当应结合我国实际国情来统计分析构建模型。近年来,我国对信用信息分析的重视程度不断提升,数据挖掘技术的应用也愈发广泛。信用信息数据量不断增大,更要重视数学模型的建立。可利用关联函数等方式来提高模型查询、定位的效率。此外,数据挖掘技术本身具备了自动预测趋势、描述等功能,能切入实际来分析当前事物的发展形势,作用突出[9]总之,借助于数据挖掘技术来有效提取、分析海量的信用信息数据非常关键,整个过程中构建模型也势在必行。
3.2.2 快速提炼信息分析报告
信息分析和论证、行为、决策等方面都有关。论证是根据已知“信息”来推论出新的信息的过程:决策则是根据已知的“信息”来指导个人或组织行为模式的转变。信息分析侧重于信息,信息不仅是决策的依据,也是行为改变的基础。以往对信用信息进行分析时,因条件受到限制往往无法更全面地掌握出企业、个人所有的有效信息,存在信息闭塞的情况,很难用传统的信用信息评价方式来评估,也无法全面观察到有效信息的变化。如今,可积极发挥数据挖掘技术的作用。即便是不同格式的信息也能记忆加以转化,更清晰直观地反映出企业或事业单位的信用信息评审制度。同时利用此技术后能实现白动化查找分析,及时过滤剔除掉多余的信息,并借助于交互的方式分析,最终从不同格式的信息中获取有作用的信用信息并分析,确保信用信息分析制度也能常规运作,获得更为详细完善的信息分析报告,来作为可靠的发展依据。
3.2.3 提前预测未来发展趋势
信用风险指交易双方不履行到期债务的风险,又被称作违规风险。传统的信息信用评价往往只能对某个企业、某个用户的信用情况加以评估,缺乏预见性。当未来发展过程出现风险时,很可能造成损失。数据挖掘技术能更全面地分析企业或个人行为,了解企业或个人的日常交易行为模式、行为习惯等,从中获取有利的信息数据后来實现对未来发展的预测,做到“防患于未然”。以金融行业机构为例,当预测到信用信息未来的发展趋势后,能及时采取风险预防措施,最大化地减少所谓的信用风险,及时从深处挖掘到数据中的失信行为,确保稳定发展。又如对当前企业、个人的信贷过程中使用数据挖掘技术,能利用其预测性来分析该对象在未来是否会有良好的信用制度,也能减少信用风险。
3.2.4 积极融合智慧化服务平台
当前,数据挖掘技术和“智慧化”的融合已呈炙手可热的趋势,各类智慧场景(如智慧社区、智慧安防)层出不穷,促使数据平台的智慧化发展不断深化。以河南省某信用信息平台智能化的成功案例分析,此平台的建设可分为以下3个层面(见图3)。第一,数据感知层。该层主要是负责对数据的质量、安全性加以管控的环节,包含了硬感知、软感知两个方面。硬感知:收集以实体为载体(如二维码、传感器)的信息、状态等数据;软感知:搜集网络爬虫、系统日志、探针埋点等数据。第二,数据分析决策层。通过深入学习和利用数据挖掘技术分析后,能得出有价值且利于决策的信息,同时构建出对应模型[10]。第三,交互表现层。此层主要用于和外界的关联,用语音、视频等方式交互。总之,通过积极融合智慧化服务平台,能构建出更多的智慧化场景,充分发挥信用信息功能。
4 结语
综上所述,数据挖掘技术在诸多企业、事业单位中的应用越发广泛,甚至成为一种新的经济资产。从宏观角度来看,正是因为存在数据挖掘技术,才能从数据分析的层面给企事业带来帮助,也为社会带来全新的创业方向、商业模式和投资机会。目前,以大数据为基础的各种科技类成果一跃成为市场发展的热点,无论是产品营销、企业风险管控,还是用户体验改进等方面都有大数据的身影,也取得丰硕实践成果。未来除信用信息分析外,数据挖掘技术的运用会更加广泛,并在更多行业中发挥出其重要价值。
参考文献
[1]李迎国,李永华,何兆照.数据挖掘技术在高职教学质量评价中的应用[J].无线互联科技,2022(2):134-135.
[2]陈锐,范小光,吴益平.基于数据挖掘技术的白水河滑坡多场信息关联准则分析[J].中国地质灾害与防治学报,2021(6):1-8.
[3]杨银娣,严金哲,崔明哲,等.基于Tobit模型的大学生信用消费分析研究[J].中南民族大学学报(自然科学版),2021(6):654-660.
[4]郭文波,周慧静.基于信息双要素理论的公共信用信息增值与实践路径[J].宏观经济管理,2021(6):47-53.
[5]张巧珍,吴雯婷,李紫萱,等.采用数据挖掘技术对湖北省人类狂犬病开展生物信息学研究[J].中国生物工程杂志,2021( S1):14-29.
[6]钟亮,郭熙,国佳欣,等.基于数据挖掘技术的高光谱土壤质地分类研究[J].中国农业科学,2020( 21):4449-4459.
[7]盂秋晴.在线健康信息的数据分析与挖掘技术研究——评《统计分析与数据挖掘技术》[J].材料保护,2020(9):164.
[8]李仪,陶宇.大数据技术下消费者个人信用信息共享的治理机制[J].中国流通经济,2020(2):92-100.
[9]祁鹏,彭俊文,许多恒,等.基于频繁事项数据挖掘的医疗设备技术管理研究[J].中国医学装备,2020(1):62-65.
[10]陈君.数据挖掘技术在二手车交易系统中的应用[J].计算机技术与发展,2020(5):180-184.
(编辑李春燕)