杨北京 刘新海
摘要:文章首先介绍数据挖掘的基本概念和处理步骤,然后讨论征信系统和数据挖掘的关系,认为征信机构作为数据工厂,数据挖掘的各种方法都可以找到很好的应用场景,通过广泛和深入地开展征信数据挖掘,能够更好地为量化信用风险管理服务。文章梳理出征信系统数据挖掘的基本框架,着重探讨基本征信数据挖掘:一方面处理的是基于信贷行为的基本数据;另一方面应用的是基本的、传统的数据挖掘方法。根据数据挖掘方法论的不同,文章介绍相应的信用风险数据挖掘应用,并结合国际征信机构的先进经验,给出具体应用案例。文章最后指出在征信机构全面开展数据挖掘的工作,不仅可以提高征信服务水平,还可为大数据时代的到来打下良好的基础。
关键词:数据挖掘;征信系统;信贷行为;信用风险管理
一、 问题的提出
数据挖掘(Data Mining,DM)又称知识发现(Knowledge Discover in Database,KDD),是指从数据集合的海量数据中揭示出隐含的模式、发现先前未知的并有潜在价值的信息和知识的过程(Jiawei Han,MichelineKamber,Jian Pei;2012)。由于数据挖掘在应用过程中可以帮助商业决策这调整市场策略,评估风险,获得洞察力并进行正确决策,目前已经是人工智能和数据库领域研究的热点问题。随着大数据时代的到来,数据挖掘技术已成为许多互联网和零售企业的重要支撑技术和核心竞争力之一,并被广泛地应用到管理和社会学科等诸多领域。对作为天然就具有大数据和云计算特征的征信业而言,数据挖掘技术的地位和重要性不言而喻。目前国外征信机构正在广泛利用数据挖掘技术,进行信用风险管理方面的产品开发,申请了许多关于数据挖掘的专利授权,并开发出多种数据挖掘产品。数据挖掘技术已经成为它们的核心竞争力,例如益佰利(Experian)、艾克飞(Equifax)、环联(Trans Union)和邓白氏(Dun & Bradstreet,D&B)等。
结合信用风险管理的目标:对个人消费者和企业的风险进行评估,减少交易过程中的信息不对称,本文将征信数据挖掘的基本步骤叙述如下:
步骤一:确定商业目标。该步骤主要是确定数据挖掘所要解决的具体问题,比如发现信用风险特征、欺诈风险特征、客户流失特征等;确定征信数据挖掘问题的覆盖范围,比如房贷产品、信用卡产品或汽车贷款产品等。商业目标不仅指明了数据挖掘方向,也是衡量数据挖掘效果的关键要素。
步骤二:数据采集。首先确定数据挖掘所涉及的具体数据库或者数据来源渠道,例如申请数据库、客户基本信息数据库、交易数据库、市场营销数据等,其次确定通过何种技术手段获取这些有用的数据以及数据的有效期。
步骤三:数据清洗。消除噪声和删除不一致的数据,进行数据质量检查,确保数据可靠。数据质量是数据挖掘的前提和生命。若数据质量不高,即使数据挖掘的技术再先进,耗费的功夫再大也无济于事。
步骤四:数据整合和转换。即将多种数据源整合在一起,把数据变换和统一成适合挖掘的形式,例如数据类型和数据格式的转换,缺省值和极值的处理。
步骤五:数据挖掘。使用模式识别或机器学习的方法以及计算机信息处理手段,对大量数据进行加工和分析,来提取数据模式或者是系统性的模型。数据挖掘既高度依赖先进的统计方法和计算机技术,也高度依赖数据分析人员的专业知识和经验。这是数据挖掘的核心。
步骤六:性能评判。并不是所有挖掘出来的模式或者模型都是有效的,根据某种指标度量(显著性检验、准确性检验或者某种测度),确定挖掘结果是合乎逻辑、合乎情理和合乎直觉的。
步骤七:将数据挖掘的结果用于决策分析。根据数据挖掘的结果做出相应的决策建议,例如改进风险管理策略、改进市场营销策略、改进客户服务策略等,以提高经营管理的效益,实现数据挖掘的商业价值。
步骤八:数据挖掘结果应用。挖掘所获得知识(模式、模型、规律、策略等),最终需要付诸于应用,以产生现实的经济效益。往往通过挖掘人员和IT技术人员合作,开发一些计算机应用系统来实现。
步骤九:数据挖掘的跟踪和提高。数据挖掘是一个不断发现、不断总结、不断提高的过程。需要对数据挖掘的应用进行跟踪和反馈,分析问题,提炼经验,并且不断地更新迭代。例如个人信用评分的模型每年都要重新挖掘和训练。
二、 数据挖掘技术在对外的风险管理服务中的应用
1. 聚类分析在对外的风险管理服务中的应用。聚类分析(Clustering Analysis),也称为自动分类,利用信用主体的信贷行为特征,根据(信贷行为、风险模式、信用主体基本信息)相似性的原则,自动归类,划分信用主体群(也称为类)。信用主体的类可以描述一种特定的信用风险模式。聚类分析是面向信用风险管理的数据挖掘的基本方法。
在征信服务中的应用:
(1)信用主体细分,金融学的微观基础是行为科学,无论公司行为或者是个人行为都具有一致性的特点,所以风险管理一直做的工作,就是试图通过对公司、个人行为的分析来预判公司、个人的违约前景,并为此开发出一系列的风险模型,辅助授信决策。相对于公司客户,个人客户的行为更具有一致性和可预测性。俗话说,江山易改,本性难移,指的就是性格倾向的稳定性和连续性。要直接在性格倾向于行为模式之间建立对应关系,并不是很容易的事情,替代的方法就是分群,物以类聚,人以群分,只要把每个人所属的人群类别定位准确,要预测其行为模式就比较容易。从统计分析看,特定人群的行为模式就有很高的同质性,换言之,不同人群在行为模式上有着明显的差别。根据不同的人群有着不同的风险模式,通过聚类分析,实现对不同的人群进行不同的信用风险管理,可以结合风险规则,通过聚类分析,将个人信用主体分为老龄消费群体、高净值客户群体、80/90后消费群体和新兴城镇居民群体,然后进行各自的风险模式分析。此外通过聚类分析,可以发现一些新的信用主体的行为模式,例如技术创新性企业会出现不同于一般企业的信贷行为,这就可能对应着新的信用风险模式的出现。社会发展趋势客户细分客户需求老龄消费者群体新兴城镇居民群体80/90后消费群体高净值客户群体低风险保本型的银行产品对现有社保、医保有效补充的社保产品医疗服务和生活服务更丰富的理财产品以咨询为导向个性化的服务家族财富管理追求个性化、新鲜的金融产品互动式的7x24网银服务移动金融服务人口老龄化富裕阶层扩大80/90后消费群体不断壮大农村城镇化和城乡一体化低费用无抵押贷款,新型农村信用贷款有农村特色的理财产品和中间业务
(2)欺诈检测。反欺诈是信用风险管理中的重要内容,结合专家规则,聚类算法可以用于挖掘出异常欺诈行为。
征信机构可以提供的反欺诈服务包括:
(1)文档交叉核对:通过交叉对比对客户的历史信贷资料来发现异常情况。(2)共享已确认或疑似的欺诈行为:诸如英国的西法斯(CIFAS)等组织,在会员机构之间共享确认的或怀疑的欺诈记录。(3)欺诈评分:征信机构可以为特定的信贷机构或所有信贷机构开发欺诈评分产品。(4)欺诈监测系统:通过建立欺诈监测系统,设置欺诈监测规则来发现申请欺诈行为,还可以通过还款行为进行分析来发现银行卡交易欺诈。
艾克飞公司也已开发出在线的数据挖掘产品防欺诈顾问(Equifax Fraud Advisor),可以自动地进行欺诈检测,以减少手工操作带来的风险。
2. 预测分析在对外的风险管理服务中的应用。预测分析是指通过对已知的信用主体的数据(信贷行为和风险状态/趋势都已知),通过挖掘,构建出预测模型,对未知的信用主体根据其信贷行为,预测出其风险状态/趋势。基于征信数据的预测分析是通过数据挖掘中的回归模型来实现的,包括风险评估和风险预测,两者区别在于:风险评估对目前的风险状况进行量化描述;而风险预测是对未来的风险状况进行量化描述。
在征信服务中的应用:
(1)信用评分。信用评分原始模型是根据已知的信用主体的信用历史资料,进行样本学习,得到了信用评分模型,根据信用评分模型,来决定客户是否可以贷款或所可以持有的金额权限,甚至是贷款利息率,从而保证还款等业务的安全性。随着风险管理和数据挖掘水平的提高,信用评分已经成为一个比较宽泛的概念,具体类型可达100多种,例如申请评分、欺诈评分、盈利评分、信贷审批评分、破产评分等。
局评分是基于征信机构的数据开发而来的信用评分,它与放贷机构自行开发的客户化信用评分有所不同。它使用的是来自各放贷机构上报的信息,基本涵盖了借款人所有的信贷记录,包括借款人的贷款余额总量、贷款总笔数和所以历史违约记录,以及一些公共信息源的数据,这是单个放贷机构无法拥有的。
(2)宏观或中观的信贷风险预测指数。基于征信系统的海量数据资源,可为宏观层面的风险预测提供具有前瞻性和准确性的数据信息。从国内金融业的未来发展看,对中性的政策性信息的需求将越来越迫切。有外部监管方面的原因,如资本监管体制改革。也有来自银行内部管理的推动,比如对信贷市场整体走势的信息需求,对涉及金融稳定和系统性风险的信息需求等。另外从宏观政策制定与实施的角度看,也需要了解和掌握中观信息,所以存在很多的衍生需求。征信数据具有灵活丰富的数据维度(如行业、区域、规模;余额、新增、集中度;各类产品;期限、利率、五级分类等),可以制作出高信度的预警信息和有特色的信贷指数体系,生成行业、区域金融生态分析报告或相应的产品。例如利用个人信用评分和经济形势变化之间的关系,费埃哲公司(FICO)开发了FICO Economic Impact Index,主要分析宏观经济环境变化引起的账户风险和组合产品风险。借款人在消费者的整个账户管理周期内引入宏观经济变化对其账户的风险分析,即FICO经济影响指数,便于其做出更为有利的风险管理决策。
3. 分类分析在对外的风险管理服务中的应用。分类(Classification)分析可以说是数据挖掘技术中最常用,最成熟的一种方法。分类分析可以看作是预测分析的一种特殊情况。在已知一些信用主体的类别标签(这些类别的标签可以是风险预警的级别,也可以是信用的等级)的情况下,对未知的信用主体的类别进行识别。主要的原理是基于对已有标签的信用主体的类别和其行为特征之间通过数据挖掘建立映射模型,这种模型称为分类模型,将未知信用主体的行为特征输入到分类模型中,就可以得到该信用主体的类别。
在征信服务中的应用:
(1)风险预警。风险主动预警是目前商业银行最迫切需要的信用信息服务之一。目前商业银行的贷后管理和催收部门通过定期查询部分借款人的信用报告来跟踪借款人信用行为的变化情况,但就目前单笔信用报告的查询模式而言,如果抽样进行查询,则被查询人的选取方法并无严格的科学依据,无法保证覆盖面;如果对本行的信贷客户全部查询,虽然可以保证覆盖面,但系统资源和查询费用的巨大开销将严重降低全局查询的投入产出比。因此,在借款人出现高风险事件时,如征信系统能主动通知其它与其有业务来往的商业银行,则可以高效地解决这一矛盾。例如可以根据信用主体的如下信贷记录将预警可以分无预警、轻度预警、中度预警和重度预警四级:(1)当前预期状态;(2)征信评分;(3)是否有信用卡取现情况;(4)最近12个月信用卡/贷款审批/担保资格查询次数;(5)是否欠税记录;(6)是否有行政处罚记录;(7)是否有电信欠费记录。然后搜集样本数据,训练预警分类模型。最后实现对信用主体的自动标示预警分类。
(2)信用评级。可以根据信用主体的债务、还款情况、收入和工作情况对其信用程度进行分类,为授信额度的确立以及其它风险管理措施提供依据。艾克飞公司开发出小企业风险级别预测(Small Business Risk Class),预测小企业的商业账户在未来12个月内出现严重拖欠(90天以上)或破产的风险级别。账户风险分为1个级别~5个级别。该分析工具利用的信息包括商业支付信息、公共记录以及来自SBFE的银行信贷和金融租赁信息。
征信机构可以为信贷机构设计一系列评级模型,并协助放贷机构制定客户关系管理战略。
(1)模型跟踪和性能检测:信用评级一定程度上客观、量化地展示了客户的信用风险,为保障评分模型有良好的预测能力,要不断地进行模型跟踪调整,征信机构可以提供一些工具用来监控评分模型的性能变化,判断在客户群发生变化时评分模型是否仍有良好的好坏区分能力。
(2)催收评级:对于有逾期记录的客户,通过催收评级进一步区分恶意拖欠的可能性,帮助放贷机构针对不同情况定制催收方案,而不是采取单一的催收措施(例如所以逾期30天的客户都会收到相同的催收信函)。这种更有针对性的催收方案能帮助信贷机构有效减少损失,提高催收效率。
4. 相关性规则分析在对外的风险管理服务中的应用。
定义:相关性规则(Association rule)分析是数据挖掘中一种简单而又实用的技术。一个典型的例子就是“购物篮”分析,即通过发现消费者放入他们“购物篮”中的商品之间的关联(频繁地共同发生),分析顾客的购物习惯。在金融领域,相关性规则分析可以用来发现银行客户对所提供的金融服务于产品间的关联性、不同信用产品价格之间的关联性、不同市场变动趋势之间的关联性。在信用风险管理中,相关性规则挖掘可以发现信贷数据库中信贷行为和信用风险之间的关联性规则,这些规则反映了信用主体的风险模式。
在征信服务中的应用:可以通过相关性规则分析来发现一些风险关联模式(或风险特征要素),包括,例如信用主体信贷违约和信用主体的哪些基本信息有关,例如收入、职业、年龄、经营状况和行业形势等;自动地发现这些风险因素的相关关系,这也是大数据时代中所强调的重视数据内部蕴含的相关关系的基本思想。从常识上来看,两个因素可能毫不相关,但是存在很强的关联效应。这就为信用评分或者其它风险量化分析选取主要的关联因素(特征)提供依据。
三、 结语
征信机构的核心资产是数据,作为数据工厂,各种数据挖掘技术都可以得到很好地应用。征信数据挖掘既可以面向不同的服务对象也可以应用到不同的风险层面。本文重点研究的是基本征信数据挖掘:从数据角度来说,处理的信贷行为数据是最基本的征信数据;从分析技术来说,所采用的数据挖掘方法不仅技术手段和应用相对成熟而且国外知名征信机构已有很多成功的应用案例可以借鉴。通过对征信系统进行广泛和深入地数据挖掘,不仅可以更好地进行量化风险管理和征信系统维护,还能为未来征信大数据时代的到来打下更好的基础。
未来,本研究将继续深入地探讨征信数据挖掘的相关问题,例如如何深入开展基于聚类的客户细分为信用风险服务。同时也关注一些热点和前沿问题,例如对基于关联关系的征信数据挖掘,基于非结构化数据的征信数据挖掘,以及大数据、互联网金融、社交媒体、移动终端对征信服务以及征信数据挖掘的影响用等热点话题。
参考文献:
[1] Jiawei Han, MichelineKamber,Jian Pei.数据挖掘概念与技术[M].北京:机械工业出版社,2012.
[2] 陈建,信用评分模型技术与应用[M].北京:中国财政经济出版社,2005.
[3] Bart Baesens、Tony van Gestel,Credit risk management:Basic Concepts,Oxford press,2009.
[4] 马超群,兰秋军,陈为民.金融数据挖掘[M].北京:科学出版社,2008.
[5] Viktor Mayer-Sch?觟nberger、Kenneth Cukier.大数据时代[M].杭州:浙江人民出版社,2013.
[6] 中国银行和征信中心联合课题组研究报告.征信系统在个人业务信用风险管理中的应用,2013.
基金项目:国家自然科学基金青年基金(项目号:61105058);国家社会科学基金(项目号:13CJY011)。
作者简介:杨北京(1980-),男,汉族,江苏省宿迁市人,中国人民大学商学院博士生,研究方向为互联网金融与电子商务,现就职于中国工商银行总行;刘新海(1976-),男,汉族,河南省南阳市人,中国人民银行征信中心高级研究员,中国人民银行金融研究所应用经济学博士后,研究方向为金融大数据和征信数据挖掘。
收稿日期:2015-06-10。
一、 问题的提出
数据挖掘(Data Mining,DM)又称知识发现(Knowledge Discover in Database,KDD),是指从数据集合的海量数据中揭示出隐含的模式、发现先前未知的并有潜在价值的信息和知识的过程(Jiawei Han,MichelineKamber,Jian Pei;2012)。由于数据挖掘在应用过程中可以帮助商业决策这调整市场策略,评估风险,获得洞察力并进行正确决策,目前已经是人工智能和数据库领域研究的热点问题。随着大数据时代的到来,数据挖掘技术已成为许多互联网和零售企业的重要支撑技术和核心竞争力之一,并被广泛地应用到管理和社会学科等诸多领域。对作为天然就具有大数据和云计算特征的征信业而言,数据挖掘技术的地位和重要性不言而喻。目前国外征信机构正在广泛利用数据挖掘技术,进行信用风险管理方面的产品开发,申请了许多关于数据挖掘的专利授权,并开发出多种数据挖掘产品。数据挖掘技术已经成为它们的核心竞争力,例如益佰利(Experian)、艾克飞(Equifax)、环联(Trans Union)和邓白氏(Dun & Bradstreet,D&B)等。
结合信用风险管理的目标:对个人消费者和企业的风险进行评估,减少交易过程中的信息不对称,本文将征信数据挖掘的基本步骤叙述如下:
步骤一:确定商业目标。该步骤主要是确定数据挖掘所要解决的具体问题,比如发现信用风险特征、欺诈风险特征、客户流失特征等;确定征信数据挖掘问题的覆盖范围,比如房贷产品、信用卡产品或汽车贷款产品等。商业目标不仅指明了数据挖掘方向,也是衡量数据挖掘效果的关键要素。
步骤二:数据采集。首先确定数据挖掘所涉及的具体数据库或者数据来源渠道,例如申请数据库、客户基本信息数据库、交易数据库、市场营销数据等,其次确定通过何种技术手段获取这些有用的数据以及数据的有效期。
步骤三:数据清洗。消除噪声和删除不一致的数据,进行数据质量检查,确保数据可靠。数据质量是数据挖掘的前提和生命。若数据质量不高,即使数据挖掘的技术再先进,耗费的功夫再大也无济于事。
步骤四:数据整合和转换。即将多种数据源整合在一起,把数据变换和统一成适合挖掘的形式,例如数据类型和数据格式的转换,缺省值和极值的处理。
步骤五:数据挖掘。使用模式识别或机器学习的方法以及计算机信息处理手段,对大量数据进行加工和分析,来提取数据模式或者是系统性的模型。数据挖掘既高度依赖先进的统计方法和计算机技术,也高度依赖数据分析人员的专业知识和经验。这是数据挖掘的核心。
步骤六:性能评判。并不是所有挖掘出来的模式或者模型都是有效的,根据某种指标度量(显著性检验、准确性检验或者某种测度),确定挖掘结果是合乎逻辑、合乎情理和合乎直觉的。
步骤七:将数据挖掘的结果用于决策分析。根据数据挖掘的结果做出相应的决策建议,例如改进风险管理策略、改进市场营销策略、改进客户服务策略等,以提高经营管理的效益,实现数据挖掘的商业价值。
步骤八:数据挖掘结果应用。挖掘所获得知识(模式、模型、规律、策略等),最终需要付诸于应用,以产生现实的经济效益。往往通过挖掘人员和IT技术人员合作,开发一些计算机应用系统来实现。
步骤九:数据挖掘的跟踪和提高。数据挖掘是一个不断发现、不断总结、不断提高的过程。需要对数据挖掘的应用进行跟踪和反馈,分析问题,提炼经验,并且不断地更新迭代。例如个人信用评分的模型每年都要重新挖掘和训练。
二、 数据挖掘技术在对外的风险管理服务中的应用
1. 聚类分析在对外的风险管理服务中的应用。聚类分析(Clustering Analysis),也称为自动分类,利用信用主体的信贷行为特征,根据(信贷行为、风险模式、信用主体基本信息)相似性的原则,自动归类,划分信用主体群(也称为类)。信用主体的类可以描述一种特定的信用风险模式。聚类分析是面向信用风险管理的数据挖掘的基本方法。
在征信服务中的应用:
(1)信用主体细分,金融学的微观基础是行为科学,无论公司行为或者是个人行为都具有一致性的特点,所以风险管理一直做的工作,就是试图通过对公司、个人行为的分析来预判公司、个人的违约前景,并为此开发出一系列的风险模型,辅助授信决策。相对于公司客户,个人客户的行为更具有一致性和可预测性。俗话说,江山易改,本性难移,指的就是性格倾向的稳定性和连续性。要直接在性格倾向于行为模式之间建立对应关系,并不是很容易的事情,替代的方法就是分群,物以类聚,人以群分,只要把每个人所属的人群类别定位准确,要预测其行为模式就比较容易。从统计分析看,特定人群的行为模式就有很高的同质性,换言之,不同人群在行为模式上有着明显的差别。根据不同的人群有着不同的风险模式,通过聚类分析,实现对不同的人群进行不同的信用风险管理,可以结合风险规则,通过聚类分析,将个人信用主体分为老龄消费群体、高净值客户群体、80/90后消费群体和新兴城镇居民群体,然后进行各自的风险模式分析。此外通过聚类分析,可以发现一些新的信用主体的行为模式,例如技术创新性企业会出现不同于一般企业的信贷行为,这就可能对应着新的信用风险模式的出现。社会发展趋势客户细分客户需求老龄消费者群体新兴城镇居民群体80/90后消费群体高净值客户群体低风险保本型的银行产品对现有社保、医保有效补充的社保产品医疗服务和生活服务更丰富的理财产品以咨询为导向个性化的服务家族财富管理追求个性化、新鲜的金融产品互动式的7x24网银服务移动金融服务人口老龄化富裕阶层扩大80/90后消费群体不断壮大农村城镇化和城乡一体化低费用无抵押贷款,新型农村信用贷款有农村特色的理财产品和中间业务
(2)欺诈检测。反欺诈是信用风险管理中的重要内容,结合专家规则,聚类算法可以用于挖掘出异常欺诈行为。
征信机构可以提供的反欺诈服务包括:
(1)文档交叉核对:通过交叉对比对客户的历史信贷资料来发现异常情况。(2)共享已确认或疑似的欺诈行为:诸如英国的西法斯(CIFAS)等组织,在会员机构之间共享确认的或怀疑的欺诈记录。(3)欺诈评分:征信机构可以为特定的信贷机构或所有信贷机构开发欺诈评分产品。(4)欺诈监测系统:通过建立欺诈监测系统,设置欺诈监测规则来发现申请欺诈行为,还可以通过还款行为进行分析来发现银行卡交易欺诈。
艾克飞公司也已开发出在线的数据挖掘产品防欺诈顾问(Equifax Fraud Advisor),可以自动地进行欺诈检测,以减少手工操作带来的风险。
2. 预测分析在对外的风险管理服务中的应用。预测分析是指通过对已知的信用主体的数据(信贷行为和风险状态/趋势都已知),通过挖掘,构建出预测模型,对未知的信用主体根据其信贷行为,预测出其风险状态/趋势。基于征信数据的预测分析是通过数据挖掘中的回归模型来实现的,包括风险评估和风险预测,两者区别在于:风险评估对目前的风险状况进行量化描述;而风险预测是对未来的风险状况进行量化描述。
在征信服务中的应用:
(1)信用评分。信用评分原始模型是根据已知的信用主体的信用历史资料,进行样本学习,得到了信用评分模型,根据信用评分模型,来决定客户是否可以贷款或所可以持有的金额权限,甚至是贷款利息率,从而保证还款等业务的安全性。随着风险管理和数据挖掘水平的提高,信用评分已经成为一个比较宽泛的概念,具体类型可达100多种,例如申请评分、欺诈评分、盈利评分、信贷审批评分、破产评分等。
局评分是基于征信机构的数据开发而来的信用评分,它与放贷机构自行开发的客户化信用评分有所不同。它使用的是来自各放贷机构上报的信息,基本涵盖了借款人所有的信贷记录,包括借款人的贷款余额总量、贷款总笔数和所以历史违约记录,以及一些公共信息源的数据,这是单个放贷机构无法拥有的。
(2)宏观或中观的信贷风险预测指数。基于征信系统的海量数据资源,可为宏观层面的风险预测提供具有前瞻性和准确性的数据信息。从国内金融业的未来发展看,对中性的政策性信息的需求将越来越迫切。有外部监管方面的原因,如资本监管体制改革。也有来自银行内部管理的推动,比如对信贷市场整体走势的信息需求,对涉及金融稳定和系统性风险的信息需求等。另外从宏观政策制定与实施的角度看,也需要了解和掌握中观信息,所以存在很多的衍生需求。征信数据具有灵活丰富的数据维度(如行业、区域、规模;余额、新增、集中度;各类产品;期限、利率、五级分类等),可以制作出高信度的预警信息和有特色的信贷指数体系,生成行业、区域金融生态分析报告或相应的产品。例如利用个人信用评分和经济形势变化之间的关系,费埃哲公司(FICO)开发了FICO Economic Impact Index,主要分析宏观经济环境变化引起的账户风险和组合产品风险。借款人在消费者的整个账户管理周期内引入宏观经济变化对其账户的风险分析,即FICO经济影响指数,便于其做出更为有利的风险管理决策。
3. 分类分析在对外的风险管理服务中的应用。分类(Classification)分析可以说是数据挖掘技术中最常用,最成熟的一种方法。分类分析可以看作是预测分析的一种特殊情况。在已知一些信用主体的类别标签(这些类别的标签可以是风险预警的级别,也可以是信用的等级)的情况下,对未知的信用主体的类别进行识别。主要的原理是基于对已有标签的信用主体的类别和其行为特征之间通过数据挖掘建立映射模型,这种模型称为分类模型,将未知信用主体的行为特征输入到分类模型中,就可以得到该信用主体的类别。
在征信服务中的应用:
(1)风险预警。风险主动预警是目前商业银行最迫切需要的信用信息服务之一。目前商业银行的贷后管理和催收部门通过定期查询部分借款人的信用报告来跟踪借款人信用行为的变化情况,但就目前单笔信用报告的查询模式而言,如果抽样进行查询,则被查询人的选取方法并无严格的科学依据,无法保证覆盖面;如果对本行的信贷客户全部查询,虽然可以保证覆盖面,但系统资源和查询费用的巨大开销将严重降低全局查询的投入产出比。因此,在借款人出现高风险事件时,如征信系统能主动通知其它与其有业务来往的商业银行,则可以高效地解决这一矛盾。例如可以根据信用主体的如下信贷记录将预警可以分无预警、轻度预警、中度预警和重度预警四级:(1)当前预期状态;(2)征信评分;(3)是否有信用卡取现情况;(4)最近12个月信用卡/贷款审批/担保资格查询次数;(5)是否欠税记录;(6)是否有行政处罚记录;(7)是否有电信欠费记录。然后搜集样本数据,训练预警分类模型。最后实现对信用主体的自动标示预警分类。
(2)信用评级。可以根据信用主体的债务、还款情况、收入和工作情况对其信用程度进行分类,为授信额度的确立以及其它风险管理措施提供依据。艾克飞公司开发出小企业风险级别预测(Small Business Risk Class),预测小企业的商业账户在未来12个月内出现严重拖欠(90天以上)或破产的风险级别。账户风险分为1个级别~5个级别。该分析工具利用的信息包括商业支付信息、公共记录以及来自SBFE的银行信贷和金融租赁信息。
征信机构可以为信贷机构设计一系列评级模型,并协助放贷机构制定客户关系管理战略。
(1)模型跟踪和性能检测:信用评级一定程度上客观、量化地展示了客户的信用风险,为保障评分模型有良好的预测能力,要不断地进行模型跟踪调整,征信机构可以提供一些工具用来监控评分模型的性能变化,判断在客户群发生变化时评分模型是否仍有良好的好坏区分能力。
(2)催收评级:对于有逾期记录的客户,通过催收评级进一步区分恶意拖欠的可能性,帮助放贷机构针对不同情况定制催收方案,而不是采取单一的催收措施(例如所以逾期30天的客户都会收到相同的催收信函)。这种更有针对性的催收方案能帮助信贷机构有效减少损失,提高催收效率。
4. 相关性规则分析在对外的风险管理服务中的应用。
定义:相关性规则(Association rule)分析是数据挖掘中一种简单而又实用的技术。一个典型的例子就是“购物篮”分析,即通过发现消费者放入他们“购物篮”中的商品之间的关联(频繁地共同发生),分析顾客的购物习惯。在金融领域,相关性规则分析可以用来发现银行客户对所提供的金融服务于产品间的关联性、不同信用产品价格之间的关联性、不同市场变动趋势之间的关联性。在信用风险管理中,相关性规则挖掘可以发现信贷数据库中信贷行为和信用风险之间的关联性规则,这些规则反映了信用主体的风险模式。
在征信服务中的应用:可以通过相关性规则分析来发现一些风险关联模式(或风险特征要素),包括,例如信用主体信贷违约和信用主体的哪些基本信息有关,例如收入、职业、年龄、经营状况和行业形势等;自动地发现这些风险因素的相关关系,这也是大数据时代中所强调的重视数据内部蕴含的相关关系的基本思想。从常识上来看,两个因素可能毫不相关,但是存在很强的关联效应。这就为信用评分或者其它风险量化分析选取主要的关联因素(特征)提供依据。
三、 结语
征信机构的核心资产是数据,作为数据工厂,各种数据挖掘技术都可以得到很好地应用。征信数据挖掘既可以面向不同的服务对象也可以应用到不同的风险层面。本文重点研究的是基本征信数据挖掘:从数据角度来说,处理的信贷行为数据是最基本的征信数据;从分析技术来说,所采用的数据挖掘方法不仅技术手段和应用相对成熟而且国外知名征信机构已有很多成功的应用案例可以借鉴。通过对征信系统进行广泛和深入地数据挖掘,不仅可以更好地进行量化风险管理和征信系统维护,还能为未来征信大数据时代的到来打下更好的基础。
未来,本研究将继续深入地探讨征信数据挖掘的相关问题,例如如何深入开展基于聚类的客户细分为信用风险服务。同时也关注一些热点和前沿问题,例如对基于关联关系的征信数据挖掘,基于非结构化数据的征信数据挖掘,以及大数据、互联网金融、社交媒体、移动终端对征信服务以及征信数据挖掘的影响用等热点话题。
参考文献:
[1] Jiawei Han, MichelineKamber,Jian Pei.数据挖掘概念与技术[M].北京:机械工业出版社,2012.
[2] 陈建,信用评分模型技术与应用[M].北京:中国财政经济出版社,2005.
[3] Bart Baesens、Tony van Gestel,Credit risk management:Basic Concepts,Oxford press,2009.
[4] 马超群,兰秋军,陈为民.金融数据挖掘[M].北京:科学出版社,2008.
[5] Viktor Mayer-Sch?觟nberger、Kenneth Cukier.大数据时代[M].杭州:浙江人民出版社,2013.
[6] 中国银行和征信中心联合课题组研究报告.征信系统在个人业务信用风险管理中的应用,2013.
基金项目:国家自然科学基金青年基金(项目号:61105058);国家社会科学基金(项目号:13CJY011)。
作者简介:杨北京(1980-),男,汉族,江苏省宿迁市人,中国人民大学商学院博士生,研究方向为互联网金融与电子商务,现就职于中国工商银行总行;刘新海(1976-),男,汉族,河南省南阳市人,中国人民银行征信中心高级研究员,中国人民银行金融研究所应用经济学博士后,研究方向为金融大数据和征信数据挖掘。
收稿日期:2015-06-10。