大数据背景下的信用档案数据建设流程及策略*

2020-07-17 10:11
山西档案 2020年3期
关键词:信用利用体系

(上海大学图书情报档案系 上海 200444)

0 引言

大数据的推动下“大数据分析预测的发展正在催生经济新趋势,个人数据能够以惊人的速度和准确度被聚合并加以分析”[1],信用档案的管理和利用也受大数据技术影响产生了新趋势。在2016年国家档案局公布的《全国档案事业发展“十三五”规划》当中也提出了要“加快档案信息资源共享服务平台建设。建立开放档案信息资源社会化共享服务平台,制定档案数据开放计划,落实数据开放与维护的责任;积极探索助力数字经济和社会治理创新的档案信息服务”[2]。结合大数据技术,加快信用档案建设步伐,辅之于“建立各类人员诚信(信用)档案、建立完善各类档案信息披露、查询制度。[3]”探索高效、全面、低成本的信用档案数据建设思路是我国社会信用体系建设和档案事业发展关键环节,同时也是档案运用大数据技术参与社会治理的有效探索。

从中国知网数据库检索相关文献发现,对于信用档案的研究在20世纪初到达顶峰,后又回归平稳,针对信用档案的研究早期侧重于对比各国的信用档案管理利用方式及信用档案在各个领域中的管理方式,随着大数据环境下信用数据广泛使用,对信用信息在大数据背景中开展开发利用、信息服务、信息安全等话题的探讨又呈现增长态势。主要表现在分析信用数据使用对于市场经济的发展影响以及信用数据使用中的法律规范,探讨信用数据的管理理念和方法。本文研究是在“大数据+档案”的基础上,结合我国社会信用体系建设和档案数据化的总体趋势,侧重研究大数据背景下的信用档案数据建设路径及策略。

1 大数据背景下信用档案数据发展趋势

早期形成的信用档案以纸质文书材料和简单数据记录为主,数据化程度低。而且“由于信用档案涉及面广、信息来源广泛”[4]以及信用档案不断更新的特点,传统信用档案缺乏网络支持而表现出显著的分散性。在利用范围上传统的信用档案利用大多局限在产生单位,表现为“谁产生,谁利用”,信用档案共享缺乏平台支撑;在利用目的上,传统信用档案局限于依靠档案内容来防止失信行为发生。随着大数据技术的运用给信用档案的利用带来了新趋势,信用档案的利用正处在变革时期,既延续了传统档案的利用形式,又借鉴了大数据技术而体现了新的思维,这一时期是信用档案利用体系从与新技术融合向新产业诞生的转型时期,是信用档案从数字化向数据化延伸的过程[5],是信用档案由模拟态向数据态转化的过程[6],大数据下信用档案利用特点就是信用档案数据化的过程。主要表现在:

1.1 信用档案数据生成主体数量庞大、来源广泛

随着大数据等信息技术的不断发展以及传统产业数字化的转型,社会数据量呈现几何级增长,研究报告显示全球数据总量将从2016年的16.1ZB增长到2025年的163ZB(约合180万亿GB),十年10倍的增长,复合增长率为26%[7]在数据量爆发增长的背景下是新兴的互联网企业、个人网络信用信息的产生和接入,信用数据在各个领域大量出现,改变了信用档案“小数据”管理格局,信用档案管理和利用不仅限于档案馆(室),而是以更加多样的形式存在与社会部门中,例如企业信息中心、数据中心和大数据中心。在人民银行征信中心归集的信用档案数据“截至2017年年底累计收录企业和其他组织2510万户[8]。信用档案数据同数据化的趋势一道带来了数据产生主体的多元化和数据量的极大丰富,这是信用档案数据在大数据趋势中的一大特点。

1.2 信用档案数据整合时效性、共享性强

早在2014年人民银行征信中心就具备支持商业银行信贷业务发生之日起次日报送征信数据的能力(“T+1”模式)[9]。信用档案数据在金融征信领域已经具备了较高的时效性,大数据的运用加快了这一趋势发展。以阿里巴巴旗下芝麻信用分运作方式看,在大数据的支持下其信用数据能及时获取到阿里巴巴集团下属电商平台交易数据、蚂蚁金服集团采集的互联网金融个人信息数据、与其有合作关系的公共机构(政府公开信息、公安、工商、法院等)形成信用数据以及用户自我提供的个人信用数据[10]。类似芝麻信用分这样的信用档案数据运作方式正在成为信用数据利用的新趋势,信用档案数据利用平台在结合移动互联网和大数据之后能够及时获取来自不同领域的数据,利用时效性高及获取便捷的特点改变了信用领域容易产生时差漏洞的弊端,正在成为新的发展趋势。

1.3 信用档案数据服务专业化、社会化程度高

信用档案所记录的信息具有相对开放性,信用信息主体的信息状况是在不断变化的[11],因此信用档案必须实现集约化提供才能及时反映主体的信用记录。过去由于国内金融、法制和经济环境还没有完全配套,并且受到信息技术的限制,信用档案只能在本单位或地区中进行基础利用,央行征信中心作为信用档案数据提供商承担了大量基础信用信息利用工作。随着大数据技术和移动互联网产业的蓬勃发展,信用档案数据提供趋向于专业化发展。“2018年3月中国互联网金融协会与芝麻信用、腾讯征信等8家市场机构组建百行征信,成为我国第一家获得个人征信业务经营许可的公司,进而开展大数据征信业务[12];”同时,在国家发改委和人民银行的推动下“信用中国”项目正在快速推进,在此平台上囊括了较为完善的政务信用数据。信用档案数据能够更加专业全面的形式提供给利用组织或个人,同时信用档案数据在经过权限许可和脱敏之后能够更加开放的在社会流转,推动着信用档案数据提供领域的专业化和社会化。

1.4 信用档案数据利用更加智能化

20世纪50年代,费埃哲评分(FICO Score)就构建了最早的信用档案评分体系,作为信用档案在信贷领域防止债务违约的评价标准[13]。时至今日,在大数据技术的推动下信用档案数据已不再局限于预防失信服务,更多的运用到了搭建信用场景,开展信誉生活服务等日常领域[14];在大数据的扶持下,信用档案数据已经能开展画像技术,以芝麻信用分为例,通过对个人在不同领域生成的信用数据进行数据汇总和机器学习后,能够通过信用历史、行为偏好、履约能力、身份特质和人脉关系五个维度给用户进行信用评分,并且将评分运用到与之合作的各个信用场景当中,例如开展免押共享服务、信用授权借贷服务等。信用档案数据可以较为全面反映个人信用情况,使数据利用更加智能化和个性化。

2 大数据背景下的信用档案数据建设的意义

2.1 探索社会治理的新路径

信用档案整合利用是档案参与社会治理的高效、便捷手段。党的十八届三中全会提出:“全面深化改革的总目标是完善和发展中国特色社会主义制度,推进国家治理体系和治理能力现代化。”[15]运用大数据技术开展信用建设正在成为社会治理的新手段,数据开放共享也正在成为社会发展趋势。信用档案整合利用体系正是依托大数据打破限制,从档案管理走向档案治理的重要环节。信用档案整合利用体系是提高信息流动效率和经济效益的举措;与体系有关的法律、标准建设是档案治理法治和标准化适应新形势的体现;适时利用大数据参与管理和利用信用档案更是“数据中国”建设的必然要求;搭建全社会共同参与的信息大数据利用平台则是完善协调机制的过程。[16]这一系列变化正是信用档案参与治理,实现善治的表现。

2.2 参与构建诚信社会的重要环节

从《征信业管理条例》的实施到国务院颁布的《社会信用体系建设规划纲要(2014-2020)》,信用档案和信用信息在国家规划和法规中多次受到关注。“建立涵盖互联网企业、上网个人的网络信用档案,积极推进建立网络信用信息与社会其他领域相关信用信息的交换共享机制,大力推动网络信用信息在社会各领域推广应用”[17]。已经成为信用体系建设的重要一环。大数据为信用档案数据的使用提供了一个全新的视角,基于海量、多元和共享的信用大数据可以构建覆盖全社会的反映信用主体信用状况的网络,大数据背景下的信用档案数据建设是构建社会信用体系的重要推动力量,是构建诚信社会的重要环节。

2.3 档案工作新业态的体现

基于信用档案数据开展信用大数据利用服务,是档案工作发展新业态的需要。信用档案的数据化利用是信用档案向咨询服务发展的过程;也是档案机构从被动提供向主动服务转变的过程。信用数据已经成为各行业中最具价值的信息资源,依托大数据分析技术所构建的信誉经济正在蓬勃发展。档案部门能够借助这一变革机遇让馆藏信用档案资源再次焕发生命力,走进日常生活;改善“重保管,轻利用”的工作模式;构建以用户为中心的档案利用思路,打造“互联网+”环境下的档案利用新亮点[18]。拥有丰富文件管理经验和完善体系的档案机构也可以在大数据背景下争取更多数据治理话语权,顺应数据化发展趋势。

2.4 顺应信用数据共享潮流

信用档案数据利用破解“信息孤岛”难题,顺应了大数据背景下数据共享的潮流。利用大数据合理开展信用档案共享能够有效降低大数据环境中信用数据使用的成本。大数据技术显著加强了数据的收集和分析能力,信用档案利用者能够便捷的获取对象的信用数据以应对来源广泛、数量激增的信用信息。基于信用档案数据共享构建的信用大数据利用平台能使信用数据的流动打破行业壁垒,信用数据的开放共享,才能有效提高行业风险防控水平,防止系统性金融风险发生;同时信用数据的开放利用也降低了信息不对称对市场带来的负面影响。

2.5 有利于在数据驱动下最大化发挥信用档案的价值

2012年在十八大报告中提出要实施“实施创新驱动发展战略”的伟大战略,随着大数据的到来,传统的信用档案利用模式早已捉襟见肘,在以大数据为主的现代信息技术和以数据科学为主的研究范式推动下,未来社会将会以数据驱动为主推动发展。在这一大背景下信用档案数据与大数据紧密结合,信用档案规范行为的凭证价值已经向着信用预测、信用共享交易等情报价值转化,信用档案数据在大数据背景下已经展现了越来越丰富的价值。现在能够描述的数据驱动下的信用档案数据价值还在不断拓展,在大数据的描述性分析、预测性分析和规定性分析帮助下,将会进一步发掘信用档案价值。

3 大数据背景下的信用档案数据建设流程设计

前文已对大数据趋势下的信用档案整合利用必要性进行了阐述,结合已有的信用档案数据利用模式,以及大数据海量数据、快速数据流转和数据多样化及价值密度低的特点。

信用档案数据建设流程主要包括如图 1所示几个部分:信用档案数据整合系统、信用档案数据分析系统、信用大数据服务系统及配套的监管体系和法规标准体系。其中信用档案整合系统是体系构建的基础;信用数据分析系统是体系的关键环节;信用大数据利用系统是体系的目的;同时体系的长期运转还需要完善的监管体系和不断更新的法规和标准体系的相互配合。体系中的子系统密不可分、相互联系,是环环紧扣的数据流程,同时也是不断反馈、自我完善的循环,各个系统相互衔接共同构建了完善的整合利用体系。

图1 信用档案数据建设流程设计图

3.1 信用档案数据整合系统

信用档案数据整合系统如图2所示,主要包括对信用档案数据的收集、处理、分类以及档案数据管理及分发几个环节,最终形成能够提供分析的信用数据集合。首先,信用档案数据整合系统需要明确信用档案的数据归集流程,系统对来自各个领域的信用档案和数据资源进行归集,主要包括已建设的领域内信用数据整合平台,如全国公共信用信息服务平台、央行征信中心等;以及中央、地方及各企业档案室(馆);互联网企业信息中心信用数据库和其他信用档案产生和保管机构。[19]第二步需要对收集内容进行著录并完成纸质档案的数字化工作。 其次,在完成归集工作之后,需要进行数据处理,对于鉴定过程中发现的或系统检测不完整、不准确的数据进行清理,随后完成数据的标准化。[20]针对我国现有的信用体系建设,信用数据的标准化可分为个人和企业两部分,针对个人信用依靠身份信息实现数据整合;针对企业使用社会统一信用代码完成数据标准化对接。这一环节需要对已经标准化的数据进行原始数据备份。随后,对完成标准化的信用数据进行分类,将信用档案数据按利用领域进行划分为公共事业(包含政务信用数据、事业单位信用数据及部分企业产生的民生类型信用数据)信用档案数据库、金融领域信用数据库、互联网信用数据库等领域的信用数据库;同时将信用档案数据按形成区域分类,将数据分为全国范围内形成数据和各个地方形成数据。由于数据来源广泛、数据量巨大,可以利用分布式数据库进行管理,再依靠网络传输和云存储完成信息交互。最后,对于存放在各个分布式数据库中的经过比对和效验后合格的信用档案数据,需要对其元数据进行备份并形成新的档案目录,方便之后的分析和利用。将数据与统一的信用大数据分析平台对接,完成统一调度。

图2 信用档案数据整合系统流程图

3.2信用档案数据分析系统

信用档案数据分析系统如图3所示,这一流程是信用档案数据建设最关键环节,是建立在大数据技术下的数据挖掘和分析之上,系统主要内容包括:对整合环节的数据接收,并对其进行挖掘和分析,按个人和企业进行信用信息的关联,搜索该主体不同领域中所收集的信用数据,并进行匹配融合。依靠智能算法进行加权和赋值后将结合需求合并和裁剪的信用数据通过可视化的形式构建知识图谱或者全面统一的用户画像,开展预测分析以及对信用进行量化和排名,随后进行情报传输和信息发布。

图3 信用档案数据分析系统流程图

3.3 信用档案数据服务系统

信用档案数据服务系统如图4所示,该系统包括数据利用平台、数据开放程度评估以及评价反馈体系三部分。数据利用平台包括两个部分:一是信用大数据在公共领域的服务利用,这一领域包括政府、法律机构及公共服务行业在开展执法活动时,通过对企业和个人的数据进行分析,预测违法行为发生概率;通过多领域数据共享对失信主体进行归集和联网发布,使失信行为无处可藏;针对数据分析得出的失信人行为轨迹,可以对其有计划的开展联合惩戒。另一方面是信用大数据在商业领域的服务利用,通过提供信用信息查询、信用评价服务、信用产品等可以有效规范商业环境,降低失信风险的同时可以为优质信誉用户提供便捷,同时经过大数据分析的信用数据能够催生出一系列精准服务和以用户为中心的信用业务。数据开放程度通过智能管理实时更新共享平台内部的数据开放程度和利用权限及范围,通过与信用数据使用用户进行双向匹配,减少隐私数据泄露和隐私侵犯问题。评价和反馈体系需要整个体系能够动态分析信用服务需求,提供以用户为中心的数据服务。

图4 信用档案数据服务系统流程图

在信用档案数据建设过程中还需要有完善的监管体系和健全的法规、标准才能稳定长效运行。这一系统应该包括全程监管、信用档案数据规范体系及信用大数据法规和标准更新体系三个部分。信用监管应该对体系的运行进行实时监控,及时处理系统内部反馈的信用数据报错和投诉,监管体系内各个分支机构的运转情况,组建专业化的监管团队,及时处理体系内发生的异常情况。信用档案数据规范子系统应该在信用大数据法规和标准库的支持下,对系统内存有的信用数据进行分级评定,对于敏感数据进行过滤,并妥善保管原始数据;根据标准严格界定共享内容和共享范围。

4 信用档案数据建设优化策略

4.1 探索信用数据整合新路径

目前“信用中国”平台已经部署了全国31个省级平台、28个试点城市,社会信用体系建设部级联席会议成员已经囊括了国家发改委、人民银行和国家档案局在内的46个行政机构和央企[21];央行征信中心已经实现了对全国所有大型商业银行、城市商业银行等主要金融机构的接入;芝麻信用、腾讯信用等新兴个人征信企业也在蓬勃发展。这些平台掌握了大量的信用档案数据,并且各自侧重不同,因此要探索在已有平台基础上开展整合试点、取长补短,吸收各个平台中可取经验,将分散多样异构的数据源进一步开放共享。依托传统信用档案、新增多元信用档案数据、网络信用数据及平台已有信用档案数据开展信用大数据整合服务。在这一过程中要强化信用档案数据资源建设;发挥档案机构统筹优势,力图在数据整合中占据有利位置。同时在开展数据整合的同时需要体现竞争优势,鼓励多样化的信用档案数据提供平台,不同平台其开展信用评价的标准有所不同,可以使整合后的信用数据进一步丰富。

4.2 拓宽信用档案数据处理和分析思路

随着大数据不断发展,信用档案数据来源也愈加丰富,了解当前信用数据的主要需求,在数据处理和分析时注重与时俱进开展工作。首先,在数据处理时应该强化对基础大数据技术的使用,运用Ab Inition、Hadoop、Netezze等传统大数据分析工具对数据进行处理,完善信用档案数据的结构化;进一步加强数据匹配和加权功能,在大数据环境中检索和筛选出准确的信用档案数据;最后,需要强化对新技术的学习能力,结合信用评价体系有针对性的开展新技术探索,提高对象识别能力和防欺诈能力。其次,在数据分析和挖掘环节,应该关注大数据对于信用领域带来的影响,结合传统信用评价分析方法研发新的分析工具,提升分析团队中经济学、金融领域专业人员比例;[22]针对信用档案数据使用领域的扩展,归纳总结新领域中信用信息的特点,使数据挖掘时能对新生信息进行有效关注。

4.3 搭建个性化、智能化信用档案数据服务平台

大数据背景下使用信用档案数据提供更多服务成为可能,大数据对于信息的交互分析和共享使用使信用产品能够更加个性化、智能化的提供给用户。全球第三大个人征信机构“环联”目前已经可以通过旗下大数据征信服务“信用视野”、“司机风险”对个人消费和驾驶习惯进行分析,以得出其所存在的消费能力和驾驶风险,并为服务对象提供商业预测。[23]在将来,通过搭建个性化、智能化服务平台,以客户为中心,将有侧重点的数据提供给用户开展服务。并在信用服务实践中获取反馈,提升数据利用反馈效益;针对服务内容的变化相应的开展机器学习和人工智能应对,使服务反馈能有效转化提供信息的形式和内容。

4.4 完善信用档案数据治理框架

信用档案数据建设的步伐和数据治理框架的构建紧密联系。缺乏整体框架思路,信用档案数据将无法完成从数据到知识或智慧的转变。尚无完善体系依然是当前信用档案数据建设的巨大挑战。首先是提高信息安全,信用档案数据管理机构应该保证数据保存、传输的物理安全,采用异地备份、线上线下多形式保存及分布式保存等方式实现数据实体完整安全;同时完善数据传输、对接协议,保证数据逻辑安全。其次是保证数据长期可用,信息构建统一部署的信用档案数据监管平台。[24]保证信用数据来源的持续性、稳定性、有效性,防止由于市场竞争、经济形势等因素造成的数据变动。最后是完善数据合规性,一是要保证信用档案数据在获取时的合规性,同时完善获取数据负面清单,二是加强对信用档案数据隐私保护,完善脱敏制度,保证用户数据无泄漏、用户隐私不被侵犯。综上,通过对信用档案数据安全、可用、合规等方面进行完善,构建较为全面的信用档案数据治理框架。

5 结语

当前,信用数据与大数据相结合开展利用已经在商业、政务、金融领域展开了探索,在这一过程中信用档案数据建设对于社会诚信治理体系构建或信用档案数据化发展都产生了重要意义,信用档案数据建设也顺应了大数据背景下的档案事业发展方向,是档案数字化向档案数据化转型的内在表现。档案部门在大数据背景下,应该主动参与到信用档案数据的管理和利用当中,以开放的姿态提升数据化趋势下档案部门的影响力。文章对信用档案数据建设路径和优化策略从较为全面的视角进行了探讨,阐述了信用档案数据对于社会治理、信用体系建设以及档案事业发展的必要性,从整体框架角度描述了档案部门参与信用档案数据管理的环节。但是将信用档案数据建设成为长期可用和安全稳定的体系还需要在宏观层面探索信用档案数据治理框架,从实践层面探索更加全面的整合方式及与时俱进的数据挖掘和分析方法,需要从理论层面探索更加适应大数据技术背景的信用档案数据建设思路,构建以数据驱动的信用档案数据理论体系。目前对于信用档案数据的研究还处于初露头角的阶段,随着档案数据化发展趋势愈加明显,信用档案数据将会更多的吸引研究者的目光。本文从较为全面的视角探讨了这一问题,明确了信用档案数据建设框架和体系的总体思路,虽然在各个环节中缺乏具体详细论述,体系框架还有待完善,但是作为一点创新的思考,希望能以此为起点在未来研究中进一步探索和创新,探讨更加实用完善的信用档案数据发展思路和实践方法。

注释及参考文献

[1]迈克尔·费蒂克,戴维 ·C·汤普森. 信誉经济——大数据时代的个人信息价值与商业变革[M].中信出版社:北京,2016.5.

[2]国家档案局. 全国档案事业发展“十三五”规划纲要[Z].北京,2016.

[3][17]国务院办公厅. 社会信用体系建设规划纲要(2014—2020年)[Z].北京,2014.

[4]刘寅斌,李洪波,赵来军.电子政务环境下信用档案共享模式研究[J].图书情报工作,2009,53(13):129-134.

[5]于英香.档案大数据研究热的冷思考[J].档案学通讯,2015(02):4-8.

[6]钱毅.从“数字化”到“数据化”——新技术环境下文件管理若干问题再认识[J].档案学通讯,2018(05):42-45.

[7]智研咨询.2018年全球数据中心建设行业发展趋势及市场规模预测[DB/OL].(2018-6-26)[2019-09-01].www.chyxx.com/industry/201806/653017.html.

[8]石红英.大数据时代我国征信业发展问题探讨[J].征信,2018,36(12):49-52.

[9]中国人民银行.对“个人征信数据 T+1 项目上线”的回应[DB/OL].(2015-06-24)[2019-09-03].www.finance.sina.com.cn/china/bwdt/20150624/170122506417.shtml.

[10]叶文辉.大数据征信机构的运作模式及监管对策——以阿里巴巴芝麻信用为例[J].武汉金融,2016(02):66-68.

[11]王英玮.专门档案管理[M].中国人民大学出版社:北京,2010:189.

[12]百行征信.公司简介[DB/OL].(2018-09-09)[2019-09-02].www.baihangcredit.com/about/companyProfile.html.

[13]刘新海.征信与大数据[M].中信出版社:北京,2016:146.

[14]中美个人信用档案建设对比分析——以美国Transunion信用中心和上海资信有限公司为例[J].山西档案,2016(02):109-111.

[15]新华网.中国共产党第十八届中央委员会第三次全体会议公报[DB/OL].(2013-11-12)[2019-08-30].www.xinhuanet.com//politics/2013-11/12/c_118113455.html.

[16]何玉颜.档案部门参与政府大数据治理的路径研究[J].浙江档案,2018(08):23-25.

[18]王协舟,王露露.“互联网+”时代档案工作改革的几点思考[J].档案学通讯,2016(05):94-100.

[19]刘叶婷,唐斯斯,梁明.信用大数据的形成、应用价值与提升策略[J].南方金融,2016(11):47-53.

[20]刘永,庞宇飞.档案数据化之原生数据源全链式管理分析[J].档案管理,2018(05):11-18.

[21]信用中国.社会信用体系建设部级联席会议成员、地方信用网站[DB/OL].(2019-9-22)[2019-9-22].www.baihangcredit.com/about/companyProarchive.html.

[22]刘新海.征信与大数据[M].中信出版社:北京,2016:139.

[23]王春华.大数据背景下的企业信用档案系统共建[J].山西档案,2017(05):95-97.

[24]章燕华,王力平.技术变革与治理转型中的档案工作创新——杭州市信用档案建设的探索与启示[J].浙江档案,2019(08):14-17+21.

猜你喜欢
信用利用体系
利用min{a,b}的积分表示解决一类绝对值不等式
TODGA-TBP-OK体系对Sr、Ba、Eu的萃取/反萃行为研究
中美信用减值损失模型的比较及启示
“三个体系”助力交通安全百日攻坚战
利用一半进行移多补少
加快信用立法 护航“诚信河南”
信用收缩是否结束
利用数的分解来思考
Roommate is necessary when far away from home
信用消费有多爽?