李 萍,吴善鹏
(江苏省大数据管理中心,江苏南京 210036)
随着大数据时代的来临,运用大数据技术和理念推动信用数据的共享和开放,创新信用数据加工处理方式,提高数据挖掘分析和融合应用水平,建立全面统一的信用信息数据大平台,已成为当前社会信用体系的建设趋势和研究热点[1]。顺应上述趋势和热点,本文以省级信用大数据应用建设为研究对象,在深入分析信用大数据的采集、治理和应用需求的基础上,结合大数据技术特点,探索构建数据处理高效、挖掘充分、安全可靠的省级信用大数据应用平台,为更好地满足新时期社会信用体系建设的技术要求。
自我国正式启动社会信用体系建设以来,历经十余年,大部分省市信用信息应用平台建设取得积极成效。以江苏、浙江、广东等地为例,已建起省级信用门户网、社会法人信用基础数据库、自然人信用基础数据库和省公共信用信息服务平台,依法开展社会法人和自然人公共信用信息的归集[2],面向政府部门和社会公众提供各类信用产品应用服务。
当前,省级信用信息应用平台还存在一些尚待解决的问题,主要表现在以下方面。
(1)数据质量不高。因为数据标准不够完善,导致数据归集没有有效解决源数据多源异构的问题,数据的全面性、连续性不足,从而导致数据质量较低,很难形成数据分析应用的各项主题库和专题库,支撑应用的效果不够好。
(2)数据归集不全。所归集的信用数据覆盖范围不够全,无法形成完整的信用画像和图谱,难以实现信用关联关系网络分析。
(3)应用时效低。由于目前数据处理的手段和方法,尤其是系统性科学性的数据分析尚未实现自动化、智能化,信用的应用还多数停留在静态应用当中,还不能满足应用的高时效性需求。
(4)应用不够丰富。目前,部分行业尚未建立信用信息系统或者应用的程度还不够深,导致信用在服务“放管服”改革中的作用未能充分发挥,信用数据融合应用水平较低。
1.3.1 总体需求
借助大数据技术,全方位、多渠道归集信用数据,以信用强管理,以信用促发展,以信用优服务,以信用推创新,促进社会运用信用成果,发挥信用大数据的价值,推动经济发展、完善社会治理、提升政府服务和监管能力,满足领导决策、政府业务部门监管、社会信用应用服务等业务需求。
1.3.2 功能需求
(1)数据建设需求。在数据归集上,需要满足数据及时性、准确性的要求;在数据范围上,需要外部数据及第三方数据提供辅助支撑;在数据治理上,需要满足对数据处理高效率、数据质量校核、数据治理体系化等方面的要求。
(2)分析模型体系构建需求。数据分析模型是开展各类业务应用的基础,需要构建信用评价模型体系,对重点领域、重点区域、重点群体加强监管,防范系统性风险。
(3)平台功能建设需求。以提供信用数据产品和服务为目标,夯实信用大数据基础应用平台、信用大数据分析决策支撑平台、信用大数据监管预警平台、信用大数据接口服务平台等建设工作,提升信用大数据资产管理软实力。
(4)可视化需求。需提供丰富的可视化手段,满足不同用户、不同场景的展示需求。
(5)系统安全体系保障需求。从平台实际使用需求出发,规划好应用系统安全防护的架构,确保系统安全可靠性和业务连续性。
为易于规划和管理,采用分层设计理念,结合用户分析、需求分析,结合政府的职能定位,将省级信用大数据应用平台整体分为“六横两纵”,总体框架体系设计如图1所示。
(1)基础设施体系由网络、计算设备、存储设备、安全防护设备和大数据基础支撑套件等基础设施组成。
(2)数据资源中心主要是汇聚融合信用基础数据和主题数据,进行集中式数据治理,构建形成信用全景画像融合主题数据库和信用应用主题数据库。数据资源中心组成如图2所示。
(3)支撑体系主要提供信用大数据应用所需的平台系统支撑功能,用于构建各类应用和服务的分析模型、画像标签管理、数据治理平台、信息共享平台、资源管控平台等支持服务,支撑体系架构如图3所示。
(4)信用应用体系主要面向各类用户提供具体信用业务应用,由信用大数据业务应用系统、信用大数据分析决策支撑系统、信用大数据监管预警系统、信用大数据服务系统、信用大数据基础应用系统、信用大数据服务总线和配置管理系统组成。
(5)信用服务体系主要面向各类用户提供线上线下的各类服务,包括信用数据服务(接口)、信用产品服务、线下信用分析服务等。
(6)信用访问入口包括信用门户网站、APP、公众号、可视化大屏等。
(7)标准规范体系和安全保障体系是指在国家、省已有的标准规范及安全管理体系下,引入大数据有关内容,构建符合大数据场景下的信用应用相关标准规范和安全保障体系。
图1 总体架构
图2 数据资源中心框架
图3 支撑体系框架
图4 大数据套件组成
如图4所示,为更好支撑信用大数据的处理、挖掘和分析,平台采用主流大数据技术、工具和套件,包括Hadoop、图数据库、分布式数据库、图计算、机器学习、深度分析等。
按照大数据环境下的一般数据治理流程[3],平台的数据架构主要由原始库、资源库和主题应用库组成,架构如图5所示。
原始库用来存放从各个渠道直接采集的有关数据,不做任何改动和处理。资源库对采集的原始库数据按照一定的治理规则进行数据清洗、比对、整合,一部分数据成为可以使用的有效数据,一部分成为无法使用的无效数据。主题应用库是面向各类主题的应用数据集,用来为各应用系统提供数据支持。
图5 数据架构
本文分析了省级信用信息平台建设状况和主要需求,按照大数据的架构理念,设计了建设信用大数据应用平台的方案,本方案紧贴需求,目标明确,具有实践指导意义。