熊曙初 刘阳 胡文灿
摘要:研究智慧社保数据融合模式,对促进智慧社保一体化发展和提高公共服务能力有着重要的意义。采用Lambda架构,对智慧社保中非结构化、半结构化和结构化数据进行融合,最终应用于长沙市智慧社保案例中,取得了很好的结果。对比原有的社保大数据平台模式,Lambda架构应用的智慧社保大数据平台,不仅优化和改善了当下智慧社保系统存在的诸多实际问题,还为其他社会应用平台的发展提供了有效案例,具备实用和研究价值。
关键词:智慧社保;数据融合;Lambda框架;平台架构;模式研究
中图分类号:TP316.4 文献标识码:A
文章編号:1009-3044(2022)31-0001-03
1 引言
近年来,智慧社保系统平台建设以地方政府为主体,各地所采用的技术平台、数据标准、管理模式等存在一定的差异,导致社保系统存在“数据孤岛”问题,影响了数据统计的准确性、数据调用的完整性、数据计算的价值和分析决策的效率。为了推进社会保障管理智慧化、服务精准化、便捷高效化,急需研究社保数据融合新模式,为建设全国统一智慧社保系统提供支持。随着大数据技术的快速发展,大数据技术已从集中处理单一类型数据发展到分布式集群处理多类型数据[1],重塑了数据的融合架构。数据融合的目的是对多种同构或异构信息或数据进行综合性处理,从而获取比单一数据更具准确性的信息或数据,并广泛应用于新知识发现、知识推荐、智慧城市、知识图谱等[2-3]。Lambda架构是一种针对海量传感器数据的在线和批量数据处理的成本优化架构,结合了批处理和实时处理功能[4]。基于此,本文提出一种基于Lambda的智慧社保数据融合模型。首先,数据层融合同种结构数据时,将同一结构的数据从存储层传入Lambda架构中批处理层的HDFS中,结合Hadoop等相关技术对其计算融合;其次,特征层融合不同结构数据时,将需要融合的数据传入Lambda架构中流处理层的存储器中,结合Storm或Spark对其计算融合;最后,将批处理层融合的结果和流处理层融合的结果传入到服务层,实现决策层数据融合,再将数据传入应用层。本研究目的是提升社保数据跨时空协同共享,实现社保服务“不打烊”、群众事“家门口办”,为智能社保精准施策提供决策参考。
2 相关研究
2.1 智慧社保相关研究
智慧社保概念由IBM于2013年首次提出,是基于互联网、大数据、云计算、物联网、移动技术和社交网络等现代信息技术在社保领域的应用,即“互联网+经办服务”[5]。国外关于智慧社保的相关研究主要是以政府应用实践为主,如比利时[6]构建社保数据交互沟通平台。2016年9月我国人社部印发《关于印发“互联网+人社”2020行动计划的通知》,推动智慧社保建设[7]。如河源市、苏州市、淄博市[8-10]等城市大力建设社保相关项目,实现便民惠民服务。蒲泓宇、马捷等[11]针对智慧社保存在数据异构、管理分散、多系统受理等问题,提出政务数据协同共生演进分析框架。金波[12]认为社保数据急剧增加、海量汇聚导致数据管理分散化,给社保业务的高效辅助决策增添了难度,并提出搭建互动平台,保障信息畅通。Zhang D、Pee L G等[13]认为人力资源和社会保障部产生的数据存在独立分散现象,阻碍了部门之间的联系,无法提供更好的公共服务。Huateng M、Zhaoli M等[14]认为在政府向数字政府转型时,提出社保卡结合入学系统和就业系统,可为学生和老师们提供决策。
综上所述,尽管当前国内外智慧社保系统建设取得了初步成效,但仍存在数据激增、类型异构、协同共享等问题,无疑给数据融合增加了难度,急需研究新型数据融合模式,提高智慧社保系统数据的应用价值。
2.2 数据融合研究
数据融合概念的提出源自军事领域[15],是一种利用计算机技术对按时序获得的若干传感器的观测信息在一定准则下加以自动分析、综合以完成所需的决策和估计任务而进行的信息处理过程[16]。随着数据融合技术的发展,它已被广泛应用于交通、医疗、经济等[17-19]领域。唐长乐和王春迎[20]提出基于政务云数据中心的政府数据集成平台,实现数据融合。吴善鹏、李萍等[21]人提出了政务大数据环境下的数据治理框架。马广惠和安小米[22]认为大数据治理应包括大数据的汇聚、融合和应用三个阶段。Zhang、Yang等[23]使用大数据技术构建新的数据融合框架,实现了大数据表示、融合、高效计算和存储等功能。Malchi、Kallam等[24]使用物联网技术和基于信任的神经数据存储算法实现数据融合。
综上所述,虽然当前数据融合从智慧政务到智慧社保的数据融合有一些应用研究,并产生了一定的成果,但针对智慧社保数据平台间的壁垒亟待深入研究。因此,本文针对目前社保及大数据的应用现状,提出基于Lambda架构的智慧社保数据融合模式,构建政务服务一体化的大数据平台框架,重构社保数据汇聚机制,实现从数据源到数据存储、计算到共享应用的全开放式的智慧社保数据融合,破解智慧社保数据融合困境。
3 基于Lambda的智慧社保数据融合模式
现行社保数据融合在建设运营、价值释放、数据挖掘等尚未形成统一的模式。如何整合各地所采用的技术平台、数据标准、管理模式,解决社保系统存在的“数据孤岛”问题,提高数据统计的准确性、数据调用的完整性、数据计算的价值和分析决策的效率,它是数字时代智慧社保急需解决的核心问题。为此,本文引入Lambda架构,汇聚社保信息源,建立基于本地分布式集群或公有云存储等模式,降低或消解数据冗余,实现便捷存储;对多源异构数据,建立统一规范的开源数据格式标准,进行数据计算融合;利用软件应用、API、AI等不同方式进行数据应用。其目的是破解当前政府部门间的数据壁垒,消解(缓解)数据共享困境,实现社保智能化、数字化。
3.1 整体架构
本文针对现行社保系统数据的多源多维、流转碎片等问题,以数据开放、共享、规范为基础,以“数据多跑路,百姓少跑腿”为目标,构建基于Lambda架构的智慧社保数据融合模式架构。如图1所示。
基于Lambda架构的智慧社保数据融合模式架构由社保数据中心、大数据平台、应用组成。
社保数据中心从各区域各平台收集基本养老保险、医疗保险、工伤保险等社保数据,通过智慧社保大数据平台对跨区域数据进行数据融合,融合后的数据用于智慧社保系统里的社保审计、业务办理、业务审核、社保缴纳等业务服务,整个系统主要以国家大数据标准规范及管理制度体系、分析工具:深度学习等、計算工具:Hadoop和Spark等、存储工具:Kimball等、采集工具:Sqoop等做支撑。
数据融合需要配置至少一个数据源信息和定时规则,并按照所配置的定时规则执行数据接入作业,数据接入作业为从所获取的至少一个数据源中抽取数据、或互联网数据采集、或转换数据、或装载数据至大数据平台;对数据接入作业中所接入的数据按照所配置的定时规则进行数据融合作业;对经数据融合作业后的数据进行分层分库存储形成存储库,并在所述存储库上构建二级索引库;通过在所构建的大数据平台中设置统一的数据交换接口进行数据共享,使社保数据跨系统共享交互,使社保智能一体化,最终实现社保服务“不打烊”、群众事“家门口办”。
3.2 数据融合
数据融合包括数据存储层、数据计算层,由三个数据区构成。第一个是临时数据区,用于缓存当日源系统变化数据,支持后续ELT数据处理;第二个是贴源数据区,按照源系统数据模型整合的明细历史数据,作为基础数据实现一次整合,多次使用;最后一个是汇总数据区,根据应用需求,对贴源数据区明细数据进行预连接、预汇总处理的数据,实现了数据的一次计算、多次使用。
3.2.1 Lambda架构
Lambda架构解决了实时在任意大数据集上进行分层融合数据的问题,是集流处理和批处理功能为一体,促进社会保障部门实时快捷对接各类业务数据,建立统一数据仓库的大数据架构,可以为社保部门提供各类数据报表,并提供趋势预测和决策支持,整体架构图如图2所示。
Lambda架构包括Batch Layer(批处理层)、Speed Layer(实时处理层)和Serving Layer(服务层)。批处理层的功能是存储数据集,并需要在数据集上预先计算查询函数和融合同一结构数据,构建查询所对应的View(视图)。当新数据流传入批处理层时,如果之前的作业没有结束时,由下一个作业处理,所有数据在每次迭代中进行分析,产生新的结果视图且覆盖前视图。实时处理层的功能是通过计算实时视图来实时处理最近的数据,实现多变的多种数据特种层融合。当新数据流传入实时处理层时,速度层使用增量模型,增加实时视图。服务层的功能是将批处理层和实时处理层的处理结果融合,为批处理层视图编制索引,以便能够以低延迟和特别的方式查询它们,为实时层保存所有实时计算结果,实现决策层数据融合。根据数据What特性即数据量本身较大时,在批处理层中使用Hadoop的HDFS之类的大数据存储方案和MapReduce执行批处理视图的计算;若考虑数据的What特性即需要按照数据产生的时间先后顺序存放数据时,使用InfluxDB之类的时间序列数据库(TSDB) 存储方案。服务层通常使用SploutSQL、Oracle、HBase、Cassandra等技术。实时处理层通常使用Storm、Spark或Storm与Spark结合等技术。
4 结束语
近年来,中央政府和各地方政府高度重视信息化工作,以社保信息化为主导,加强信息化推进力度。本文结合智慧社保以及信息化的现状对智慧社保的建设进行思考和讨论,围绕社保数据的采集、存储和单点服务,与之配套的各项基础设备趋于完整。从社保数据的开放、共享、优化、一体化服务的角度出发,构建智慧社保数据整合平台标准还处在起步阶段,因此基于Lambda架构的智慧社保数据整合平台无疑是实现这一目标的最佳途径,而结合当前部分落地的实际应用情况,如何实现整个架构体系的落地将是下一步研究的重点。
参考文献:
[1] 周宇,曹英楠,王永超.面向大数据的数据处理与分析算法综述[J].南京航空航天大学学报,2021,53(5):664-676.
[2] Shan C X,Bi H Q,Watt D,et al.A new model for predicting the total tree height for stems cut-to-length by harvesters in Pinus radiata plantations[J].Journal of Forestry Research,2021,32(1):21-41.
[3] 吕华揆,洪亮,马费成.金融股权知识图谱构建与应用[J].数据分析与知识发现,2020,4(5):27-37.
[4] Sakthivel B.Generic Framework For Handoff In Wireless Sensor Networks With Random Forest Classifier[J].Turkish Journal of Computer and Mathematics Education (TURCOMAT),2021,12(9):3117-3122.
[5] O'Sullivan P,Connolly A,Carroll N,et al.IBM's smarter care:challenges and strategies[C]//Proceedings of the 20th International Conference on Evaluation and Assessment in Software Engineering.Limerick,Ireland.New York:ACM,2016:1-2.
[6] Chen X.Security-preserving social data sharing methods in modern social big knowledge systems[J].Information Sciences,2020,515:404-416.
[7] 郑秉文.商业保险参与多层次社会保障体系的方式、作用与评估——基于一个初步的分析框架[J].辽宁大学学报(哲学社会科学版),2019,47(6):1-21.
[8] 胡萍,李丹.城乡社会养老保险一体化评价体系的构建及实证研究——以广东省河源市为例[J].社会保障研究,2016(3):9-16.
[9] 罗兴奇,茹婧.经济新常态下养老保险的城乡一体化研究——基于江苏省苏州市W区的实证分析[J].农村经济,2017(7):96-102.
[10] 张欣炜,宁越敏.农业转移人口市民化成本测算及分担机制研究——以山东省淄博市为例[J].城市发展研究,2018,25(1):55-62.
[11] 蒲泓宇,马捷,田园.共生理论视阈下政务数据协同的演进路径分析[J].情报杂志,2021,40(10):148-156.
[12] 金波.大数据时代政府治理的“档案参与”[J].求索,2021(3):135-143.
[13] Zhang D,Pee L G,Pan S L,et al.Big data analytics,resource orchestration,and digital sustainability:a case study of smart city development[J].Government Information Quarterly,2022,39(1):101626.
[14] Ma H T,Meng Z L,Yan D L,et al.How governments go about digital transformation[M]//The Chinese Digital Economy.Singapore:Springer Singapore,2021:203-216.
[15] 祝振媛,李廣建.“数据—信息—知识”整体视角下的知识融合初探——数据融合、信息融合、知识融合的关联与比较[J].情报理论与实践,2017,40(2):12-18.
[16] 陈为东,王萍,王益成,等.政府网站信息资源的多维语义知识融合结构体系及策略研究[J].情报理论与实践,2017,40(6):111-116.
[17] Khan S,Nazir S,García-Magari?o I,et al.Deep learning-based urban big data fusion in smart cities:towards traffic monitoring and flow-preserving fusion[J].Computers & Electrical Engineering,2021,89:106906.
[18] Yang F,Wu Q L,Hu X P,et al.Internet-of-things-enabled data fusion method for sleep healthcare applications[J].IEEE Internet of Things Journal,2021,8(21):15892-15905.
(下转第10页)
(上接第3页)
[19] 胡吉明,郑翔.基于主题聚类的新媒体政务互动内容摘要生成研究[J/OL].数据分析与知识发现,2021:1-13.(2021-11-24).https://kns.cnki.net/kcms/detail/10.1478.g2.20211123. 1541.004.html.
[20] 唐长乐,王春迎.基于政务云数据中心的政府数据开放共享服务集成平台研究[J].情报资料工作,2017(5):13-19.
[21] 吴善鹏,李萍,张志飞.政务大数据环境下的数据治理框架设计[J].电子政务,2019(2):45-51.
[22] 马广惠,安小米.政府大数据共享交换情境下的大数据治理路径研究[J].情报资料工作,2019,40(2):62-70.
[23] Zhang S L,Yang L T,Feng J,et al.A tensor-network-based big data fusion framework for Cyber-Physical-Social Systems (CPSS)[J].Information Fusion,2021,76:337-354.
[24] Malchi S K,Kallam S,Al-Turjman F,et al.A trust-based fuzzy neural network for smart data fusion in Internet of Things[J].Computers & Electrical Engineering,2021(89):106901.
【通联编辑:王力】
收稿日期:2022-09-13
基金项目:湖南省教育厅重点项目“突发公共事件政府信息公开融合模式及对策研究”(项目编号:20A13) ;湖南省社科基金项目“智慧政务背景下公开信息融合与协同共享机制体系研究”(项目编号:18YBA257) ;基于知识图谱的突发公共事件舆情预警分析研究(CX20211150)
作者简介:熊曙初(1964—) ,男,湖南长沙人,教授,学士,主要研究方向为信息系统与管理、电子政务等;刘阳(1998—) ,女,湖南衡阳人,硕士研究生,主要研究方向为数据挖掘;胡文灿(1992—) ,男,江苏镇江人,硕士研究生,主要研究方向为数据挖掘。