■文/徐颢
过去的2017年,首届全国社会保险大数据应用创新大赛落下帷幕,引起了全社会各界的广泛关注,千余支队伍参与角逐,深入发掘人社大数据应用潜能,共谋“互联网+人社”发展前景。大赛收获丰硕成果,更重要的是大赛的举办还传递出一个讯息:人社大数据这座数据“富矿”即将被唤醒,绽放无限潜能。
20多年来,伴随着人社信息化建设,人社大数据一直处于蓄能状态。一方面,数据规模快速增长。2017年5月25日,当人社部副部长游钧将第10亿张社会保障卡亲手送到16岁女中学生宁洁手中,已经说明全国人社数据的人口覆盖范围超过10亿,如果按数据条目计算则达千亿量级。这个以几何量级数增长的过程至今没有降速,可以预见,人社数据规模仍有巨大增长空间。另一方面,数据质量加速提升。国家异地就医结算系统全国联通,覆盖8000余家医疗机构,基本实现跨省就医联网直接结算,彰显惠民利民实效,同时也为全国社会保障“一卡通”提供了实证,可见人社数据通过多年“磨合”,数据质量的准确性、及时性绝非往日可比,足以满足全国协同共享要求。此外,人社工作服务全民,产生的数据贯穿每个人的生命全过程,内容包罗就业、技能、收入、参保、劳动合同、就医等各个方面,数据丰富多元,极具大数据特性。
但也无须讳言,人社数据的应用尚显“粗浅”,全系统的数据汇聚共享仍不充分,与社会数据资源的融合应用还有待探索,需要天下大数据“英雄豪杰”为人社大数据发展应用“出谋献计”。这也成为了举办本次社会保险大数据应用创新大赛的“初心”。
大赛于2017年6月22日启动。最为劲爆的特点,也是最吸睛的部分是,开放部分脱敏后的社保实际数据,让参赛者用“真枪实弹”进行操练,保证大赛成果实用可行。这不同于以往只公布结果的“数据公开”,而是开放相关的过程性数据,目的就是汇集众智,让公众利用数据、发现问题、推动创新。这无疑是一次诚意满满的“众包”尝试,表明了人社部门发掘大数据潜能的决心和信心,要在数据应用上开启新思路、进入新境界、跃上新台阶。
大赛以“汇智社保,助力‘互联网+人社’”为主题,分设“助力‘互联网+人社’行动”和“精准社保”2个赛题。其中,“精准社保”为指定赛题,大赛提供10万人的医疗保险就医结算脱敏数据,由参赛队开发“基本医疗保险医疗服务智能监控”算法模型,作为其参赛作品。“助力‘互联网+人社’行动”为自选赛题,挑选10个来自“互联网+人社”行动计划的行动主题,由参赛队提出实施方案作为参赛作品。
赛事受到了社会各界的广泛关注,共有1601人组队报名参赛。其中,既有人社部门、社会机构、商保算法精英,也有个人跨界选手,其中不乏参与人社信息化建设多年的“老战友”,以及首次触电人社大数据的“新面孔”。公开的数据,公平的比赛,不同路数的英才们“施展拳脚”,物联网、大数据、人工智能、机器深度学习、区块链等新技术在人社领域集中发力,收获百余个创新实施方案,产出近500个优秀医保监控大数据算法,形成了诸多引领未来的方案和倡议。
比赛结果以实力论英雄。人社系统与社会机构的跨界组合“E保联通1队”提出的《基于移动医保支付平台的移动医疗整体解决方案》获得“助力‘互联网+人社’行动”赛题的冠军;主攻商保大数据多年的众安团队(上海众安科技数据科学实验室)将优秀算法移植到社保领域,面对同样的欺诈主题,发挥出了专业团队的优势,取得了算法比赛的冠军。人社信息化的老朋友,来自华资软件的丁蓉直击骗保问题,率领团队提出建设“一药一码”智能监管平台,切断药品交易领域黑色利益链的解决方案,获得了最佳实用奖。
冠军方案《基于移动医保支付平台的移动医疗整体解决方案》提出以基金、数据、系统安全为前提,构建管理、业务和标准统一的“移动医保支付平台”,支持移动医疗、移动购药和先诊后付等多种业务场景,将大数据充分融入管理服务之中,为人社工作管理模式创新提供参考方案。
来自众安的“破灭刀锋”团队脱颖而出纯属实力担当,该团队的3个“85后”小伙伴均拥有过人的专业背景——队长孙建举毕业于上海交通大学概率论与数理统计专业,曾在花旗银行从事信贷数据分析工作,擅长利用机器学习算法解决业务问题,善于挖掘数据价值;另一名成员谢敏曾就职于百度、爱奇艺公司长期从事数据分析工作,精于数据建模;队伍中美女“程序媛”江雪妍,拥有法国贡比涅技术大学数据挖掘工程师文凭,乐于清洗、分析数据。面对人社系统提供的如此真实庞大的数据,3位对数据拥有敏锐嗅觉的年轻人兴奋不已。一个多月的时间里,每天就泡在这些让人倍感新鲜的数据里,乐此不疲:“从社保的数据可以看到欺诈人群和正常人群的行为数据确实存在差异性,比如金额的差异性、就医频次的差异性,还有开药种类的差异性,特征多、维度广,真实有趣!”队员们每天在原始数据上找特征,不断地去挖掘特征,训练模型。为了提升1%的测试成绩,可能要反复尝试特征分析、算法调参,这一度成为他们的工作瓶颈。“花了很多功夫进行数据尝试,但是对应结果并没有明显提升,只能从头检查处理程序是否出错,计算流程是否遗漏,静下来好好思考,如何分步不断往前尝试。尤其到了比赛的后期,压力剧增,好几次都是跑模型跑到凌晨3点多,早上7点多又自然醒,立马又开始新的循环……”那些被数据充实了昼夜的每一个时刻,现在想来,都已变成珍贵的回忆。初、复赛评委组的评语是最好的褒奖:“利用机器学习算法建立欺诈人员识别模型,整个分析流程是最完善的,算法模型相对稳定。”当然,对于技术派们而言,“更大的收获则是通过比赛,将实现的、未来得及实现的想法,都应用到将来更加广阔的实际应用中去”。
与这3位首次接触社保算法的年轻人不同,丁蓉从事人社信息化建设近20年,参与过多个地区的重大项目实施,完全算是“圈内人”,“1999年10月,人社部组织开发社会保险五险合一全国统一平台,我就参与其中了。”应该说,她也是人社信息化发展的见证人之一,“从最早以实现单线条的业务管理为主,之后从条块化的业务管理系统发展到整体协同的应用格局,再发展到面向城乡居民的协同服务,现在则开始利用大数据从被动式服务到主动式服务,人社信息化水平在政务信息化领域一直占据领先地位。”本次大赛,她提出的“一药一码”智能监管平台依托于“金保工程”已取得的成果,利用高速发展的药品追溯体系,以“一药一码”为切入点,通过收集药品生产、流通和消费数据,运用大数据技术主动、快速发现在药品消费环节存在的“一药多卖”行为和虚假购药行为,实现对药品交易过程中“挂床就医”“串药换药”“刷卡套现”等骗保行为的实时监控和事前拦截,减少基金流失,保证基金运行安全。该方案的最佳实用性就在于直击智能监管盲点,顺应行业发展趋势,模式多、见效快。总规划师丁蓉将方案的具体实施定为“聚”“通”“用”三步走,即定标准、汇数据;建通道,搭平台;选模式,快推广。该方案现已在武汉等地得到验证。
同样来自于众安科技的算法专家王恒,对于人社领域大数据这座富矿心仪已久,通过此次比赛,他似乎看到了未来商保搭上人社“大数据应用平台”之后的美好场景——扩展大数据应用平台的数据来源,提供人员出行、购物消费、医疗健康等领域的丰富补充信息,完善人员画像能力,为商保在风控、产品规划等方面提供数据应用支持;建成全国统一医保在线支付结算接口后,商保公司可实现在线直赔,进一步提升在求诊过程中的用户体验。
本次社会保险大数据创新应用大赛时间不长,从报名、参赛到结果产出仅耗时3个多月,却思想碰撞火花四溅,成果丰硕,是人社大数据开发应用和协作共创“互联网+人社”的一次有益尝试。对于人社系统和社会各界而言,均体会到了大数据应用的无穷魅力。一些优秀成果有望在不久的将来成为现实,落地开花。而新的社会保险大数据创新应用大赛正在路上,在“互联网+人社”行动持续发力的指引下,开发唤醒人社大数据这座富矿时不我待,让我们携手社会各界共同努力。■