摘 要:2020年新冠肺炎病毒被列为全球重大公共卫生紧急事件,此前虽然大数据也在社会各领域获广泛应用,但短时间内,面对社会突发重大事件,相关科技企业能够做哪些有效工作,又面临哪些技术难点,這类研究内容较少。本文以一款具象化数据产品为例,详细回答以上问题,并期为日后类似事件提供一定的参考价值。
关键词:重大公共事件;大数据应用;数据开放;技术原理
中图分类号:R126.4 文献标识码:A
本文著录格式:苗志如.浅析重大公共卫生事件中大数据的应用开发要点——以清博大数据为例[J].中国传媒科技,2020,03(03):19-21.
2020年春节,新型冠状病毒肺炎突然出现并迅速蔓延。中共中央政治局常务委员会2月3日召开会议强调:这次疫情是对我国治理体系和能力的一次大考。无论是对政府部门还是科研机构来说,重大公共卫生事件中的沟通与传播都是全球性难题。
随着疫情的发展,数据和分析的价值迅速体现出来。此前著名的管理和咨询公司麦肯锡(McKinsey)就说过:“大数据已经渗透到工业和商业领域的各个方面,成为影响生产的一个重要因素。”[1]大数据是“从海量数据中对其规律实施寻找的技术。数据挖掘能够为与之对应的决策提供更具有价值的参考依据。”[2]
此次疫情大数据不仅关注舆情走向和宏观决策,对个体用户行为的信息查询和分析也更精准细致。通过“大数据算法+应用”,各大媒体、互联网平台、科技公司和科研机构联手研发多种抗疫救灾的数据产品,协同创新推动大数据应用,全网新闻、社交、地图、救援、辟谣、外卖等数据挖掘工作在此次疫情中发挥了重要作用。下面以清博大数据为例来解读大数据在疫情期间的有效应用。
2月10日,清博大数据研发的疫情防护公益产品“疫情查”正式上线运行。该产品集合了疫情防护的“查、测、防、援、购、宣、辟、保”等八大关键环节。2003年美国纽约健康和心理卫生局通讯联络处长桑德拉·穆林曾在《从西尼罗病毒到SARS,纽约市的沟通历经磨难与考验》一文里提出以下五个观点:迅速把消息传出去;公众对风险的看法与我们希望的大相径庭;要承认并理解公众的担忧;在危机的早期阶段充分沟通;为下一次危机作好准备。[3]结合桑德拉·穆林的观点,“疫情查”产品功能设置在快速应对、打通政务、科研部门与民众的沟通方面都起到了积极作用。
1.准确发现民众需求,快速完成技术攻关
1月24日起,全国多地城市陆续启动重大突发公共卫生事件一级响应。疫情前期,由于此时的民众对于疫情的认知还很匮乏,因此很容易出现各种猜疑和恐慌情绪;[4]并且全国各地医疗机构、药房及商超均面临着防护用品紧缺的情况。事件爆发突然,快速明确需求、快速上线对应数据产品才能有效抓住沟通先机。
据此,在1月28日明确产品需求后,清博大数据“疫情查”开发团队便迅速开始了技术攻关,1月30日,短短三天时间内,快速上线了【防护用品企业查询】、【确诊患者同程查询】、【防疫知识问答】三款产品。除了技术人员的日夜鏖战,高效率的背后与系列前沿技术的应用密不可分。本次开发主要应用了以下方法:
1.1分布式云服务集群系统,为大数据算法提供助力
在数以千万亿的公开数据库中调取意向的“防护用品企业”、“疫情全网传播”等数据,对存储空间和运算能力都提出了更高的要求。清博团队采用可扩展分布式云服务集群,通过软硬件技术整合了多台服务器,从而有效实现了数据储存的负载均衡。在数据分析过程中,“智能任务优先级调度系统”的运用,对数据自动构建了任务优先级,与传统架构相比大大提高了资源分配和运行的效率。
1.2应用simHash算法,让海量千万级的数据去重更高效
过了海量数据的收录关,疫情查产品中的数据还要进入到下一步的关键处理即:去重。在千亿级数据中寻找到重复的信息,与在十三亿中国人中找到你想找的人,其难度相差无异。此次查重工作中,清博团队运用SimHash算法为每一条数据赋予了一个唯一认证,大大降低了查询的难度。举个通俗点的例子,一篇若干数量的文本内容,经过simHash降维后,可能仅仅得到一个长度为32或64位的二进制由01组成的字符串,这一点非常相似我们的身份证。[5]
1.3多方核查去伪,让信息准确度更有保障
对于疫情查中的“防护用品生产企业查询”、“谣言粉碎机”、“确诊患者同程查询”等产品,信息的真伪辨别是重中之重的工作。随着疫情逐步发展,不同地区、不同时间,信息实时在变化。及时、准确的数据更新对于终端用户的使用影响巨大。以“防护用品生产企业查询”为例,为了核实生产企业的信息真伪及最新情况,运营人员在十天的时间里打了7000多通核实电话。除了技术的广泛应用,在一些工作中,人力的投入依旧很大。
2.第一时间开放对外接口,助力产品普及更广泛
为发挥产品的最大化效用,开发团队在产品上线的第一时间便明确了免费、开放的原则,为全国各地区各组织机构提供技术支持。截止到发稿,已有全国260余家组织机构企业自发加入公益推广计划。其中【蔬菜合作社查询】产品获国务院客户端微信小程序采用,影响力扩大至全国范围,为更多蔬菜采购商、经纪人带去便利。
3.多维度功能设置,全方位服务大众
清博大数据将全国各地区与疫情相关的各类信息进行大数据分析与研判,从各角度给予疫情防控部门全面智能的决策支持,通过各维度服务广大人民群众的切实需求。
3.1查:“全国疫情实时数据”实时显示疫区最新动态
该功能提供实时数据、疫情地图、疫情趋势等信息,同时可设置“本地疫情”,显示所在地或所关心地区的具体情况。多维度、直观的向用户展现疫情的发展态势。
3.2测:“防疫知识问答”强化防护知识科普
通过做题的模式,增强群众对新型肺炎了解认知及防控知识,满足群众和社会对科普知识不断变化的新需要。
3.3防:“确诊患者同程查询”有效降低新冠病毒二次传播
通过综合媒体报道确诊病例曾乘坐的交通工具及曾去过的部分公共场所等信息,可实现根据日期、车次和地区快速查询,快速找出与确诊患者有过接触的人群,帮助缩短疫情发现周期。
3.4援:“雷火救助快线”为新冠肺炎求助者增设一条求助渠道
由于医疗物资、人员紧张,武汉地区仍然有很多疑似病例未能得到医院收治,雷火求助快线在详细了解记录到患者的有关信息后,会第一时间转交给相关部门,避免求助信息在浩瀚网络中被淹没,帮助患者大大提高获得援助的机会。
3.5购:“防护用品查询”和“蔬菜合作社查询”链接重要物资采购
这两个功能能够为口罩、防护服、护目镜等防护用品生产厂家和蔬菜合作社的查询提供一个线上入口,方便群众和战斗在防疫一线的工作者快速联系到生产商,进行物资的采购。有效缓解因物资紧缺带来的救助阻碍。以“蔬菜合作社查询”为例,目前该查询产品的数据库几乎覆盖了全国各大蔬菜生产合作社,可直观查看每家合作社的所在省份、供应能力、蔬菜品种、联系地址与方式等有效信息。通过“省份”和“蔬菜名称”两种查询方式,即可快速高效找到意向供应商,从而保障了蔬菜种类和数量的供应充足。
3.6宣:“卫健委公号发布”和“疫情全网传播”梳理重点信息及全网传播分析
“卫健委公号发布”可即时查看全国卫健委公号发布的内容,并可具体定位到每一个市,及时为民众提供准确科普信息;“疫情全网传播”版块则通过可视化图表的形式呈现“新冠肺炎”相关信息在全网各平台的传播走势、发布情况,帮助用户把握疫情信息传播的整体态势。
3.7辟:“防疫谣言粉碎机”有效降低负面信息危害
综合各大媒体和专业机构以及专业人士已辟谣的相关信息,该功能可有效为群众提供谣言查询,稳定群众情绪,减少群众恐慌焦虑等负面情绪。
3.8保:“新冠肺炎无忧保”和“合同法律诊断室”为民众安全和法律权益提供一份保障
“新冠肺炎无忧保”版块为当前未被医院确诊,且未被确认为疑似病例的用户免费提供轻症、重症和身故三类“无忧保”,填写信息即可领取;“合同法律诊断室”版块由清博联合Welaw电子合同平台设立,针对疫情期间合同履行无法依约完成这一难题提供便捷的在线诊断公益服务,帮助企业主答疑解惑,减少损失。
4.保持数据实时更新,及时补充上线新功能
随着疫情的快速发展,疫情相关的信息也以几何倍速快速增长,对此开发团队必须对对其及时进行更新,才能为大众提供更为实用的信息。对于需要人工二次核查的信息也要同步加快人手的投入。 作为一款数据产品,疫情查不仅承担着信息的传递科普功能,在雷火热线中还是一个关键的信息参与者,对信息的更新和反馈提出了更高的要求。对于疫情中层出不穷新出现的社会问题、科普内容等还要及时把握好新功能的开发节奏。从这个角度讲,这场对抗疫情的战役也是普及大数据、研究大数据、学习大数据的实战大课堂。
大数据行业在中国兴起、发展已经数十年,此次疫情中大数据表现出更强的决策力、洞察发现力和流程优化能力,让我们看到大数据应用的更多可能。随着人工智能、云计算、5G等技术不断发展与完善,相信在未来的工作生活中,小到衣食住行,大到国家治理,大数据技术将进一步渗透到社会的方方面面。
[1]于施洋,王建东,童楠楠.国内外政务大数据应用发展述评:方向与问题[J].电子政务,2016(1).
[2]何春.大数据时代背景下处理技术研究[J].科技经济导刊,2019,27(31).
[3]桑德拉·穆林,胡珉琦,譯.重大公共卫生事件如何向公众“说”[J].中国科学报,2020,2(13):5.
[4]新型冠状病毒肺炎大众防护与心理疏导[M].中南大学出版社,2020(2).
[5]Google.Detecting Near-Duplicates for Web Crawling,2007.
作者简介:苗志如(1991-),女,河北衡水,品牌策划,清博大数据,大数据在产业、融媒体和舆论传播方面的应用。