吴文慧 李亮 葛渟 华萍
摘要:该文介绍了在大数据时代背景下针对药品安全网络舆情监测现状,梳理分析了药品安全网络舆情监测系统需求,根据需求和网络舆情监测的特点,提出了药品安全网络舆情监测系统的软件设计框架,介绍了实现该系统所需的主要舆情监测处理技术。该系统设计该设计集监测、预警、分析、报告于一体,合理融合了大数据处理与自然语言处理技术,同时提出了用传统统计分析和深度学习方法来解决舆情分析中“文本分类和情感分析”等关键技术问题。最后,从用户交互的层面给出了药品安全网络舆情监测系统的可视化方案,为药品安全行业网络舆情监测提供了一种实现途径。
关键词:药品安全;网络舆情;监测;大数据;系统设计
Abstract: This article introduces the background in the era of big data in drug safety network public opinion monitoring at present, the comb demand, drug safety network public opinion monitoring system are analyzed according to the requirements and the characteristics of the network public opinion monitoring, drug safety network of public opinion monitoring system software design framework, this paper introduces the implementation of the system main public opinion monitoring and treatment technology. The design of the system integrates monitoring, early warning, analysis and report, reasonably integrates big data processing and natural language processing technology, and proposes the traditional statistical analysis and deep learning methods to solve the "text classification and emotion analysis" and other key technical problems in public opinion analysis. Finally, the visualization scheme of the drug safety network public opinion monitoring system is presented from the perspective of user interaction, which provides a way to realize the network public opinion monitoring in the drug safety industry.
Key words: drug safety;online public opinion;monitoring; big data;system design
隨着人们生活水平的提高,与人们身体健康密切相关的药品安全问题越来越受到大众关注,与药品安全有关的网络舆情也越来越多,容易产生消极的非理性情绪,这种情绪容易在网络上几何级叠加,非理性情绪叠加可能会导致严重的社会危机。药品安全网络舆情既具有影响力广、突发性强等网络舆情的普遍特点,还具有敏感度高、代入性强的行业特点,传统舆情应对存在反馈反应滞后、引导被动、预案不完善等不足,按照“发现、处置、积累”的循环关系,这些不足产生的源头还体现在对舆情的监测、响应、处置、宣传等工作快速发现、反应的能力不足上[1]。有报告指出,近90%的药品安全舆情事件均未取得令人满意的效果[2]。因此,迫切需要利用自然语言处理和大数据等新技术对药品网络安全舆情进行快速抓取、分析、预警,为后续采取积极应对、处置提供尽可能足够的反应时间和信息辅助决策,实现药品安全监管的舆情监测、预警、处置的快速反应[3-8]。
1 药品安全网络舆情监测系统需求
根据药品安全网络舆情监测的业务特点和需求,系统需要提供基于大数据的智能抓取、数据预处理、热点分析、图形显示等技术,重点收集药品安全行业的关键词,并按照行业分类,加大药品安全舆情监管词库配置。依据药品安全关键词行业分类,设立“药品安全”“中药安全”等舆情专题,对新闻网页、博客、论坛等评论进行定点采集与解析,对热点信息进行定位及追踪,对敏感信息实时监控及预警,从复杂的社会信息中挖掘出有用的信息[9]。提供统一的搜索功能方便用户进行关键词检索,得到最相关的舆情信息,对事件传播进行分析,实现对事件的全生命周期监控,形成完整的生态链条管理体系,范围须涵盖网络媒体、论坛博客、微博等全媒体,囊括事前预警、事中分析、事后处理功能,有效实现对药品安全网络舆情监测,对互联网上发生的与相关的舆情信息实现第一时间监测,并且以最直观的方式预警出来。
根据舆情监测注重快速反应的时效性特点,系统要提供舆情采集管理调度、自动采集状态监测、异常信息自动恢复等功能,保证舆情信息24小时无人值守的持续采集。系统能对采集的信息结合药品安全行业关键词,按文章属性、情感倾向、传播热度、发布载体、主题内容等进行分类;对信息源舆情属性进行相关、关注、负面、过滤、排除等进行舆情信息的多维度分析研判,做到自动生成热点、舆情热度计算、热度排序。通过按载体、时间、来源、特征筛选和可视化图表分析等监测手段,对事件监测结果进行实时跟踪分析与预警,对于重大活动或突发事件,系统能够对论坛、博客、微博的发帖、跟帖情况等进行分析,形成药品安全网络舆情分析报告。
2 药品安全网络舆情监测系统使用的主要技术
药品安全网络舆情监测系统分为离线和在线两部分,药品安全网络舆情分析流程如图1所示。离线部分包括数据标注、模型训练、模型评估等;在线部分通过爬虫技术进行持续数据采集,利用自然语言处理技术、中文分词技术、数据预处理技术,大数据处理技术等对信息进行垃圾过滤、去重、相似性聚类、情感分析、提取摘要、自动聚类等,构建药品安全网络舆情大数据的实时索引,为舆情预警、决策分析、处置提供支持。
1)网络爬虫技术
网络爬虫技术是根据设置的爬取规则和算法从网络上获取数据,爬取数据过程中采取一定的爬行策略(如聚焦网络爬虫的基于内容、链接结构评价和增强学习等策略,增量爬虫的统一更新、个体更新和分类更新策略等),从采集对象的服务器上爬取数据后进行预处理和建立索引保存到数据库[2,10]。
2)中文分词技术
根据目标群体的语言使用情况,利用中文分词方法(如:基于字符串匹配、基于统计和基于深度学习的分词方法等)将句子序列切分成单独的词列表,达到计算机能够识别句子意义的程度,并作为进一步分析的基础数据,通过自然语言进行分割处理,使用基于规则的实体识别方法、基于统计学习的实体识别方法或基于深度学习的实体识别方法指从句子中识别出实体项等,提高搜索与分析效率[7]。
3)文本分类技术
文本分类首先对文本进行初步过滤,主要有语种的判别、借助词典过滤掉敏感内容以及文本长度限制等;在满足初筛条件后,对待分类文本进行自然语言处理、分词、去除标点符号和停用词后,按照分类模型的设定对文本内容进行截断并提取文本特征;然后调用预先训练好的分类模型,依据文本特征进行分类判别并输出结果[11-13]。
4)情感分析技术
情感分析主要有基于情感词典和基于深度学习两类方法。基于情感词典的方法先对句子进行分词和停用词等预处理,再结合情感词典对句子中的情感词进行情感正负面倾向计算;基于深度学习的方法先对语句进行分词、停用词等进行预处理、词向量编码等,用智能算法提取特征和进行分析得到情感类别[14-15]。
5)舆情可视化技术
舆情可视化技术是舆情信息按照一定的属性变量数字化后的视觉表现形式,舆情数据通过图形、图表、导图等数据图表和事件相关数据图表来解释舆情信息,并直观展示给用户[16-17]。舆情可视化可提高用户获得舆情信息的效率,便于进行舆情分析研断。
3 药品安全网络舆情监测系统设计实现
基于上述需求,系统采用爬虫技术收集设置的药品安全相关关键词的各种网页、论坛、微博、微信、App等内容,对抓取后的数据进行分析提取,形成结构化等数据,利用舆情分析的分词、文本提取和情感分析等技术实现对药品安全网络舆情事件的实时预警和决策。实现药品安全网络舆情的“采集、分析、监测、预警、管理” 的一体化[18-22]。主要分为数据的采集与存储、数据的处理与分析和舆情的管理和应用三部分,具体药品安全网络舆情监测系统架构如图2所示。
1)数据采集与存储
舆情监测注重时效性,通过网络爬虫技术对新闻网站、论坛、App、微博、微信等媒体平台内容进行实时抓取,将抓取的信息通过用自然语言处理算法对数据进行处理,按规则提取药品安全舆情相关信息,预处理后分类存储。其中结构化数据直接存储在关系数据库中,可直接在系统中调用,非结构化数据(如文本文件、图片等)将建立索引并存入相应的数据库中[22]。系统提供舆情采集调度功能,对数据采集状态进行自动监测,实现24小时不间断无人值守信息采集。支持对监测对象的设置、采集的可视化、采集的任务设定、采集的基本属性、爬虫的爬取规则、信息抽取规则及其存储与索引的配置功能[23]。
2)数据处理与分析
数据采集后通过分词技术,自然语言处理后进行数据可视化处理,识别出信息的正负面,通过标注数据建立数据模型,实现在线文本聚类、情感分析、文本分类、文本标签、文本相似度以及关系抽取等在线、离线计算,实现内容的智能搜索、热点话题的聚类、相关内容的推荐、特定事件的舆情监测、自動预警及其传播路径分析等交互可视化服务。能够与信息源舆情属性进行相关、关注、负面、过滤、排除等舆情信息进行多维度分析研判[22]。系统提供信息自动抽取,热点自动生成、舆情热度计算等功能,提供大数据挖掘、多维度过滤、知识词典加载、结构化与非结构化数据融合等舆情规则的设置。
3)舆情管理与应用
通过对舆情信息的采集和分析,实现舆情信息的管理与应用,提供依据药品安全行业关键词,按文章属性、情感倾向、传播热度、发布载体、主题内容等进行舆情信息分类,通过按载体、时间、来源、特征筛选和可视化图表分析等监测功能对事件监测结果进行实时跟踪分析与预警。提供邮件、短信、微信、App、PC弹窗等5种舆情预警方式。对于重大活动或突发事件,系统能够对论坛、博客、微博的发帖、跟帖情况等进行分析,并自动搜寻定位用户所设定专题的相关信息,进行多角度的统计分析(如:统计其新闻报道数、主帖数、回帖数和博客、微博报道数和舆情发展趋势评估等)[24-25]。提供支持事件走势、网站统计、数据类型、关键词、传播路径、相关词、网民观点、舆情总结等多维度的分析报告,为舆情热点发现、处置提供便利化方案。
4 总结
本文介绍了在大数据时代背景下针对药品安全网络舆情监测现状,梳理分析了药品安全网络舆情监测系统需求,根据需求和网络舆情监测的特点,提出了药品安全网络舆情监测系统的软件设计框架,介绍了实现该系统所需的主要舆情监测处理技术。该系统设计合理融合了大数据处理与自然语言处理技术,同时提出了用传统统计分析和深度学习方法来解决舆情分析中“文本分类和情感分析”等关键技术问题。最后,从用户交互的层面给出了药品安全网络舆情监测系统的可视化方案,为药品安全行业网络舆情监测提供了一种实现途径。
参考文献:
[1] 阮梦黎.食品药品安全事件网络舆情传播控制模型研究[J].计算机与数字工程,2019(9):2196-2200.
[2] 张文学,王莹,徐静.基于Hadoop的藥品安全舆情的话题跟踪模型与算法[J].计算机科学与应用,2019,9(11):2045-2051.
[3] 马丽,张君.地方政府网络舆情监测系统的研究与设计[J].通信技术,2017,50(11):2600-2603.
[4] 潘琪,王广平.我国药品安全网络舆情现状及应对措施[J].医药导报,2015(4):562-565.
[5] 姜肇财,孙宁,宋黎.基于产品安全事件的网络舆情监测与预警方法研究[J].标准科学,2020(7):44-49.
[6] 由川雁.机制建设在舆情监测研判中的应用[J].中小企业管理与科技,2020(17):136-137.
[7] 李梦月,李建忠,刘奕然, 等.汽车网络舆情监测系统的设计与实现[J].产业与科技论坛,2020,19(11):41-42.
[8] 洪小娟,宗江燕,于建坤, 等.网络舆情监测系统的分析与设计[J].软件工程,2019,22(8):37-39,13.
[9] 李双,张才明.大数据时代的职工舆情监测分析 ——以网络大数据监测分析系统的构建与应用为中心[J].新视野,2020(3):94-100.
[10] 管小卫.网络爬虫探讨及应用[J].科技创新与应用,2020(27):178-179.
[11] 杜锦绣,蔡静.网络舆情监测的数据采集与文本分类技术分析[J].无线互联科技,2019,16(15):123-124.
[12] 王健.文本分类的关键技术[J].科教导刊-电子版(中旬),2019(5):288.
[13] 周晶,沈隽城.基于大数据的机器学习技术对文本分类的研究[J].信息通信,2020(6):5-6.
[14] 孟伟,张黎.基于人工智能技术对网络舆情内容中语义情感分析的策略研究[J].科技传播,2020,12(14):165-167.
[15] 章蓬伟,贾钰峰,刘强, 等.基于数据挖掘技术的文本情感分析技术研究[J].信息通信,2020(1):77-78.
[16] 张伟.可视化分析技术在网络舆情研究中的应用[J].现代情报,2016,36(11):82-86.
[17] 王威.可视化技术与"两微一端"舆情传播机制[J].理论导报,2017(7):20-21.
[18] 王微,孟丽娟,王新爱.自媒体时代高校网络舆情监测机制研究[J].高教学刊,2020(1):77-79.
[19] 何炎祥,喻涛,陈彦钊, 等.物联网环境中数据存储与查询机制研究[J].计算机科学,2015,42(3):185-190.
[20] 郑风玉.基于智能算法的食品安全网络舆情监测方法研究[J].新型工业化,2020,10(4):112-119.
[21] 陈刚,李弼程,郭志刚, 等.网络舆情监测预警系统模型与关键技术[J].信息工程大学学报,2019,20(1):116-121.
[22] 肖卓明,吴娴.舆情监测分析系统关键技术实现方案[J].科技与创新,2018(2):16-18.
[23] 杨森,王黎,李超.基于主动监测引擎和大数据的网络舆情烈度演化分析系统[J].价值工程,2020,39(17):201-203.
[24] 曾宇.基于大数据的网络舆情实时监测系统的构建[J].漳州职业技术学院学报,2020,22(2):92-99.
[25] 肖雪露,李洋,张同.网络舆情监测与预警系统的研究与设计[J].数字化用户,2019,25(14):267.
【通联编辑:代影】