基于Logistic模型的医疗网络舆情监控与预警系统的研究

2018-03-19 16:23张巍陈俊杰
电脑知识与技术 2018年4期
关键词:预警监控

张巍+陈俊杰

摘要:为了能够有效地监控和预警医疗网络的舆情,及时地解决可能出现的医疗舆情危机,提高医院舆情危机应对能力,提升医疗服务质量,医疗舆情监控和预警系统显得尤为重要。该文根据医疗网络舆情的特点,对医疗网络舆情监控和预警的相关技术进行了研究。主要包括数据收集和预处理、医疗知识库、医疗事件预警模块的设计,最后实现了一个原型系统以验证系统的有效性。

关键词:Logistic;医疗舆情;监控;预警

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)04-0010-02

1 背景

随着计算机和网络技术的快速发展,互联网已成为现代社会最重要的媒介。CNNIC第40次报告显示,截至2017年6月,我国网民规模达7.51亿,互联网普及率为54.3%。其中,即时通信用户数为6.92 亿,搜索引擎用户数为6.09亿,网络新闻用户规模为6.25 亿。微信朋友圈、QQ 空间作为即时通信工具所衍生出来的社交服务,用户使用率分别为84.3% 和65.8%。海量用户通过互联网获取最新资讯,互联网虽有利于自由表达自己的思想,也能被一些坏人利用,误导舆论。

医院舆情危机指能够对医院正常运营,或者声誉造成潜在破坏的舆情。在现今医患关系非常紧张的形势下,本来一个普通的医患纠纷,通过互联网的放大作用,很可能形成舆情危机事件。因此,有必要建设高效的医疗网络舆情监测和预警系统,便于医疗部门尽早采取应对措施,将危机消灭在初期。

本文基于Logistic模型,设计并实现了一个医疗舆情监控与预警系统。下面将对本系统的构成、功能模块以及实现进行介绍。

2 系统构成

本文提出的系统的结构如图1所示。

系统主要包括6个模块:数据采集及预处理模块、医疗舆情常态监控模块、医疗敏感知识库模块、舆情危机预警指标体系模块、预警多元回归模型模块以及四级预警與展示模块。

3 系统实现关键技术

3.1 数据采集及处理模块

本模块的任务是负责博客、论坛、新闻、微博上关于医疗舆情网页的抓取并存入MYSQL数据库。本模块的功能有两个:一是提供对新浪博客、天涯论坛、新浪微博、新浪新闻医疗舆情网页抓取的接口。另外可以提供对新浪博客、天涯论坛、新浪微博、新浪新闻实时抓取新数据的接口。本模块使用的软件及工具有:1)Eclipse环境及jdk 1.8.0_131的java语言。2)WebMagic爬虫框架,采用其0.7.2开源版本。3)quartz任务调度框架,采用其2.2.3开源版本。4)selenium 框架,采用其2.44.0开源版本。5)chrome的自动化软件。

爬虫爬取具体步骤:

1) 创建词库、并且分类。

如图2所示,创建表。

2) 分析网页、编写爬虫

(1) 根据关键词、标题、排序等参数编写url。

(2) 分析该网页的文章url的格式、找到规律,编写正则表达式。

(3) 将该网页中所有符合“文章正则表达式”的网页添加到待爬取队列当中。

(4) 将该页的分页也编写正则表达式,并且将符合“分页正则表达式”的网页添加到待爬取队列当中。

(5) 将文章的网页中的标题、正文、日期、作者等相关信息通过webmagic框架中的方法提取出来,并且存到数据库中。

3) 根据需要、实时抓取

可以将以上爬虫简写成只爬取前两页的内容,但是获取到的结果都要经过时间优先,且结果都要根据标题检索。

3.2 医疗舆情知识库模块

医疗舆情知识库模块由医疗事件库、医疗关键词库、关注站点库和微博虚拟身份库组成。医疗事件库收集了近年来具有较大社会影响力的50多个涉及医疗纠纷、医患关系、医疗事故等的医疗领域事件。医疗关键词库收集了200多个医疗关键词组,为识别医疗信息提供帮助。微博虚拟身份库包含两百多个重点关注用户,有助于提高数据抓取的目标性。

3.3 医疗事件预警模块

3.3.1 预警系数构成

根据系统采集到的数据,制定了舆情发布、舆情发布者两个一级系数,舆情发布广度、舆情发布活速率、舆情发布者具有的影响力、舆情发布者活跃程度四个二级系数,以及六个三级系数,如表1所示。

3.3.2 预警模型构造

根据前期采集到的医疗事件,采用多元Logistic回归训练模型,可判别出对医疗事件预警起关键作用的指数,同时训练出各个指数的权重值。

医疗舆情事件的预警可以认为是一个具有两个值的因变量的Logistic回归模型,研究因变量y取值为1(预警)的概率p与自变量x之间的关系。自变量x是一个向量,它是影响y的因素。设在向量x条件下y=1的概率是p=p(y=1|x),那么所得出的公式(1)就是此条件下的多元Logistic回归模型。

(1)

以某个医疗舆情事件的预警系数为识别变量,对此事件对应的六个预警系数作为模型拟合数据,构建Logistic回归分析模型,从而可获得该事件未来舆情危机爆发的预警级别。预警机制可根据严重程度的不同,分为轻度危机,普通危机,重大危机以及特大危机等,最后可对重大危急事件进行预警。

根据已建立的医疗舆情知识库中近期的50个医疗事件的六个医疗舆情预警系数统计计算的值,经过归一处理后作为输入,使用软件SPSS 24.0中的向前逐步回归法选择变量,经过10次迭代可获取预警模型,最后一次迭代结果如下表所示。

如果p>0.5,则进行预警,否则,不进行预警。

4 结束语

总之,基于Logistic回归模型,通过对爬取下来的有关医疗网络舆情信息进行处理、统计、计算和分析,得到了p值作为预警指标,从而可对重大危急事件进行预警,便于医院管理部门采取必要措施将医疗舆情危机消灭在初始状态。但此模型的精度还不是很高,下一步,需增加更多的医疗舆情预警系数来调整此模型的建模。

参考文献:

[1] China Internet Network Information Center. 第40次中国互联网络发展状况统计报告[EB/OL]. http://cnnic.cn/hlwfzyj/hlwxzbg/hlwtjbg/201708/P020170807351923262153.pdf.

[2] 钱海峰. 公立医院危机成因与应对[D]. 上海: 复旦大学, 2011.

[3] 张寅荣, 王超超. 医疗机构网络舆情的应对策略[J]. 中国医院, 2010, 14(7):41-42.

[4] 温舟, 娄芳蕾, 史虹婷, 等. 锦州市综合气象预报预警服务平台设计与实现[J]. 电脑知识与技术, 2017, 13(7):74-76.

[5] 赵军, 赵玉玲, 段琪庆. 基于logistic回归的区域房地产预警模型[J]. 中国人口·资源与环境, 2013, 23(11):454-457.

[6] 方匡南, 章贵军, 张惠颖. 基于Lasso-logistic模型的个人信用风险预警方法[J]. 数量经济技术经济研究, 2014(2):125-136.

猜你喜欢
预警监控
The Great Barrier Reef shows coral comeback
基于BIM的基坑开挖实时感知与预警应用研究
法国发布高温预警 严阵以待备战“史上最热周”
你被监控了吗?
Zabbix在ATS系统集中监控中的应用
园林有害生物预警与可持续控制
辽宁 短缺药品三级预警
基于IEC61850/61970的光伏并网监控系统
PDCA循环法在多重耐药菌感染监控中的应用
日盲紫外探测技术在空间预警中的应用