王 强 陈安琪
1.北京市科学技术情报研究所 2.研究院竞争情报与创新评估重点实验室
突发公共卫生事件是指突然发生,造成或者可能造成社会公众健康严重损害的重大传染病疫情、群体性不明原因疾病、重大食物和职业中毒以及其他严重影响公众健康的事件。随着生物技术、化学技术和核技术在工农业、医疗卫生、科学研究和军事上应用的日益广泛,我国许多新发、再发传染病及不明原因的疾病频繁暴发,化学污染、中毒和放射事故逐年增多,同时,因森林开发、兴修水库带来地理景观改变,全球气候变暖、生态改变等自然、人为因素造成的突发公共卫生事件也在不断增加,这都必然会给国家在政治和经济上造成损失,对人民的身体和精神带来严重威胁。
互联网作为一种新媒体形式,已经成为信息发布和获取的主要渠道之一,随着我国对公共卫生事件重视程度的不断提高和信息透明度的不断增强,突发公共卫生事件的进展情况已经能够比较及时的发布到网络媒体,使相关网络信息随着公共卫生事件的进展而不断传播,因此对网络信息及其传播模式的分析,是揭示和发现公共卫生事件发生发展规律,事件之间的转换、耦合、衍生、次生等关系和条件的重要手段。
语料库(Corpus)是语料的仓库或者语料的集合[1],作为突发公共卫生事件语料库指的是为研究突发公共卫生事件而专门收集的、有一定结构的、有代表性的、可以被计算机程序检索的、具有一定规模的专业语料的集合。构建突发公共卫生事件语料库,对探索突发公共卫生事件互联网文本的语言特征,揭示突发公共卫生事件网络信息的传播宏观模式和微观模式,辨析网络突发公共卫生事件的信息真伪,探索特殊情境下网民情绪波动情况及不同语境环境下受众的群体特征为政府和相关部门提供科学的应急措施和防范计划等都具有重要意义。
通过网络爬虫在互联网上采集与突发公共卫生事件相关的新闻报道、评论、博客等文本信息形成计算机可存储的数字化生语料库。建立的生语料库应满足真实性、代表性、平衡性三大目标。即,在生语料库中应包含规范运用的语言样本,如:网络媒体新闻,也包含非规范运用的语言样本,如:评论、留言、博客等。
对生语料库进行进一步的加工和处理,将语料分为与突发公共卫生事件相关和无关的两类语料,最终完成突发公共卫生事件语料库的构建。存储在该语料库中的语料是经过标注的,结构化或半结构化的语料。同时该语料库还保存着每一语料样本的元数据,如:标题、作者、发布时间、消息来源和发布网站名等信息。最终,该语料库内的记录应能支持针对突发公共卫生事件网络信息语言特征的结构的分析。
该案例库主要存储了互联网上与国内重大突发公共卫生事件相关的结构化和半结构化的信息,其包含近百个国内重大突发公共卫生事件案例。该案例库案例主要来自于国内主流门户网站针对突发公共卫生事件所组织的新闻专题而构成,其不仅存储首次在互联网上出现的重大突发公共卫生事件文本和数据记录,还应存储同一事件的后续报道文本和数据记录,以及由该事件导致的新兴相关事件文本和数据记录。
本项目的最终成果将包括三库一集,即:突发公共卫生事件生语料库、突发公共卫生事件语料库、突发公共卫生事件数据集、突发公共卫生事件案例库。其中,突发公共卫生事件生语料库及数据集是其它两个库的基础,库中包含的语料信息绝大部分是另外两个库及数据集的输入。突发公共卫生事件语料库主要是在文本挖掘,文本分类技术基础上进行构建,突发公共卫生事件数据集则是突发公共卫生事件网络文本数据抽取的主要工作,它集成了语料库语料的元数据和文本发布者、地理信息,时间信息等属性数据。案例库则是在获取的门户网站突发事件专题新闻语料基础上,通过对事件新闻标题进行提取,进而在博客和论坛上进一步采集事件数据,利用文本相似度计算技术对的语料进一步的深加工而形成的。
本突发公共卫生事件语料库系统以数据采集模块作为支撑从而形成最初的生语料库及数据集。通过文本处理工具集分别对生语料及数据集进行加工从而形成过滤、清洗及转换后的数据集、案例库和法定传染病语料库。最后,最上层的分析及展示工具集根据处理好的2库1集提供的数据对数据进行统计及展示。具体的系统结构如图1。系统功能主要由前后两个平台实现,前台主要用于展示经过抽取、清洗和转换、分类好的语料及与语料相关联的数据集。后台则包含了基础管理,传染病生语料库管理、案例库管理三大管理模块。
图1 突发公共卫生事件语料库系统架构图
突发公共卫生事件语料库系统的展示平台采用分层处理及工具集成的方式对语料库系统的语料及数据进行展示,如图2。
图2 突发公共卫生事件语料库系统分类体系
(1)前台展示分类体系。
展示部分包含两个不同体系的内容,一部分为法定传染病监测,该部分内容主要针对《中华人民共和国传染病防治法》[2]中列出的甲、乙、丙类共39个传染病构建关键词表,并通过网络爬虫、数据过滤、和文本分类技术对抓取的网络生语料进行清洗和分类而得到。另一部分则是重大突发公共卫生事件语料,该部分新闻语料主要来自于主流门户网站对突发公共卫生事件所组织的新闻专题,同时通过对新闻专题下的新闻标题进行处理,构建了重大突发公共卫生事件博客、论坛抓取任务列表,并通过抓取构建了初级的重点突发公共卫生事件博客、论坛生语料库,随后在此生语料库基础上,通过文本相似度计算技术对生语料进行提纯,进而得到博客、论坛案例库语料。并且为了让后续基于语料库的信息传播研究能根据不同类型的事件进行分析,还要根据专家建议将案例库语料根据其所代表的事件类型,进一步细分为了法定传染病事件、食品安全事件、医药卫生事件、环境污染事件和其他突发事件共五个类别。
(2)事件级别的语料展示(含法定传染病)。
基于事件级别的语料展示包含话题发布趋势、信息来源分布、事件新闻列表、新闻媒体排行、事件博客列表、事件帖子列表、意见领袖排行、关键词排行、议题一致性分析、情感趋势分析和地理分布11个数据分析展示模块。
话题发布趋势模块。话题发布趋势模块包含信息增量趋势展示和信息累计趋势展示两个展示子模块,信息增量趋势模块主要是基于事件发生的时间轴根据一定的时间区间动态的反应该时间区间内的信息增量,通过对比不同媒介信息增量了解一定时间区段内不同网络媒介对事件的反应强度。信息累计趋势则是呈现在一定时间区段类事件信息增长的累计趋势。通过对比不同网络媒介网络信息累计增长量,可以有效观测不同网络媒介平台信息传播的相互影响趋势及评估网络信息传播效果。
信息来源分布模块。信息来源分布模块通过统计同一事件下新闻、博客、论坛三个信息源的信息发布趋势从另一个角度反映了不同媒介对突发公共卫生事件的反映强度。
事件新闻、博客、论坛列表。对突发公共卫生事件新闻、博客及论坛列表的展现均按事件发生的时间升序排列。一方面,通过并列方式显示不同信息来源的信息可以让研究人员了解不同媒体平台下信息的整体发布情况,了解平台之间信息的转换、耦合、衍生、次生等关系。另一方面,该列表还集成了数据集中该信息的属性数据,如信息来源、评论量、阅读量、相似信息数,给研究人员从海量信息中获取关键数据提供了参考依据。最后,该列表也是进入原子级别语料展示及分析的接口。
新闻媒体排行。新闻媒体排行模块是对新闻语料进一步挖掘的结果,其主要展示了某一事件(传染病)下,报道该事件最多前10位媒体网站该模块可以帮助研究人员了解突发公共卫生事件下的主要新闻信息发布平台。
意见领袖排行。意见领袖排行模块的数据基础是论坛帖子语料及帖子评论语料。由于采集的论坛帖子语料总数达到27万条,考虑到系统的负荷及确保数据的代表性、有效性和有用性,对帖子评论的采集是基于回帖量大于30这个阈值进行的。意见领袖排行统计的是突发公共卫生事件论坛评论数据中发表帖子数量和评论数量最多的网络用户。选取发文量最多的前10位网络用户进行展现。意见领袖排行可以反映公共卫生事件中的积极的利益相关者。
关键词排行。关键词排行模块对三大信息源的语料进行了抽取,本项目分词工具动态加载了搜狗细胞词库中的医学词库和机构词库词表共286559个词条,利用这些词条及分词工具我们对三大信息源的语料进行了切词,去停用词,并对最终分词结果及每篇文章词的词频进行了统计。选取在三大信息源语料中出现次数最多10个词展现在排行列表内。关键词排行从词的角度反映了突发事件发生发展过程中的热点。
议题一致性分析。议题一致性分析是对关键词排行的扩展。其对三大信息源语料单篇文章的词频进行了分别统计选取出在各信息源中出现次数最多的10个关键词进行展现,其后对各来源的关键词进行了合并,选取词频出现最多的10个关键词,并通过展示界面反映出不同网络媒介中关键词词频数量的异同。议题一致性分析可以考察不同媒介在同一事件中论点的异同。
情感趋势分析。情感趋势分析模块利用文本情感计算开源工具包对三大信息源中的词进行了情感倾向计算,同时该模块也对文本中的否定词及否定句进行了情感倾向反转。
地理分布。地理分布模块是对语料库语料资源地名抽取后统计的结果。地理分布模块有助于分析突发事件所涉及的地域范围,为监测事件动态发展过程提供参考。
(3)原子级别的语料展示(含法定传染病)。
原子级别的语料展示除了语料还原以外,还提供了单一文本的关键词词频统计,论坛帖子评论情感识别,单一帖子意见领袖识别、意见领袖言论汇总及言论情感值计算等分析工具。
新闻语料展示。新闻语料展示功能包括原文文本重现、情感倾向识别及关键词词频统计功能。该页面可以提供支持项目突发公共卫生事件网络传播模式有关突发公共卫生事件主题词表构建及相关语料词性、词频、语义等语言学特征的研究。
博客语料展示。博客语料展示功能包括原文文本重现、情感倾向识别及关键词词频统计功能。该页面可以提供支持项目突发公共卫生事件网络传播模式有关突发公共卫生事件主题词表构建及相关语料词性、词频、语义等语言学特征的研究。
论坛语料展示。论坛语料展示功能包括原文文本重现、情感倾向识别、回帖情感倾向分布、意见领袖排行及关键词词频统计功能。该页面除了提供支持项目突发公共卫生事件网络传播模式有关突发公共卫生事件主题词表构建及相关语料词性、词频、语义等语言学特征的研究外,还对考察大众传播的效果,收集大众传播的反馈,理解突发公共卫生信息在群体传播和人际传播中的形式、特点及过程提供支持。
意见领袖信息汇总。意见领袖信息汇总包括意见领袖发布信息汇总及意见领袖发布信息的情感倾向识别及情感倾向分布。意见领袖信息汇总反映了某一事件下意见领袖在论坛帖子总发布的言论信息,并对其每一条言论信息进行了情感倾向识别及统计了言论的情感倾向分布。该页面可以帮组研究人员了解突发公共卫生事件中最积极的利益相关者的主要诉求及情感趋向。
突发公共卫生事件语料库系统后台包括基础管理、案例库管理和法定传染病语料管理三大模块,如图3。
(1)基础管理。
基础管理模块包含主题领域管理、分类管理、站点注册、列表任务采集及系统命令五大功能。主题领域管理是为构建某一领域的语料库而设计的,他可以根据需要建立和新建不同主题领域的语料库,本系统中目前只有突发公共卫生事件该主题领域的语料。
图3 突发公共卫生事件语料库系统结构图
分类管理是对主题领域下的类别的管理,它包括增删查该四个基本的类别管理功能。当设计好一个主题领域后可以在该页面下为预采集的文本设定类别及管理该类别下的关键词表。关键词表也具备基本的增删查改功能。
站点注册包括对爬取站点管理及爬取任务列表生成功能,该模块主要由管理人员负责管理。
列表采集模块提供爬取任务执行状态的查询功能,可完成爬取任务的添加、删除和修改工作。
系统命令则集成了从文本抓取、文本去重、文本预处理、文本相似度计算、文本分类、实体抽取等众多数据抽取、分析和处理功能的模块。系统管理员可以在系统页面下通过配置相应的系统参数完成生语料的加工、分类工作。
(2)案例库管理。
案例库管理包括案例事件管理、案例新闻管理、案例博客管理、案例论坛管理4个部分。各部分都提供了对各自页面内容的增删查改功能。
(3)法定传染病语料管理。
传染病语料管理主要包含生语料库管理、生语料标注平台和分类语料管理三部分。生语料库的管理主要包括新闻、博客、论坛生语料的增删查改功能。并提供了链接至网络原始文本的地址。
语料标注平台主要是对生语料进行标注,生成用于训练分类器的训练文本集。同时,为了减少标注人员的标注劳动量,该平台也具备语料检索功能。
分类语料库的管理包括对新闻、博客和论坛分类语料的管理,各管理页面均提供了基本的增删查改功能,并同了链接至网络原始文本的地址。
本语料库是面向任务的,采用目标驱动的方式进行构建。由于本语料库主要用于提供突发公共卫生事件传播模式的研究,因此本系统不但具有传统语料库的功能,同时还对研究突发公共卫生事件传播模式进行了支撑设计,通过对已有的传播学理论的消化并结合目前网络舆情研究的成熟技术,将一些可量化的语料分析方法,信息传播分析方法及文本挖掘工具也都集成到了语料库系统中,使得系统可以根据不同的研究目的,而提供智能化的语料分析工具,辅助领域专家完成相关领域的研究工作。
本系统提供了多种分析工具配合多种分析方法,对同一突发事件利用多种工具,从多种角度来探索事件信息在互联网中的传播路径及信息扩散范围。系统提供的分析工具的多样性,使得用户可以从多角度来观察突发公共卫生事件的整个演化过程,并可以利用不同工具的互补性来验证分析的准确性。与此同时,本文构建的语料库尽管从语料内容看是面向突发公共卫生事件,但语料库建设框架、系统技术路线和功能结构并不存在领域依赖性,这些内容对于自然灾害、事故灾难和社会安全相关事件语料库建设同样具有借鉴意义。
[1]俞士汶,段慧明,朱学锋,等. 北京大学现代汉语语料库基本加工规范[J].中文信息学报,2002,16(5):49-64
[2]全国人民代表大会常务委员会.中华人民共和国传染病防治法[M].北京:法律出版社,2013