开源事件库的对比和评估研究

2022-07-13 01:15李志鹏高振远胡志强
中国电子科学研究院学报 2022年2期
关键词:库中关联性数量

李志鹏, 高振远, 周 阳, 马 政, 胡志强, 石 珺, 易 勇

(1. 深圳市网联安瑞网络科技有限公司,深圳 518038; 2. 中国科学技术大学,安徽 合肥 230027)

0 引 言

世界上各国家和地区每天都在不停地发生着动乱冲突事件,给人们的生产生活、相关部门的社会管理以及整个社会的平稳运行带来了不同程度的动荡。对社会事件进行持续监控和挖掘分析,已经成为计算社会学的研究热点。“计算社会学”这一概念,由哈佛大学等机构的15名国际顶级学者[1]于2009年在《科学》杂志上共同提出,文中预言的以互联网为基础,通过收集和分析数据,揭示个人和群体行为模式的具有无限可能的计算社会科学的产生正在成为现实。2020年8月,文献[2]再次在《科学》杂志上撰文探讨了计算社会学提出后十多年来的突飞猛进的研究进展,以及遇到的研究挑战和机遇。2021年7月,《自然》杂志也发表了关于计算社会学的专刊[3],说明相关研究至今一直是学术研究热点。

随着社交网络技术的发展以及大数据时代的来临,互联网已经成为公众信息来源的重要平台。人类的社会活动往往是由事件驱动的,对互联网新闻媒体等开源数据进行事件自动检测和跟踪,具有重要现实意义。美国、欧盟近年来资助大量项目进行社会冲突、军事叛乱、恐怖活动、传染病爆发、选举等事件的监控,构建了全球事件、语言与语调数据库(Global Database of Events, Language, and Tone,GDELT)[4]、综合危机早期预警系统(Integrated Crisis Early Warning System,ICEWS)[5]、基于早期模型并使用代理的事件识别系统(Early Model Based Event Recognition using Surrogates,EMBERS)[6]、地缘政治事件协同预测系统(Synergistic Anticipation of Geopolitical Events,SAGE)[7]等一系列全球事件库和事件预警预测系统,同时在KDD、IJCAI等数据挖掘与人工智能顶级学术会议上发表多篇论文。美国情报高级研究计划局(IARPA)资助的OSI项目成功预测巴西之春巴西,汉坦病毒爆发,委内瑞拉暴力示威,哥伦比亚总统大选等事件。IARPA作为未来情报科技的风向标,部署的项目具有高度的战略前瞻性和参考价值。

随着研究的深入,大规模自动构建的结构化事件库[8]逐渐成熟,通过事件库能够全面记录人类现实活动,大量事件数据被记录到事件库,实现了现实世界和人类活动的全面映射。其中,Google Jigsaw赞助的GDELT事件库最为著名,GDELT从超过100种语言的全球新闻媒体数据中发现并记录了从1979年以来发生的人类社会主要事件,掀起了计算社会学的研究热潮,截至2021年11月,通过Google Scholar能够检索到的基于GDELT事件库进行研究的学术文献已超过2 200篇,显示出事件监测和预测领域的巨大研究前景。另外一个受到研究人员广泛关注的事件库是综合危机早期预警系统,由洛克希德马丁公司创建并维护的。ICEWS和GDELT已经成为事件分析、事件图谱、趋势预测、事件预警以及计算社会学研究中使用最广泛的公开数据集。

然而,现有文献大多直接使用ICEWS和GDELT中的事件数据,缺少对ICEWS和GDELT这两个全球事件库的数据验证和对比分析[9-10]。本文对ICEWS和GDELT这两个全球事件库进行了系统的分析、对比和评估,以期为事件库构建、事件抽取和事件图谱等领域提供帮助和参考。

1 开源事件库

在过去的40年里,研究人员一直在努力使用新闻、报纸、杂志等来源创建发生在世界每个角落的全球规模的事件数据库,以帮助理解和应对全球问题。尽管大多数项目都受到当时技术的限制,但是,随着大数据时代的到来,最近两个利用新闻媒体自动编码提供全球实时事件数据的开创性项目受到了广泛关注和认可:ICEWS和GDELT。这两个事件库项目规模空前,已经收获了学者、媒体和多国政府的重点关注。ICEWS和GDELT可以说是目前最大的两个事件数据集合,它们收集的资源来自世界各地各个领域。就对学术研究和政策建议的影响而言,ICEWS和GDELT一直是最具影响力的事件数据集。本文中,我们主要研究分析这两个事件数据集。

1.1 ICEWS

ICEWS是一个综合、集成、自动化、可推广和经过验证的系统[11],用于监测、评估和预测国家、地区和内部危机。ICEWS系统支持如何分配资源以缓解危机的决策。通过使用ICEWS,战斗指挥官(Combatant Commanders,COCOM)能够具备强大的预测和应对稳定性挑战的能力,可以根据设定的旨在减轻风险的目标来分配资源,并实时跟踪和衡量资源分配,达到最终状态稳定的有效性目标。

ICEWS使用混合方法进行不稳定预测,在集成框架中结合异构统计和基于代理的模型,总预测准确度超过80%。ICEWS公开的部分为事件数据集[5],这些数据从100多个数据源和250个国际和区域新闻源中近乎实时地得到。数以百万计的新闻由创新的Jabari的shallow-parsing技术和BBN的Serif NLP技术处理。ICEWS事件数据集在时间上有一定限制,只包含1995年至今的事件,自1995年以来每月扫描一次,自2018年10月以来每天扫描新闻。

1.2 GDELT

GDELT项目对来自地球上几乎每个国家/地区各个角落的新闻、广播、印刷品等进行监控,并对这些用100多种语言书写的信息进行识别,自动抽取、编码这些事件中的人物、地点、组织、主题、来源、情感等,旨在为全世界社会计算研究创造一个免费的开放平台,以推动全球社会发展。

GDELT包括从1979年至今的数据。数据以制表符分隔值格式的zip文件形式提供,文件格式使用csv扩展名,可以轻松导入 Microsoft Excel或类似的电子表格软件,或者用pandas等软件包方便处理。1979—2005年的数据以每年一个zip文件的形式提供,文件大小从1979年的14.3 MB逐渐增加到2005年的125.9 MB,这也反映了新闻媒体数量逐年增加,以及事件的频率的增长。2006年1月—2013年3月的数据文件按月粒度提供,压缩文件大小从2006年1月的11 MB增加到2013年3月的103.2 MB。2013年4月1日以后的数据文件按日粒度提供。每个日期的数据文件在次日东部标准时间早上6点之前可用。2015年2月19日以后,GDELT升级2.0版本,每个日期的数据按15 min粒度更新提供。GDELT数据文件使用冲突和调解事件观察 (CAMEO) 编码来记录事件。

GDELT数据集也可在Google Cloud Platform上使用,并可使用Google BigQuery访问。截至2021年11月22日,Google Cloud Platform上GDELT数据集中EVENTS表大小为242.71 GB,一共604 170 458条事件数据,GKG表数据量为13.45 TB,共1 261 381 853条数据。

2 试验数据集准备

由于GDELT和ICEWS全量事件数据集较大,本文利用采样的方式进行对比分析。IARPA资助的OSI项目公开了MITRE公司专家人工整理的社会事件数据集[12],称为GSR(Gold Standard Report)。GSR的时间范围为2013年5月—2015年3月,事件发生的地理位置是拉丁美洲,因此可以将GSR数据作为对比的基准数据。首先,从GDELT和ICEWS数据集中采样获取数据,数据采样的时间为2014年全年,即时间跨度区间为2014年1月1日—2014年12月31日;然后,分析GDELT和ICEWS近期的事件数据,ICEWS已经公开2019年全年的事件数据,所以我们获取了GDELT和ICEWS在2019年全年的事件数据,即2019年1月1日—2019年12月31日。综上,我们一共采样得到5个数据集:GDELT2014、ICEWS2014、GSR2014、GDELT2019、ICEWS2019。针对GSR和ICEWS事件数据,直接从Harvard Dataverse官方维护的网址手动下载。对于GDELT数据,采用基于Python的GDELT事件库检索框架gdeltPyR,调用该框架的接口下载获取2014年和2019年的数据。

3 事件库对比和评估

3.1 ICEWS、GDELT和GSR对比

针对GDELT、ICEWS、GSR的2014年数据,首先,计算GDELT和ICEWS之间的数据关联性,如表1所示,关联值的大小很大程度上依赖于国家被新闻调查和互联网相关内容的聚合程度。那些具有较多西方媒体覆盖的国家(例如阿根廷、巴西和委内瑞拉),在GDELT和ICEWS数据上具有更高的关联性。这主要是因为,在GDELT数据集中,英文新闻媒体的数据具有更高的可靠性。另外一个结论是月事件数量关联性一般大于周事件数量关联性,周事件数量关联性一般大于日事件数量关联性,这说明事件数据在较大的时间尺度上,关联性更大,数据也更为准确。

表1 2014年GDELT 和ICEWS关联性

GDELT和GSR数据集之间的关联性,如表2所示,从结果可以看出,GDELT 与GSR之间的关联性低于GDELT与ICEWS之间的关联性。产生这种现象的原因是ICEWS和GDELT事件库的数据源来自国际英文媒体,而且两个事件库利用了很相似的编码框架。

表2 2014年GDELT和GSR关联性

表3展示了ICEWS和GSR事件数据之间的关联性,由结果可得,其相似性亦小于GDELT和ICEWS,这也是因为两者具有相似编码框架和主要的英语语料。

表3 2014年ICEWS 和 GSR关联性

3.2 ICEWS和GDELT对比分析

针对GDELT、ICEWS事件库2019年的数据,计算得到的关联值如表4所示,可以得到相似的结论,那些具有较多西方媒体覆盖的国家具有更高的关联性,月事件数量相比于周事件数量、日事件数量,具有更高的关联性。

表4 2019年ICEWS和GDELT关联性

3.3 事件数量对比分析

图1展示了2014年全年,GDELT、ICEWS和GSR事件库中,委内瑞拉每周所发生抗议事件数量的曲线图,由图可得,GDELT事件库中抗议类事件数量相对较多,GSR其次,ICEWS最少,但是三个曲线的趋势很相似,表明了在不同事件库中每周发生抗议类事件数量具有较大的关联性。GDELT由于数据来源更多,可能存在事件重复计算的情况,ICEWS的数据相比GDELT,与专家人工整理的基准数据更为接近,表明ICEWS的数据量级更为准确。

图1 各事件库2014年每周事件数量曲线

图2展示了2019年全年,GDELT和ICEWS事件库中,在委内瑞拉每周所发生抗议事件数量的曲线图,由图可以看出,与2014年的数据具有类似的结论,GDELT事件库中抗议类事件数量相对较多,两个事件库中抗议类每周事件数量曲线具有相似的形状,表明了在GDELT和ICEWS事件库中每周发生抗议类事件数量具有较大的关联性。

图2 GDELT和ICEWS 2019年每周事件数量曲线

4 结 语

构建全球事件库的两个开创性项目ICEWS和GDELT获得了研究人员的广泛关注,本文对这两个全球事件库进行了系统的分析、对比和评估。通过与专家人工整理的事件数据集GSR进行对比,说明了三个数据集在整体事件趋势上存在较大的关联性,其中GDELT事件数据集可能由于数据来源较多,数据存在重复统计的情况,相比ICEWS和GSR数据量更大。通过本文的研究分析,以期为事件库构建、事件抽取和事件图谱等领域提供帮助和参考。

猜你喜欢
库中关联性数量
英语专业学士学位论文摘要的元话语特征研究
基于单元视角的关联性阅读教学策略浅探
学贯中西(4):AI的时序性推论技能
饮用油茶与糖尿病患病风险的关联性分析
街头的人
芳芳猜童话书的数量
ECG检查T波动态变化与急性心肌梗死患者LVEF的关联性分析
功能强大的滤镜库
统一数量再比较
从今天开始