陈思杭 王文宏 曾梦缘 宋文明 姜思羽
摘 要:近年来全球局势紧张,大国关系愈发错综复杂,对当前国际形势进行研究分析已成为各国政府的重要使命。采用大数据与数据挖掘等技术,对中国与别国于各领域的往来数据进行采集,并通过NLP、熵权法等方法对所得数据做分析处理,最后以数据可视化技术将其呈现,以直观展示中国国际关系的变化,令更多民众了解国家外交之动态与大国之风采。其数据结果呈现方式多样,为促进民众了解当前国际形势及中国国际关系提供了一定研究思路。
关键词:国际关系;数据分析;数据可视化;爬虫技术;自然语言处理
中图分类号:TP391 文献标识码:A 文章编号:2096-4706(2023)04-0177-04
Application of Entropy Weight Method in Visualization Analysis of China's International Relations
CHEN Sihang1, WANG Wenhong1, ZENG Mengyuan1, SONG Wenming2, JIANG Siyu1
(1.School of Information Science and Technology, Guangdong University of Foreign Studies, Guangzhou 510006, China;
2.Guangzhou Automobile Group Co., Ltd., Guangzhou 510623, China)
Abstract: In recent years, the global situation has become increasingly tense, and the relations between major countries have become increasingly complex. It has become an important mission of national governments to study and analyze the current international situation. This paper uses big data, data mining and other technologies, collects the communication data between China and other countries in various fields, analyzes and processes the obtained data through NLP, entropy weight method and other methods. Finally, it visually shows the change of China's international relations with data visualization technology, which makes more people understand the dynamic of national diplomacy and great power of country. The data results are presented in various ways, which provides some research ideas for promoting the public to understand the current international situation and China's international relations.
Keywords: international relations; data analysis; data visualization; crawler technology; natural language processing
0 引 言
邁入21世纪,当今世界正由“信息时代”逐步转向“数据时代”[1],随着全球关系的日益紧密,国家贸易交易金额、投资额等海量数据不断累积,一系列数据清晰反映了国际关系的动态变化。而近年来伴随着新冠疫情复杂严峻的发展态势[2]、俄乌战争爆发等一系列国际事件的影响,国际形势不稳定性、不确定性大幅增加,大国关系更趋错综复杂,国与国之间的贸易、经济和文化等发展情况多元且不可测,其不稳定性与可塑性均有所上升。对国际交往中的海量数据进行合理分析,可清晰地掌握各国国际关系及当前国际形势,并帮助相关从业人员在处理有关事务时作出更为准确的判断。对此,本文基于自然语言处理与大数据技术,结合数据挖掘与数据可视化方法,对中国与其他各国在政治、经济、文化等六大领域的往来数据[3]进行采集与分析,并将相关结果以可视化形式动态呈现,使数据丰富立体化,旨在展示中国国际关系变化情况,同时更直观地观察各国与中国在经济、文化等方面的联系密切程度,令更多群众了解国家外交之动态与大国之风采,系统主体框架如图1所示,具体实现过程如下:首先利用Python所提供的BeautifulSoup等相关库,对国别区域与全球治理数据平台、外交部官网等相关网站的文本及数值数据进行采集,并对所获数据通过Python及Excel等工具进行数据清洗与预处理;随后对于所得数据利用熵权法等算法进行国家合作度评分、话题热度指数等计算;最后采用词云图、气泡图等方式进行文本数据可视化,通过绘制饼图、折线图、仪表盘等方式对数值型数据进行可视化呈现。
1 相关研究
国际关系历来是相关领域学者重点研究的议题,对国际关系展开研究,有利于我国了解国际形势,把握自身国际地位,在国际交往中掌握主动权。然而其复杂性、不确定性以及庞大的数据量也为相关的研究分析带来巨大挑战。近年来,基于国际关系分析的研究多以文本或研究报告的形式展示,各学者研究角度亦有所不同。南京师范大学薛浩男等以网络新闻文本为数据源,结合信息计算与地理视角,力图将国际关系与地理学相融合,对国际关系进行分析[4]。吉林大学齐啸天则利用大数据分析技术,将大数据研究与国际政治预测相结合,通过文献梳理、实例分析及比较研究等方法对国际关系及国际形势作出研判预测[5]。北京邮电大学王骏提出了基于文本挖掘的国际关系网络研究,通过文本挖掘从大规模文本中构建国际关系网络,同时利用可视化技术对所构建的网络进行分析与展示[6]。综上所述,当前有关国际关系的研究已经取得一定成果,但目前从可视化角度出发对相关结果进行分析展示的研究仍相对较少,因此本文立足于国际关系分析与可视化技术,力图将分析所得数据与可视化展示相结合,打造良好呈现效果。
2 模型和算法
本文采用熵权法进行国别合作度评分计算。熵权法是一种客观赋权方法[7],在具体使用过程中,该算法根据各指标数据的分散程度,利用信息熵计算出各指标的熵权,再根据各指标对熵权进行一定的修正,从而得到较为客观的指标权重;因此,结合熵权法与国家信息中心所供评分标准[8],可对中国与其他各国的合作度作出评价。
国别合作度评分是考量中国和其他国家关系的重要指标,能够直观地体现两国之间的关系,合作度评分越高,则两国关系越紧密,如评分20以下为其他关系,评分90以上则为战略协作伙伴关系等。对于国别合作度的评分计算,结合国家信息中心大数据发展部[9]提供的国别合作度测评指标,本文决定采用“投资合作”“会议报道”“文件项目”“贸易合作”等10项指标评价中国与其他国家合作度综合评分。首先,将归一化后的指标数据按式(1)计算概率:
(1)
其中,pij表示第i个数据的第j项指标所对应的概率,rij表示第i个数据的第j项指标所对应的归一化结果,n表示数据的数量。
而为了更好地确定各指标的权重,本文采用信息熵来描述各指标含量的不确定性,按式(2)计算信息熵:
(2)
其中,Ej表示第j项指标的信息熵,pij表示第i个数据的第j项指标所对应的概率,n表示数据的数量。
为提高数据的抗干扰能力,本文对所得信息熵按式(3)计算冗余度:
Dj=1-Ej (3)
其中,Dj表示第j项指标的冗余度,Ej表示第j项指标的信息熵。得到冗余度后,按式(4)计算权重:
(4)
其中,Wj表示第j项指标的权重,Dj表示第j項指标的冗余度,m表示指标的数量。以中国与新加坡国别合作度为例,本文对相关指标进行权重计算,并对权重排名前5的指标进行展示,如表1所示。
最后,依据式(5)求出合作度综合得分:
(5)
其中,aij表示第i个数据的第j项指标所对应的数值,Wj表示第j项指标所对应的权重,m表示指标的数量。综合得分越高,说明该国家与中国的国际关系越密切。
3 数据可视化
本文参考国别区域与全球治理数据平台所构建的数据分类模式,分别从政治、经济、文化等六大领域对中国国际关系展开分析,并对所得文本及数值型数据以词云图、折线图、气泡图等形式进行可视化呈现。
此处以新加坡与中国国际关系有关数据为例进行部分指标可视化展示,其中,“投资合作”指标和“旅游与文化”指标采用折线图的可视化方式,“会议报道”和“文件项目”指标采用词云图的可视化方式,“贸易合作”指标采用气泡图和折线图相结合的可视化方式。本文选用10个指标进行熵权法计算,最终采用仪表盘的形式将国别合作度评分结果进行可视化。
3.1 “投资合作”和“旅游与文化”指标
“投资合作”指标是中新国别合作度综合评分计算的重要指标之一,如图2所示,本文通过热度指数计算得到一定时间区间内中新两国之间与“通信”相关的投资合作热度指数的变化,并采用折线图的方式进行呈现。与此同时,本文将热度指数进行归一化,以更好地将其作为评价指标之一带入熵权法的合作度评分计算中。
如图3所示,本文将中新两国自1994年至2016年以来的旅客入境情况绘制成折线图,一方面实现数据可视化展示,另一方面该数据也属于国别合作度评分中“旅游与文化”这一指标的一部分,从图中可看出从1994年至2016年中新经济“旅客入境”数量总体呈上升趋势,进而得出中新旅游业发展关系密切的结论。
3.2 “会议报道”和“文件项目”指标
TF-IDF算法是一种用于信息检索与数据挖掘的统计方法,其中TF表示词频,IDF表示逆文本频率指数,该算法用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度[10],字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF算法对使用熵权法计算合作度评分中确定“会议报道”和“文件项目”这两个指标的权重有着重要作用。本文将前期所采集到的中国与其他国家在经济、文化、政治等方面的有关文章使用Python所供jieba库进行分词与去除停用词后最终得到有效词语,再通过TF-IDF算法进行计算,将得到的词语按TF-IDF值进行排序。
图4为中国与新加坡两国在经济类别中TF-IDF值排名前50的词语,从图中可以看出,中新两国经济在“通信”“信息”与“创新”等关键词中交流密切,联系紧密。
3.3 “贸易合作”指标
本文采用“时间轴”和“比例气泡图”相结合的方式对“贸易合作”指标的相关数据进行呈现。图5展示了中国与新加坡两国间进出口产品的占比情况,气泡越大,则占比越大,该可视化方式有利于直观地展示在同一年内不同类型产品所占比例的情况。经过观察可知,该数据具有差异性和可对比性,有利于增大“贸易合作”指标的权重。
点击图5气泡图中的任意气泡,即可呈现该类产品从1993年至2021年的出口总额变化情况,图6为中新两国经济“艺术品”出口总额变化图,从中可看出在此二十余年间两国在该类产品的最高出口总额出现于2010年,约为225亿美元。
3.4 熵权法——国别合作度评分
通过采用熵权法进行计算,本文得出中新两国间的国别合作度综合评分为60.84分,并判定中新关系为“战略伙伴关系”,其详细结果如表2所示。由结果可知,经过熵权法计算所得国别合作度评分相比多元线性回归方法的计算结果更接近国家信息中心所供的标准参考[9],因此其结果更具备参考价值。
如图7所示,本文采用“仪表盘”的可视化方式,生动地对中新关系进行展示。
4 结 论
本文基于熵权法等相关算法,以国别区域与全球治理数据平台等官方网站所得数据为数据源,对中国国际关系展开可视化分析。结合国家信息中心所供的国别合作度指数进行比对,本文所用方法对于国别合作度评分等计算具有一定参考意义。同时,本文以词云图等多种方式实现可视化呈现,为帮助普通群众与相关领域研究者快速了解当前国际形势及中国国际关系提供了较好的研究思路。
参考文献:
[1] 大数据时代:数字政府建设成为新趋势 [N].社会科学报,2019-06-13(1).
[2] 中国社会科学院国际形势报告(2022) [J].拉丁美洲研究,2022,44(3):159.
[3] 外交领域的突破与创新 [J].人民论坛,2017(2):39.
[4] 薛浩男.基于新闻文本的国际关系时空信息获取与分析方法研究 [D].南京:南京师范大学,2021.
[5] 齐啸天.大数据分析方法对传统国际政治预测的改进 [D].长春:吉林大学,2021.
[6] 王骏.基于文本挖掘的国际关系网络研究 [D].北京:北京邮电大学,2013.
[7] 邵俊,倪枫,刘姜,等.基于熵权法的软件开发项目进度风险影响因素分析研究 [J].项目管理技术,2022,20(10):7-10.
[8] 王彤. 基于熵权法的QS园林公司财务风险评价研究 [D].辽宁:沈阳工业大學,2022.
[9] 于施洋,王璟璇,杨道玲.数说“一带一路”国别合作度 [J].中国投资,2018(19):106.
[10] 张明阳,刘盼盼,文申平.基于TF-IDF分类算法的电磁态势情报分发 [J].航天电子对抗,2022,38(4):31-35.
作者简介:陈思杭(2001—),女,汉族,广东潮州人,助教,学士学位,研究方向:软件工程;通讯作者:姜思羽(1992年—),女,满族,黑龙江齐齐哈尔人,讲师,博士,研究方向:人工智能。
收稿日期:2022-12-01
基金项目:广东省哲学社会科学规划一般项目(GD22CTS02)