事理图谱研究进展

2023-04-29 00:00:00温学兵宋雨泽王秋萍

摘 要:事理图谱作为一种工具自2017年提出后就受到广泛关注。截至2023年3月,知网上收录关于事理图谱的文章共135篇。研究发现:国内外关于事理图谱的研究方向不尽相同,国内偏向于计算机与教育等方面,而国外更多地偏向于计算机与数学及人物传记等方面;学者们致力于研究提升算法性能及事理图谱的应用这2个部分,但有很大一部分应用型的文章只停留在想法方面,并没有真正地将事理图谱应用在自己的领域,尤其对跨领域研究的文章;在形成事理图谱的过程中,对于事件关系抽取的准确性还有一定的提升空间。将现有准确性高的程序简单化或者统一化,使更多的学者了解事理图谱并应用于各个领域是目前亟待解决的问题。

关 键 词:事理图谱; 事件关系抽取; pytorch框架

中图分类号:C81 文献标志码:A

doi:10.3969/j.issn.1673-5862.2023.02.010

Research progress of rational map

WEN Xuebing1,2, SONG Yuze1, WANG Qiuping3

(1. College of Mathematics and Systems Science, Shenyang Normal University, Shenyang 110034, China;

2. Editorial Department, Shenyang Normal University, Shenyang 110034, China;

3. College of International Education, Shenyang Normal University, Shenyang 110034, China)

Abstract:Rational map as a tool has been widely concerned since it was proposed in 2017. As of March 2023, CNKI had collected 135 domestic articles on rational map. The research results show that the research directions of the theory graph are not the same at home and abroad. In China, it is more used in computer and education, while in foreign countries, it is more used in computer and mathematics and biography. Scholars devote themselves to the two parts of improving algorithm performance and the application of rational map. However, a large number of application-oriented articles only focus on ideas, and do not really apply rational map to their own fields," especially for scholars of cross-field research. In the process of forming the rational map, there is still some room to improve the accuracy of event relation extraction. It is an urgent problem to simplify or unify the existing programs with high accuracy so that more scholars can understand the theory graph and apply it in various fields.

Key words:rational spectrum; event relation extraction;pytorch framework

人类的发展离不开事件的推动,事件与事件之间在时间和空间上相继发生着的演化规律和模式是一种十分有研究价值的知识,而现有的知识图谱缺乏对事件逻辑的体现。于是,随着深度学习与人工智能的发展,事理图谱应运而生。2016年,哈尔滨工业大学社会计算与信息检索研究中心开始启动事理图谱的研究。2017年,该中心主任刘挺教授在中国计算机大会上正式提出“事理图谱”概念。事理图谱是一个有向有环图,在这个图中,用节点表示事件,用有向边表示事件之间的演化关系。事理图谱与知识图谱不同,描述的是事件之间的演化规律和模式,事理图谱与知识图谱的对比见表1。

1 数据收集

2023年3月6日,笔者以“事理图谱”为主题,在中国知网的数据库中进行中文搜索,浏览初步检索所得的文献,剔除评论以及与主题无关的文献,共得到文献135篇。

2 研究综述

国内关于事理图谱的研究内容主要集中在2个大的方面,第1个是针对形成事理图谱本身的框架及算法进行优化,如图1;第2个是事理图谱在各个领域中的应用。

2.1 事理图谱框架

事理图谱是一个事理逻辑库,描述了事件之间的演化规律和模式。从图论角度来说,事理图谱就是一个有向有环图,在这个图中,节点代表着事件,有向边代表事件之间的逻辑关系,比如顺承、因果和条件等关系。

随着大数据时代的来临和人工智能研究的日趋深入,越来越多的工作都用计算机和机器来代替。学者们将绘制事理图谱的过程大致分为以下4个部分:事件抽取、事件关系抽取、事件泛化(图2)以及图谱可视化,其中一部分学者致力于研究事理图谱框架的优化与改进。

梁帅[1使用python软件爬虫,爬取网络上关于疫情的实时新闻,构建出有关新冠疫情的语料库。其构建的新冠疫情事理图谱结构如图3所示。作者使用哈尔滨工业大学语言处理工具LTP(language technoligy platform)得到语义角色词典,然后进行分词、数据的标注以及寻找种子触发词,且这种触发词基本都是动词。因为一句话中可能有多个种子词,但真正有重要意义的仅有一个,接下来作者又进行了种子词的删减。若通过人工进行删减将消耗大量的时间,因此,作者选用基于聚类的KNN(k-nearest neighbor)算法进行事件类型的识别并单独进行实验分析,使用依存句法与一定的规则抽取爬取和处理的句子中的论元信息。经过一系列的抽取后,在句子中的实物本体、事件触发词和事件元素间创造了依赖关系,并连接在一起。此文中论元抽取所用的方法是最大熵理论,并进行了实验验证。在论元抽取后,使用模式匹配法进行显式关系的识别和抽取,使用深度学习方法中的

深层次捕捉识别方法进行隐式关系的识别和抽取,此文中用到的模型是Attention+BILSTM(Bi-directional long short-term memory)+TT(through time)。作者在事件泛化环节之前,添加了一步事件相似度的计算,将余弦相似度和杰卡德相似度相结合用于评估2个事件的相似程度,相似度高的2个事件将保存到最后的事理图谱中。最后,作者在计算好相似度的基础上进行事件泛化,构建好抽象事理图谱。张超[2在《面向电信诈骗领域的事理图谱构建关键技术研究》一文中对小样本构建事理图谱的算法进行改进,因现有主流的事件标注工具无法贴切研究内容,作者自己设计了文本标注工具,实现了分层次事件的标注,并进行实验证实此工具更加适合其研究领域。在事件抽取环节,作者提出了基于ERNIE-BIGRU-CRF(enhanced language representation with informative entities-bidirectional recurrent neural networks-conditional random field)的事件抽取模型,这种方法减少了原有方法的误差,提升了抽取关于电信诈骗领域的事件要素和事件触发词的准确率,在文章中作者也使用ACE和TFG数据集进行实验并将实验结果进行了展示与分析。在事件要素识别方面,作者使用的是Tempalte–based UNILM(unified language model)模型并在小样本数据中进行训练测试,证明了这个模型在小样本下的准确性及优势。作者使用模式匹配方法和LTP进行显隐性事件关系抽取,使用CEC数据集实验和分析。事理图谱的可视化使用python库中的Pyecharts进行编码。廖豪劲[3在《基于特定场景事理图谱的知识问答系统的设计与实现》一文中使用基于深度学习的事件抽取模型ON-TLNN(ordered neurons-trigger-aware lattice neural network),后又使用基于深度学习的有序神经元模型完成事件关系的抽取,都取得了良好的效果。《基于事理图谱的事件分析方法研究与实现》一文中,石羽嘉[4在事件关系抽取模块基于原有的依存句法提出了“事件依存图”,这是一种新的结构,并基于依存图设计出事件因果关系、时序关系的BEGC(Bi-lstm es-gat crf)模型。除此之外,该文另一个创新点是将事理图谱和GCN(graph convolutional networks)结合提出一种新模型, 通过实验发现这个新模型有2个方面相较于原有主流模型有明显优点。作者基于事件依存图设计了一种事件关系抽取的BEGC模型并使用新闻语料库进行实验评估,取得了优异表现。倪德[5在《基于食品安全大数据的事理图谱构建研究》一文中,使用基于条件随机场的分词方法使分词模型的准确率提升至90.5%,再通过短句、词序列和短语3种方式进行事件抽取以更好地适用于事件泛化。葛任贤[6在《基于互联网知识抽取的汽车故障事理图谱构建方法》一文中采用基于正则化的触发词结合触发字匹配的方法识别抽取故障原因事件,解决了在汽车故障领域缺少较为完善的词典和语料库,以及汽车故障事件句子具有鲜明的领域特性的问题,并通过实验证明了该算法的有效性。

由以上文献不难看出,构建事理图谱的过程较为复杂,大部分研究学者使用LTP等自然语言处理平台,使用Neo4j等工具进行数据可视化,并试图将多种模型结合用于事件关系抽取、事件泛化这2个环节,以提升它们的准确度。

2.2 事理图谱的应用

作为一种工具,事理图谱被应用到越来越多的领域,也有越来越多的学者愿意将事理图谱进行改进并应用到自己的领域。赵文正等[7在《军事事理图谱构建与交互式分析工具》一文中,利用事理图谱使用户可以更加直观且高效地观察和分析军事情报,有效地提升了部队信息化指挥水平。王又辰等[8提出将事理图谱应用于军事领域,以助力用户挖掘军事情报数据价值,提高作战人员的指挥决策效率。邓君等[9以康养旅游为例,赖佳敏[10以出境游为例……这些学者将事理图谱应用于旅游领域,希望使用此工具优化旅游路线,合理分配旅游资源。王晰巍等[11使用“7·20”河南暴雨产生的网络舆情数据,田依林和李星[12使用新冠肺炎所产生的网络舆情数据……这些学者将事理图谱应用到了突发事件的舆论分析中,大体流程如图4所示,希望充分发挥事理图谱在监测、预测及影响舆论方面中的价值[13。赵一婷等14将事理图谱应用于初中教学领域,用于探究教师信息技术应用能力水平;庞敬文等[15构建了小学数学教师信息技术应用能力事理图谱;唐烨伟等[16以中小学优质课为数据使用事理图谱进行表征,挖掘课堂中的教学行为规律……这些学者将事理图谱应用到了分析中小学一线教学情况中,以促进提升教师的信息技术能力,更好地提高教学质量。孙盼[17使用新浪新闻中的数据,李忠阳[18使用中文出行理论和金融领域的数据,单晓红等[19使用医疗网络舆情数据……这些学者将事理图谱应用到了事件的预测中,并致力于得到更高的准确性。事理图谱还被应用于航空、空气、社会学等各个领域,并发挥着不同的作用。

3 结 语

通过对选取文献的分析,发现这些文献大部分来源于学术期刊,少部分来源于学位论文,极少数来源于会议。多数提升算法性能的文章都来源于学术论文,而这些作者所学专业基本都与计算机有关,有一定计算机方面的基础,而应用类文献基本来源于期刊,多数是简单地将图谱进行应用,或者在知识图谱上进行完善,所使用的数据及方法并未完全贴近自己所研究的领域,这就可能导致结果不准确,可参考性低。甚至还有论文只是希望或者预测事理图谱可以应用于自己的领域并取得好的结果,并未真正地实践。分析认为,事理图谱在应用时对作者的编程能力要求较高,没有固定或者适用面广泛的模型和应用提供给跨领域的学者。在这种情况下,很多学者可能在实验初始获取数据这方面就遇到了较大的困难。

在应用方面,在大数据量、多表达方式的时代背景下,越来越多的数据通过字、图结合,字、音结合等多种形式来共同表达,而事理图谱应用的领域基本都只是以文字为数据,例如新闻集、网络游记等。大部分可靠重要的数据在获取时就已经丢失,如果这个问题被解决,事理图谱将会被用于越来越多的领域,并拥有更高的准确性和可信度。

参考文献:

[1]梁帅. 面向新冠疫情的事理图谱构建研究[D]. 南京:南京邮电大学, 2022.

[2]张超. 面向电信诈骗领域的事理图谱构建关键技术研究[D]. 北京: 中国人民公安大学, 2022.

[3]廖豪劲. 基于特定场景事理图谱的知识问答系统的设计与实现[D]. 北京: 北京邮电大学, 2021.

[4]石羽嘉. 基于事理图谱的事件分析方法研究与实现[D]. 北京: 北京邮电大学, 2021.

[5]倪德. 基于食品安全大数据的事理图谱构建研究[D]. 武汉: 湖北大学, 2019.

[6]葛任贤. 基于互联网知识抽取的汽车故障事理图谱构建方法[D]. 广州: 广东技术师范大学, 2022.

[7]赵文正,王羽,姜晓夏,等. 军事事理图谱构建与交互式分析工具[J]. 指挥信息系统与技术, 2022,13(3):59-64.

[8]王又辰,李墈婧,田宗凯,等. 事件驱动的军事情报智能分析及推演技术[C]∥中国指挥与控制学会. 第十届中国指挥控制大会论文集(上册). 北京: 兵器工业出版社, 2022:708-713.

[9]邓君,彭珺,孙绍丹,等. 基于事理图谱的游记文本知识发现[J]. 现代情报, 2022,42(7):105-113.

[10]赖佳敏. 基于事理图谱的意图识别方法研究[D]. 上海: 华东师范大学, 2022.

[11]王晰巍,王小天,李玥琪. 重大突发事件网络舆情UGC的事理图谱构建研究[J]. 图书情报工作, 2022,66(16):13-23.

[12]田依林,李星. 基于事理图谱的新冠肺炎疫情网络舆情演化路径分析[J]. 情报理论与实践, 2021,44(3):76-83.

[13]ANITHA G,JYOTHI K,SUSMITHA V G,et al. Analyzing geographical events map reduce[J]. IJET, 2018,7(3):237-237.

[14]赵一婷,钟绍春,唐烨伟,等. 数据驱动下初中化学教师信息技术应用能力测评事理图谱研究[J]. 现代教育技术, 2021,31(8):50-59.

[15]庞敬文,刘东波,卜凡丽,等. 基于智慧课堂环境的小学数学教师信息技术应用能力测评事理图谱研究[J]. 现代教育技术, 2022,32(2):81-89.

[16]唐烨伟,赵一婷,陆淑婉,等. 基于教学行为的教师信息技术应用能力测评事理图谱研究[J]. 远程教育杂志, 2020,38(5):90-100.

[17]孙盼. 基于事理图谱的脚本事件预测方法研究[D]. 北京: 北京交通大学, 2021.

[18]李忠阳. 面向文本事件预测的事理图谱构建及应用方法研究[D]. 哈尔滨: 哈尔滨工业大学, 2021.

[19]单晓红,庞世红,刘晓燕,等. 基于事理图谱的网络舆情演化路径分析[J]. 情报理论与实践, 2019,42(9):99-103.