面向道路交通违法行为的事理图谱构建技术*

2022-03-20 14:42胡昊天邓三鸿
交通信息与安全 2022年1期
关键词:事理道路交通图谱

王 翠 胡昊天 邓三鸿▲

(1.南京大学信息管理学院 南京 210023;2.南京大学江苏省数据工程与知识服务重点实验室 南京 210023)

0 引 言

世界卫生组织发布的2018年全球道路交通安全分析报告中显示,全世界每天大约有3 500人因道路交通碰撞而死亡,由此造成的死亡人数每年高达135万人,且道路交通伤害是人类的第八大死亡原因,是5~29岁的儿童和年轻人的主要死因[1]。2019年的《中国统计年鉴》展示了2018年国内的交通事故情况,共发生244 937起,直接财产损失为138 455.9万元[2]。导致道路交通事故发生的原因可分为主观因素和客观因素2大类[3],其中主观因素一般是指人为因素,客观因素是指道路、车辆、环境等要素。为了预防和减少交通事故,保护公民合法权益,我国制定并颁布包括《中华人民共和国道路交通安全法》在内的一系列有关道路交通的法律法规,对道路交通系统中的人、车等要素进行约束。交通警察依法对各种交通违法行为进行惩处,以示警戒,维护道路交通秩序。

本文试图从事理图谱的角度收集整理道路交通违法行为信息,构建基础知识库,并设计开发交通违法智能问答系统,可以帮助执法人员快速查询违章信息,有效处理违章事件。

1 相关研究现状

1.1 道路交通安全

道路交通安全是指在交通活动过程中,能将人身伤亡或财产损失控制在可接受水平的状态。道路交通安全问题一直是社会各界普遍关注的焦点,道路交通安全知识一直被推广普及,但交通乱象和交通事故屡见不鲜。学者们在道路交通安全领域的研究也未曾间断,主要包括以下几个研究方向[4]:①交通事故影响因素研究。毛敏等[5]对道路交通事故的致因进行分析,提出显性和隐性故障的致因模型,并强调隐性故障的危险性;王磊等[6]从人、车、路和环境4个方面选取15个影响因素,通过Logit模型定量分析各因素造成高速公路交通事故的严重程度。②驾驶者行为特征研究。Hezaveh等[7]通过调查问卷获得632名伊朗驾驶员的样本,确定了5个影响道路交通安全的驾驶员行为。③交通系统与安全研究。其重要组成部分包括智能交通系统(intelligent transport system,ITS)[8]研究,张可等[9]全面介绍了当时中国ITS体系框架研究的进展情况;万文佳等[10]通过回顾发展历史和过往经验,对智能交通系统的智能道路子系统中的智能化道路基础设施在交通安全方面的应用进行总结研究。

道路交通系统是1个动态的、开放的系统,系统内部因素和系统外部环境都对其安全有一定影响。为了保障道路安全,给人民群众营造1个稳定的出行环境,国家颁布道路交通安全法以规范行人与驾驶人员的出行行为,并对违法行为依法进行相应的惩罚及道路交通事故处理等。若能在此方面实现智能化,可以帮助城市交通管理部门提高处理交通违章事件的效率并辅助决策。

1.2 事理图谱

在2012年,Google首次提出知识图谱(knowledge graph)的概念[11],用以描述现实世界中的实体(或概念)及其相互关系。以传统本体为基础的知识图谱着重于描述概念的静态特征,缺乏对动态特征的描述。此外,知识图谱一般只能完成“when”“who”“what”“where”等常识问题,而对 于“how”“why”等动态问题的作答显得有些乏力,在推理规则的学习方面仍存在不足[12]。在此背景下,研究者逐渐开始转向以事件及其关系为研究对象的事理图谱(event evolutionary graph)研究。哈尔滨工业大学刘挺教授研究团队首先提出了“事理图谱”这一概念[13],指出事理图谱本质上是1个关于事理逻辑的知识库,在其重要的图结构中,节点代表事件,有向边代表事件之间的关系(顺承、因果、反转、条件、上下位、组成等[14])。

随着大量事件信息的出现和事理图谱概念的提出,与其相关的理论研究和应用研究不断涌现。周京艳等[15]将概念地图、知识图谱、事理图谱进行比较区分,对情报事理图谱的概念进行界定。同知识图谱的应用类似,按事件领域可分为通用领域事理图谱和垂直领域事理图谱2类。目前,国内已有公开的基本成型的实时事理逻辑知识库——学迹[16],它便是1个大规模的聚焦于事件的事理知识系统,通过学迹进行事件搜索,既能得到以“概念描述”的方式表达出来的相关实体信息,达到解释实体的目的,又能获得该事件的前因后果、产业链知识。在网络舆情、城市治理、教育教学等垂直领域[17-19],皆有利用事理图谱为各行各业的智慧化发展提供新技术指导的研究。

纵览人工智能技术的发展,依托现代信息技术构建智慧法院,带动司法领域知识图谱和事理图谱的兴起和发展。朱福勇等[20]以知识图谱和事理图谱相融合的方式对司法领域中的术语及法律关系进行结构化表达,构建证据要素、证据链条与证据规则的知识模型,设计出诉讼司法知识库。其中,在道路交通安全领域,孙鑫瑞等[21]构建了城市道路交通事件知识图谱和事理图谱,可以识别微博文本中的交通事件,帮助发现交通问题,进行交通预警。姬艳涛等[22]通过文献计量对我国交通安全管理的研究态势、研究热点和研究前沿进行了梳理,智能化交通建设是目前的研究重点之一,也是未来的研究趋势。

随着私家车数量不断增加和城镇化水平显著提高,我国道路交通安全不断面临新的挑战[23],为维护道路交通良好秩序,预防和减少道路交通事故,针对驾驶人员和行人的违规行为,相关部门制定详细的处罚条款。以智慧化建设为目标,本文面向道路交通领域,构建以事件为中心的交通违法事理图谱,并基于此设计开发交通违法问答系统,提高智能化水平。

2 道路交通领域语料库构建

2.1 事件类别

笔者选用“上海发布”微信公众号中“监管”专栏上的典型交通违法案例作为数据集,结合其中的“交警提醒”或“警方提示”模块进行数据标注。面向道路交通违法行为的事件主要包括违法行为和处罚事件2类,如常见的酒驾、醉驾交通违法行为,根据道路交通安全法相关规定,对相关违法行为人的处罚见表1。

表1 酒驾醉驾行为及处罚内容Tab.1 Drink-driving,drunk driving and penalties

通过典型交通违法案例分析发现,每一类具体的违法行为都有法可依,管理处罚的量罚规则详细,处罚形式多样,且可利用处罚组合以加大惩罚力度。故本次研究主要涉及2类事件,即道路交通违法行为和处罚事件。此外,考虑到事件链的完整性,将加入法律条款这一实体,见表2。

表2 道路交通违法行为涉及要素Tab.2 Elements involved in road traffic violations

2.2 事件表示

事件是1个抽象的概念,通常包含事件的参与者、事件发生的时间和地点等核心要素。对事件内容进行语义表示,抽取出更为结构化的事件描述,对基于事件数据的语义互操作和智能化应用具有重要意义。在目前的研究中,主要通过原始短语和句子、事件核心词汇、事件组成要素、事件本体等表示事件内容[24]。事件短语或句子表示方式是从标题等关键位置中提取一些简短的句子或短语来描述事件;事件核心词汇表示方式是通过识别以动词、名词和动名词为主的事件关键词汇及其特征来抽取候选事件;事件组成要素表示方式是根据事件的组成要素框架组织事件,对事件进行结构化处理;事件本体表示方式是通过建模对事件要素及其之间的语义关系进行规范组织,事件模型能被计算机自动处理且可复用于其他领域。

基于上述分析,结合道路交通领域的特点和性质,本文采用事件短语或句子和事件核心词汇2种方式表示涉及事件。使用短语或句子来表示违法行为的内容语义,既易于理解,又简洁凝练,还保证数据的完整性;通过识别关键词汇抽取处罚事件,具有较高的准确性和结构化。参考《中华人民共和国交通违章处罚条例》及官方网站权威公告,确定处罚事件的核心关键词有“记分”“警告”“罚款”“暂扣”“拘留”“吊销”。

3 道路交通安全违法行为事理图谱构建流程

3.1 事件抽取

事件抽取是指从无结构化的文本数据中抽取事件信息并以结构化的形式表示[25],是事理图谱构建的关键环节。本文的事件抽取过程主要包括事件类型识别、事件句识别、事件关键词识别、事件泛化等步骤。通过对道路交通违法行为语料库中的文本进行分词、词性标注、去停用词、语义分析等预处理工作,结合事件触发词及道路交通领域特征词构造规则,识别事件关键词和事件类型,利用目前最常用且效果较好的Bert-BiLSTM-CRF模型进行事件抽取。该模型原理见图1。第1层,利用BERT模型嵌入向量实现输入文本序列中字符的语义表示;第2层,采用BiLSTM模型进行上下文特征学习和特征捕获;第3层,利用CRF将概率最大的标签序列进行标记并提取事件。

图1 BERT-BiLSTM-CRF模型示意图Fig.1 Diagram of BERT-BiLSTM-CRF model

3.2 关系抽取

关系判定是事理图谱构建的重要子任务之一,主要目的是从文本中识别事件并抽取事件之间的语义关系,理清事件之间的逻辑关系。本文主要涉及因果关系和顺承关系。因果关系描述的是1种前因后果联系,即前1个事件会导致后1个事件的发生;顺承关系描述的是1种时间上的偏序关系,是1种先后动作逻辑。由于本文的研究主要聚焦于道路交通领域违法行为间的因果和顺承关系,且事件之间的关系较为明显,故针对法律条款、违法行为和处罚事件约定了依据、参考和触发3类事件关系。

以1条事件链为例,如“在高速公路上倒车,罚款200元,并记分12分”,其中,在高速公路上倒车是违法行为,参照违章代码,可以用47011替代,故可将该描述形式化表示为<47011,触发,记分12分><47011,触发,罚款200元>。“在高速公路上倒车”这一违法行为是根据《中华人民共和国道路交通安全法实施条例》第八十二条第一项判定的,且依照《中华人民共和国道路交通安全法》第九十条给予相应处罚,可表示成<《条例》第八十二条第一项,依据,47011><47011,参考,《法》第九十条>。

面向道路交通安全违法行为的图谱构建过程见图2。

图2 交通违法事理图谱基本构建过程示意图Fig.2 Schematic diagram of basic construction process of the traffic violation evolutionary graph

4 道路交通安全违法行为事理图谱构建实例

4.1 数据来源

笔者利用搜索引擎收集与交通违章有关的信息,对返回的文本进行初步筛选与分析后,最终选择以北京市2019年发布的道路交通安全违法行为及处罚记分标准为主要数据源。其中包括了违法行为代码与内容、行为依据及处罚依据与内容,记载了具体的道路交通违法行为和对违法行为的处理。

4.2 信息抽取

根据语料集的特点,利用Bert-BiLSTM-CRF模型抽取事件信息。在抽取交通安全事件时表现良好,其F1值达到0.832,这表明所选用的Bert-BiLSTM-CRF模型能较好地完成交通安全事件的抽取任务。本文最终得到664条常见的道路交通违法行为,5种扣分方式,26种罚款方式,15种其他具体处罚措施,共涉及到536条详细条款。表3展示了部分违法行为对应的代码、行为依据和处罚依据及处罚措施。

表3 北京市道路交通安全违法行为及处罚记分标准(部分)Tab.3 Road traffic violations and penalty standards in Beijing(Part)

4.3 图谱构建

本文采用现今较流行的开源图数据库Neo4j进行事理图谱的存储。Neo4j是由Java语言实现的高性能NoSQL图形数据库,具有更简化的数据建模、由点及面地挖掘知识体系、面向对象的思维、简单的多维度数据表示等明显优势,其提供了完善的图查询语言,能更好、更快速的查询和分析相关数据。Neo4j具有专属查询语言——Cypher语句。笔者将构建的道路交通安全事件相关数据通过Cypher LOAD CSV语句、Cypher CREATE语句、Cypher MATCH语句、Cypher MERGE语句以及neo4j-import工具导入Neo4j数据库。数据库利用颜色、箭头、文字等元素将实体和实体之间的关系以图的方式进行清晰直观地展示。

根据表3数据绘制以道路交通违法行为为中心,以行为依据指向违规事件、违规事件指向处罚依据、违规事件指向处罚事件的有向图谱,见图3。由于表3中结构化数据存在省略,故在进行形式化表示时,需补充省略的部分,以使事件更加完整,最终得到如图3所示的Neo4j数据库中的高速公路通行事件关系,每个圆圈代表1个节点,圆圈之间的有向线段代表实体关系,由原因事件指向结果事件或前1个事件指向后1个事件,图中共包含116个节点,315个关系。该图谱可解释为:依据《条例》第八十二条第一项,在高速公路上倒车属于交通违章行为,参考《法》第九十条和《办法》第一百零四条第七项,给予扣12分、罚款200元的惩罚;依据《法》第四十二条,《条例》第四十五条、四十六条、七十八条,《办法》第三十九条,驾驶中型以上载客汽车在高速公路上行驶超过规定时速50%属于交通违章行为,参考《法》第九十九条第一款第四项、第二款,给予扣12分、罚款1 800元的惩罚,甚至可以吊销驾照,等等。

图3 高速公路通行违章-依据-处罚事理图谱Fig.3 Highway traffic violations-basis-penalties graph

5 基于事理图谱的交通违法问答系统

本文通过收集道路交通违法行为的相关数据,构建相关事理图谱,形成事件知识库,为问答系统提供了知识储备保障。构建针对国内道路行驶过程中违反规定的行为进行依法处罚的知识问答系统,其重点在于正确理解中文问句和准确判别其间的行为事件,从事件知识库中匹配事件,并获取相关信息,返回给用户最优的答案,完成1次问答。面向道路交通违章的问答系统整体框架见图4。

图4 道路交通违法问答系统框架Fig.4 Framework of the question answering system of road traffic violations

5.1 问句分析

汇总用户提问,按照性质对问题进行类别划分,问答系统可以根据不同类别的问题采取不同的答案选择策略,此外候选答案所用的空间将会大大减少。一般情况下,常用的问题分类体系是按照问句中的疑问词语对其进行类别划分,国际上常将问题分为ABBR,DESC,ENTY,HUM,LOC,NUM这6类[26],结合中文的特点,国内常用的中文问题分类体系包括人物(HUM)、地点(LOC)、数字(NUM)、时间(TIME)、实 体(OBJ)、描 述(DES)、未 知(Un-known)[27]。根据表1中的模块,笔者对用户提问进行了总结,发现其中的疑问词大致概括为2种:“是什么(What)”和“怎么做(How)”,故本文选择以问句中的询问对象为标准进行类别划分,主要分为询问处罚、询问法律条款、询问法律条款和处罚、询问违法行为、其他5类,见表4。

表4 问题分类Tab.4 Classification of user questions

5.2 系统实现

利用Python编程语言开发了面向道路交通违法行为的问答系统平台。该平台将交通违法行为、处罚事件、法律条款及其关系存储到Neo4j数据库,利用Python的Django框架进行系统的前后台连接。此外,本文选择现今流行的数据可视化图表库ECharts生成前端的可视化图谱。系统从Neo4j数据库中检索出结果后利用Echarts在前端生成相关关系图,以直观展示事件关系。若用户提供的信息充分,则返回唯一对应违法行为,并根据事理图谱返回相关行为依据、处罚依据及处罚结果,见图5(a);若信息量欠缺,则返回多个包含关键词的违法行为及相应法律条款、处罚结果,以供用户选择,见图5(b)。

图5 交通违法问答系统Fig.5 Road traffic violation retrieval system

6 结束语

针对复杂的道路交通场景,以智慧化为目标,本文提供了1种领域知识库构建方法,并基于所构建的交通违法事理图谱设计开发了问答系统。该项研究在一定程度上弥补了事理图谱技术在道路交通领域的应用空缺。

虽然本文利用事理图谱技术对违法行为、处罚事件、事件关系等进行程序化表达,将事件信息存储到知识库中,结合事件链条完成条件问答,实现长久性的存储和事实性的推理。但由于交通违章事件划分详细,系统在相关反馈方面可以进一步优化,多轮问答让用户补充描述以使事件更加完整。此外,关于交通事件的事实案例较多,若能结合实际,便能为交警提供切合现实情况的判断参考,未来的探索将进一步扩大知识系统在专业领域的应用。

猜你喜欢
事理道路交通图谱
高清大脑皮层发育新图谱绘成
中医药知识图谱应用现状分析及痴呆痰瘀互结证知识图谱构建探索
《道路交通安全法》修改公开征求意见
阐释现象 揭示事理——说明文写作六步曲
绘一张成长图谱
语 丝
道路交通安全宣传口袋书系列
欢迎订阅2017年《道路交通管理》杂志
欢迎订阅2017 年《道路交通管理》杂志
主动对接你思维的知识图谱