大气污染领域本体的半自动构建及语义推理

2021-03-12 11:21张佳慧李建强郎建垒
北京工业大学学报 2021年3期
关键词:本体语义污染物

刘 博, 张佳慧, 李建强, 李 永, 郎建垒

(1.北京工业大学信息学部, 北京 100124;2.北京工业大学区域大气污染控制北京市重点实验室, 北京 100124)

随着我国经济的飞速发展和人口的不断增加,由于工业生产、交通运输和一些自然因素,以各种方式排放到大气中的污染物(如SO2、氮氧化物和可吸入颗粒物(PM10、PM2.5))日益增多,大气污染问题已经严重影响人们的身心健康,也引起了各界的高度关注. 据环保部公布的《2018年中国环境状况公报》显示:2018年,全国338个地级及以上城市中,有217个城市环境空气质量超标,占64.2%. 其中,经济发达、人口稠密的北京空气污染状况尤为严重[1].

为了分析大气污染成因及传播路径,已有一些研究人员提出构建大气领域本体,用于可视化地分析各污染物之间的关系. 国内对于本体的研究大多集中于对本体构建理论和相关应用的研究,如张婷等[2]建立了旅游领域本体,并在此基础上进行语义推理和查询;邓诗琦等[3]提出一种面向智能应用的领域本体构建方法,以反电话诈骗领域为例,在智能反诈需求驱动下构建反诈领域本体;岳丽欣等[4]选取了8种国外较为成熟的本体构建方法进行分析和对比,之后对国内的领域本体构建方法进行总结,得出领域本体将逐渐转向半自动化/自动化的构建方法. 目前,本体的构建主要有2种方法:一种是自顶向下(top-down)的构建模式[5],利用机器学习、自然语言处理技术自动或半自动地建立本体;另一种是自底向上(down-top)的构建模式[6],一般由大量专家或用户共同参与,手动构建领域本体. 领域本体构建大多以斯坦福大学“七步法”为基础:第1步,确定领域本体所要覆盖的领域及范围;第2步,评估重用既有本体的可行性;第3步,列出本体的重要术语;第4步,确定类和类的等级体系;第5步,定义类的属性;第6步,定义属性的分面;第7步,创建实例.

大气领域也有部分研究人员将本体与大气结合构建或应用本体. 陈梅等[7]手动建立了大气领域的基础本体,可视化地反映出大气污染物、污染源以及气象因素的相互关系;刘菲京等[8]提出了一种大气污染突发事件本体模型,着重对大气污染突发事件的知识进行表示;Oprea[9]将本体应用于大气污染的分析与控制;江河等[10]构建了太原市空气污染知识本体,并在此基础上解析和推论,产生决策支持信息.

大气污染领域本体的构建最重要的,也是最基础的一步就是抽取实体和关系,传统的领域内实体识别和关系抽取可分成2个独立的任务来实现,通常基于深度学习模型,比如条件随机场(conditional random field,CRF)模型和长短时记忆网络(long short term memory,LSTM)模型,进行信息抽取,这在一定程度上忽略了实体和关系之间的联系. 随着序列到序列(sequence to sequence,Seq2Seq)模型的提出,实体关系抽取逐渐转化为序列标注问题,将实体关系抽取看成一个联合任务实现. 在通用文本中,实体识别任务较为流行的模型是LSTM- CRF模型[11],实验结果表明该模型已经达到或者超过了基于丰富特征的CRF模型. 高翔[12]针对军事领域着重研究了基于统计机器学习和基于深度学习的命名实体识别模型和关系抽取模型,进一步提升了模型的自动化和性能. 目前,针对大气污染领域特点进行实体关系抽取方法的研究还比较少.

然而,现有方法构建的大气污染本体仍不够全面,无法确切反映出大气污染传播路径和污染物、污染源等之间的关系,在实体识别和关系抽取方面存在误差累积问题. 为解决这些问题,本文针对大气污染领域,提出了一种基于注意力机制的序列标注联合抽取实体关系的方法,挖掘核心概念并添加到本体中,通过机器学习和自然语言处理等相关技术半自动地构建大气污染领域本体. 该方法以斯坦福大学“七步法”为基础,采用自顶向下的构建方式,构建了一个更加完整的大气污染领域本体,并在此基础上进行语义推理,为后续的大气污染领域研究提供理论和实践基础.

1 本体的半自动构建

1.1 构建方法

大气污染领域本体构建以斯坦福大学“七步法”为基础,详细构建步骤如下:

1) 确定领域本体所要覆盖的领域及范围为大气污染领域,本研究目的在于建立完善的大气污染领域本体,研究人员可将该本体应用于其他研究,如空气质量指数(air quality index,AQI)预测、推测大气污染与交通运输之间的关系等.

2) 经评估,确定目前还没有可以重用的大气污染领域本体.

3) 列出大气污染领域本体的重要术语,如与评价指标相关的术语“PM2.5”“PM10”,与污染源相关的术语“交通运输”“工业污染”等.

4) 确定领域内类和类的等级体系,将大气污染领域实体分为若干个大类和小类,并确定大小类间的从属关系,如“污染源”“污染物”“影响因素”等类,下文将详述步骤3及步骤4所涉及的知识抽取方法与抽取结果.

5) 定义大气污染领域关键类的属性,如评价指标PM2.5的属性.

6) 定义大气污染领域关键属性的分面.

7) 为了分析传播成因和规律,添加北京市环境保护监测中心发布的2017年北京市空气质量数据作为实例.

1.2 实体关系抽取

本研究根据实际情况对“七步法”中的第3步列出本体的重要术语与第4步确定类和类的等级体系进行了整合,即本文提出的知识抽取方法. 在传统的Seq2Seq实体关系抽取模型的基础上加入注意力机制[13],对模型做出改进,并参考Zheng等[14]提出的实体关系联合标注方法,最终提出了结合Seq2Seq模型和注意力机制的实体关系联合抽取方法. 实体关系联合抽取加深了实体和关系之间的内在联系,其次在解码层引入注意力机制,在标注时可以更加关注与目标词语相关的词语和标注结果,从而提高输出的质量.

构建大气污染领域本体需要添加大量领域内的实体关系,而目前可以获得的大气污染相关资料都属于非结构化数据. 非结构化数据就是没有固定结构的数据,这里常用的非结构化数据是指纯文本[15],针对此非结构化文本提出了一种联合抽取实体关系的方法. 先将海量的中文语句语料进行去噪等预处理,然后进行分词,将单个的词语转换成向量表示,这样可以作为双向LSTM的输入对单个词语进行编码. 使用双向LSTM不仅可以学习长期和短期依赖信息,还可以同时将输入层的数据经过向前和向后2个方向推算,从而学习过去的上下文信息和未来的上下文信息,这对语句的序列标注是非常有益的[16]. 然后在解码层引入注意力机制[17],使得解码生成标注序列时可以得到前面编码阶段每个字符隐藏层的信息向量,充分利用输入序列携带的信息. 最后,通过Softmax[18]计算每个词的实体标签化概率,可有效得出最终的标注序列并进行实体及其对应关系的组合. 实体关系联合抽取流程如图1所示.

图1 实体关系联合抽取流程Fig.1 Process of entity relationship joint extraction

1.2.1 数据预处理

获取开放领域的实体关系数据集,并对数据集中的所有数据进行去噪处理,包括:去除无用空白字符、大写字母转换成小写等;将数据集分成训练集和测试集;建立用户自定义词典,比如长词和专有名词,并利用哈尔滨工业大学自然语言处理工具LTP对语句进行分词.

1.2.2 序列标注

常用的序列标注方法有开始- 中间- 结尾- 单个字符- 其他(begin-middle-end-single-other,BMESO)标注法和开始- 中间- 结尾(begin-inside-outside,BIO)标注法[19]等,由于大气污染领域专用名词和长词较多,所以采取更为细致的BMESO标注法. 标注序列应包括词在实体中的位置、对应的关系和在关系中的角色,根据标注序列组合得到实体关系. 序列标注实例如图2所示.

图2 序列标注实例Fig.2 Example of sequence annotation

1.2.3 Seq2Seq+注意力模型

为了通过标注序列联合抽取实体关系,采用Seq2Seq模型联合注意力机制实现从句子序列到标注序列的转换. 首先经过词嵌入层将高维空间(空间的维度通常是词典的大小)中的表示词的高维向量映射到低维(几十维)连续空间中的向量,即将句子转换成向量表示. 然后把得到的词向量作为双向LSTM的输入进行编码,包括2个平行的LSTM层:正向LSTM层和反向LSTM层,分别进行向前计算和向后计算. 最后经过解码层的LSTM将之前生成的向量输出成标注序列,并在其中加入注意力机制,让生成的标注不是只能关注全局的语义编码向量,而是增加了一个“注意力范围”,表示接下来输出标注时要重点关注输入序列中的哪些部分,然后根据关注的区域来产生下一个输出. 最终解码得到的标注序列应包括这个词在实体中的位置、对应的关系和在关系中的角色,根据标注序列组合得到实体关系. 这就得到了一个基于序列标注和LSTM注意力机制的实体关系联合抽取方法,模型结构如图3所示.

图3 模型结构Fig.3 Structure of model

采用Seq2Seq模型,首先使用维基百科的语料训练300维的词向量(word to vector,Word2Vec)模型,经过Word2Vec生成的词向量映射矩阵,获取每一个词对应的词向量,整个语句的词向量表示为{w1,w2,…,wn},wn表示第n个词语的词向量. 然后将词向量输入到双向LSTM编码层中,它包含正向LSTM层、反向LSTM层和连接层. 最后通过双向LSTM编码层对上下文信息和语义信息进行编码,正向LSTM从w1到wn,反向LSTM从wn到w1,并在神经元的隐藏层输出整个语句的编码向量,计算公式为

it=δ(Wwiwt+Whiht-1+Wcict-1+bi)

(1)

ft=δ(Wwfwt+Whfht-1+Wcfct-1+bf)

(2)

zt=tanh (Wwcwt+Whcht-1+bc)

(3)

ct=ftct-1+itzt

(4)

ot=δ(Wwowt+Whoht-1+Wcoct+bo)

(5)

ht=ottanhct

(6)

式(1)(2)(3)(5)的i、f、z、o分别为输入门、遗忘门、更新门、输出门;式(4)中的ct表示t时刻的细胞状态;式(6)中的ht表示t时刻的输出;式(3)中的Wwc和Whc分别表示词的细胞状态的参数和输出的细胞状态的参数;式(1)(2)(3)(5)中的Wwx、Whx和Wcx分别表示x门的词的参数、输出的参数和细胞状态的参数,wt表示第t个输入,b表示偏置损失,δ表示Sigmoid激活函数. 采用LSTM结合注意力机制进行解码,使模型学习上下文在实体中的位置和在关系中的角色,最终解码的结果由上一时刻预测的结果yt-1、这一时刻的输入st和与此时刻相关的上下文标注序列qt得到,计算公式为

p(yt|y1,y2,…,yt-1,q)=g(yt-1,st,qt)

(7)

(8)

式中:Lx表示语句的长度;atj表示输入语句中第j个单词标注的注意力分配系数;hj表示第j个单词的语义编码;qt表示t时刻相关的上下文标注序列.

最后输出解码后的序列,得到一个基于序列标注和LSTM注意力机制的实体关系联合抽取方法.

传统的实体关系抽取方法往往忽略了实体和关系之间的内在联系,而本文提出的方法联合抽取实体关系,避免了先抽取实体再抽取关系导致的误差累积问题,加深了实体和关系之间的内在联系,并且不需要复杂的特征工程就能学习到长短期依赖信息. 另外,与传统的实体关系抽取模型不同的是,在解码层引入注意力机制可以减小处理高维输入序列的计算负担,通过结构化地选取输入的子集降低数据维度,同时让任务处理系统更专注于找到输入序列中显著的与当前输出相关的有用信息,从而提高输出的质量.

1.3 核心概念挖掘

在实体关系联合抽取之后,使用词频- 逆文档频率(term frequency-inverse document frequency,TF-IDF)进行核心概念挖掘. TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类[20]. TF-IDF实际上是:TF×IDF. TF是指特征项在文档中出现的次数. 特征项可以是字、词、短语,也可以是经过语义概念词典进行语义归并或概念特征提取后的语义单元[21].

(9)

式中:分子是该词在文件中的出现次数;分母是在文件中所有字词的出现次数之和.

IDF是特征项在文档集分布情况的量化[22]. 某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到,公式为

(10)

式中:|D|为语料库中的文件总数;|{j:ti∈dj}|为包含该词语的文件数目.

最后计算TF-IDF.

TF-IDFi,j=TFi,j×IDFi

(11)

根据TF-IDF的权重对抽取出的概念进行排序,并且将抽取出的实体和核心概念进行知识整合,得到核心实体. 核心实体即为在本体较为重要的并且与各个主类联系较为紧密的实体,可为后续语义推理提供重要支撑.

1.4 实例添加

在完成第3步列出本体的重要术语及第4步确定类和类的等级体系之后,根据“七步法”需定义类的属性和属性的分面,为了给相关类添加实例,需要对关键的类进行如下定义.

AQI:{Date:Int, Value:Int}

PM2.5:{Date:Int, Value:Int}

PM10:{Date:Int, Value:Int}

大气污染本体模型构建完成后,进行“七步法”中的最后一步——添加相关实例. 实例数据来自于北京市环境保护监测中心发布的2017年北京市空气质量数据,在本体中添加了4月份的历史数据,包括每日的空气质量指数、各项污染物的空气质量分指数、超标污染物、首要污染物和空气质量等级等指标的历史记录. 至此大气污染领域本体构建完成,可以在此基础上进行推理.

2 语义推理

本研究通过目前最广泛使用的本体构建工具Protégé构建大气污染领域本体并使用其进行语义推理.

Protégé是斯坦福大学开发的本体构建编辑工具,具有资源开放、可扩展、存储方式多种多样、支持多种语言表示、界面简洁和支持中文编码等优点. 同时,它还自带FaCT++和HermiT 1.3.8推理机以进行本体上的语义推理. 通过本体推理,可以将隐含在显式定义和声明中的知识提取出来,从而为数据增加语义信息.

2.1 条件推理

条件推理通过Protégé的SPARQL Query模块实现,即使用SPARQL语言对创建的本体进行查询,获取查询结果.

资源描述框架(resource description framework,RDF)是一种描述数据文件储存的数据模型,这种数据模型由3个部分(即主语、谓语和宾语)构成,被称为三元组. SPARQL是针对RDF开发的一种查询语言和数据获取协议,它是为万维网联盟(World Wide Web Consortium,W3C)所开发的RDF数据模型定义的,但是可以用于任何可以用RDF表示的信息资源[23]. 本研究通过SPARQL Query模块查询“2017年4月份,空气污染指数超标的日期”,其表示为

PREFIX rdf: 〈http:∥www.w3.org/1999/02/22-rdf-syntax-ns#〉

PREFIX owl: 〈http:∥www.w3.org/2002/07/owl#〉

PREFIX xsd: 〈http:∥www.w3.org/2001/XMLSchema#〉

PREFIX rdfs: 〈http:∥www.w3.org/2000/01/rdf-schema#〉

PREFIX sw: 〈http:∥www.semanticweb.org/administrator/ontologies/2018/0/untitled-ontology-17〉

SELECT ?AQIx?AQI_Data ?Date_Data

WHERE {

?AQIx rdf:type sw:AQI.

?AQI_Datax sw:AQI_D ?AQI_Data.

?AQIx sw:Date ?Date_Data.

FILTER (?AQI_Data>100).

}

2.2 可视化推理

本研究通过本体推理机实现基于Protégé的可视化推理. 本体推理机是实现语义检索和知识推理的重要技术. 目前,一些本体推理系统已经成功应用于知识推理和语义Web查询,其中常见的主要有本体推理引擎、W3C测试本体、基于描述逻辑的推理引擎以及一些推理引擎集成语义Web开发平台和本体管理系统[24]. 知识推理技术是基于本体知识库的. 实现本体推理的主要技术[25]如下:

1) 基于传统描述逻辑的推理方法,以Pellet、FaCT++、Racer为典型代表.

2) 基于规则的方法,以Jess和Jena为代表,将本体推理作为类应用,通过将本体映射到规则推理引擎来完成推理.

3) 基于演绎数据库技术,采用逻辑规划法实现基于演绎数据库技术的本体推理.

4) 基于一阶谓词证明的方法. 由于网络本体语言(Web ontology language,OWL)声明语句可以很容易地转换,所以OWL推理可以很容易地在传统的一阶谓词验证器的基础上实现. 例如,Hoolet本体推理机就是基于Vanpire一阶谓词证明器来实现该问题的推理.

为了可视化推理大气污染中各个污染物的传播路径,在本体中添加关系,参考大气污染领域相关文献,除本体自带的从属关系subclass of 外,人工选取affect、positive_correlation、negative_correlation、lead_to、produce五种关系添加到本体中,其中positive_correlation、negative_correlation同样通过阅读相关文献确定,并将对应的实体通过关系链接起来,关系列表如表1所示,其中包括由于从属关系和关系传递性产生的关系.

表1 各个实体之间的关系Table 1 Relationships between entities

续表1

最后通过Protégé自带的HermiT推理机和各关系的传递性、对称性等特性对构建的大气污染领域本体进行可视化推理.

3 结果

3.1 知识抽取结果

不同于开放领域关系抽取,大气污染领域内实体关系抽取在更大程度上受制于大气污染物、污染源等之间的父子包含关系或者相互影响关系. 因此,针对大气污染领域实体关系抽取,本文选取了百度百科相关词条(包括大气、大气污染、空气质量、大气悬浮物、大气质量、大气成分、大气离子、可吸入颗粒物等词条)作为原始语料,采用结合注意力机制的实体关系联合抽取方法提取非结构化文本,结合上文中提到的核心概念挖掘方法和相关文献对提取的实体进行权重排序和人工筛选,将权重较高并且在相关文献中描述较为详细的列为核心实体,以保证知识图谱的可用性和准确性. 最后挖掘关键字和实体,并进行序列标注. 最终提取了68个大气污染领域的核心实体,相较于现有的大气污染领域本体更全面. 实验提取出的大气污染领域部分核心实体如表2所示.

表2 大气污染领域部分核心实体Table 2 Some core entities in the field of air pollution

3.2 本体构建结果

经过知识抽取、人工筛选和知识整合,最终得到的大气污染领域本体包括五大主类,在传统的大气污染领域本体(包含污染物、污染源)的基础上,又增加了影响因素、评估指标和危害类,使得本体构建更加完善,包含的范围更广. 其中:Pollutant(污染物)包括Aerosol(气溶胶状态污染物)和Gas(气体污染物);Aerosol(气溶胶状态污染物)包括PM10和PM2.5;Gas包括CO、NO2、O3、SO2. Pollutant_source(污染来源)包括人为的Athropogenic_pollution_source和自然的Natural_pollution_source,人为的Athropogenic_pollution_source包括Artificial_production_source(农业生产)、Fuel_combustion(燃料燃烧)、Industy_production(工业生产)和Transportation_production(交通运输). 影响因素(Influencing_factors)包括Area_factors(地区因素)和Meteorological_factors(气象因素)等. Evaluation_index(评估指标)包括AQI. Harm(危害)包括对Agriculture(农业)的危害、对Human(人类)的危害以及对Industry(工业)的危害等. 此外,本文在五大主类的基础上分层,自顶向下构建小类,最大层数为5层,不同于其他大气污染领域本体只关注具体污染物,本文添加了大气污染物组成离子,比如工业生产所产生的的金属粉末,主要成分是Fe3+、Zn2+,二次硝酸主要成分是NO3-,建筑粉尘的主要成分是K+、Ca2+等,使得大气污染领域本体更加细致.

最终在protégé上构建的本体类层次如图4所示,模型见附录B.

图4 本体类层次Fig.4 Class hierarchy of ontology

由于本体是不断演化的,所以本体的评价标准也在不断变化,目前还没有比较完善的评价体系,本体评价方法需要根据不同的背景和目的选择. 目前,本体评价方法主要有基于指标体系的本体评价、基于任务或应用的本体评价、基于数据驱动的本体评价、基于黄金标准的本体评价、基于逻辑或规则的本体评价和基于统计分析的本体评价等[26]. 本文选取研究最多的评价方法,即基于指标体系的本体评价,通过以下几个指标对所构建的大气污染领域本体进行评价.

1) 本体的全面性. 现有的大气污染领域本体主要包含污染源和污染物,核心实体46个,并且没有添加相关实例. 本文重新构建了大气污染领域本体,除了污染源和污染物等核心概念,增加了影响因素、评估指标和危害3个大类及其子类,并将污染源细化到工业生产、交通运输、燃料燃烧和农业生产等所产生的离子. 该本体包含核心实体68个,实例数360个,并且添加了2017年4月中每天的AQI,AQI等级,PM2.5、PM10、CO、NO2等污染物质量浓度,该本体对知识的覆盖范围更加全面、分类更为细致.

2) 本体的有效性. 本研究在本体构建完成后进行了条件推理和可视化推理,得到一些离子的传播路径和来源等,推理结果与国家气象中心研究结果大致吻合,从实际应用角度证明了本体的有效性.

3) 本体的准确性. 在半自动化/自动化构建的过程中由于分词、实体关系抽取等原因在自动抽取时可能会产生噪声数据,这在一定程度上会影响本体的准确性,但本研究不仅通过实体关系抽取和核心概念挖掘抽取核心实体,还通过人工筛选保证了本体的准确性.

4) 本体的可重用性. 由于本体是在Protégé上构建的,其资源开放、可扩展和易存储等优点使本体重用十分便捷.

综上所述,本研究所构建的大气污染领域本体在全面性、有效性、准确性和可重用性方面都有较好表现,结果具有一定的实用价值,也可为基于本体的语义推理提供支撑.

3.3 语义推理结果

3.3.1 条件推理

2017年4月空气污染指数超标的日期如表3所示.

表3 2017年4月空气污染指数超标日期Table 3 Date of air pollution index exceeded in April, 2017

由推理出的结果可以得出,北京市2017年4月空气污染指数超标的天数为8 d,占总天数的26.67%,这严重影响了人们的生产生活,亟待分析大气污染物及其传播路径并提出大气污染防治建议.

3.3.2 可视化推理

通过Protégé自带的HermiT推理机对Ca2+和K+等进行推理. Ca2+和K+的OWL Viz推理结果如图5所示,得到Ca2+的传播路径为

图5 Ca2+和K+的OWL Viz推理结果Fig.5 OWL Viz reasoning results of Ca2+ and K+

Ca2+& K+→Construction_dust→Industry_production→Anthropogenic_pollution_sources→Pollutant_source

基于OntoGraf的推理结果如图6所示.

图6 Ca2+和K+的OntoGraf推理结果Fig.6 OntoGraf reasoning results of Ca2+ and K+

基于OWL Viz和OntoGraf的推理结果证明Ca2+、K+主要来源于人为污染中的工业污染,并且与危害类成正相关的关系,因此,Ca2+、K+质量浓度增大将会对农业生产、人类呼吸道疾病、癌症发病率和工业生产造成影响. 在实用价值方面,通过推理结果的分析,希望对涉及污染的工厂的排泄废物进行更加严格的检测与监督,并着重于上述金属盐离子质量浓度的检测,设置更加规范的废气排放标准.

Pb2+和Co2+的OWL Viz推理结果如图7所示,得到Pb2+和Co2+的传播路径为

图7 Pb2+和Co2+的OWL Viz推理结果Fig.7 OWL Viz reasoning results of Pb2+ and Co2+

Pb2+& Co2+→Vehicle_exhaust_dust→Transportation_production→Anthropogenic_pollution_sources→Pollutant_source

基于OntoGraf的推理结果如图8所示.

图8 Pb2+和Co2+的OntoGraf推理结果Fig.8 OntoGraf reasoning results of Pb2+ and Co2+

基于OWL Viz和OntoGraf的推理结果表明,Pb2+、Co2+主要来源于人为污染中的交通运输产生的废气粉尘,并且与危害类成正相关的关系,因此,Pb2+、Co2+质量浓度增大很有可能会增加交通发达地区的空气污染程度,对人类和工农业生产造成负面影响. 在实用价值方面,通过推理结果的分析,希望对交通发达地区的车辆废气排放制定标准,倡导人们乘公共交通出行,或者加大新能源汽车的推广宣传力度,以控制此类污染离子的质量浓度增加.

以上对大气污染成因的推理与国家气象中心研究结果大致吻合,同时明确了Ca2+、K+、Pb2+和Co2+的传播路径,从离子角度分析,证明了本研究对大气污染成因及防治的意义.

4 结论

1) 提出一种基于注意力机制的实体关系联合抽取方法对大气领域非结构文本数据进行实体关系抽取,避免了先抽取实体再抽取关系导致的误差累积问题,加深了实体和关系之间的内在联系.

2) 结合核心概念挖掘方法进行知识抽取,描述大气污染各个主类及子类之间的关系,实现了半自动地构建大气污染领域本体模型.

3) 在所构建的本体模型上进行语义推理,为大气污染的传播路径推演、成因分析和空气质量预测提供了数据支撑.

4) 在未来的工作中,会继续丰富该本体模型,包括概念和关系等,添加更多关于空气质量、天气状况或者交通运输方面的实例数据,尝试提高本体构建的自动化程度,以便于更加全面、便捷地分析大气污染成因等.

附录

附录A 大气污染领域本体列表

表A1 大气污染领域本体列表Table A1 List of air pollution domain ontology

续表A1

附录B Protégé中的大气污染领域可视化本体模型

猜你喜欢
本体语义污染物
真实场景水下语义分割方法及数据集
继齐韵往昔,以今声开来——思考自五音戏主奏乐器的演变、本体及延伸
不同取样方式下船机污染物排放结果的研究
菌株出马让畜禽污染物变废为宝
你能找出污染物吗?
眼睛是“本体”
陆克定:掌控污染物寿命的自由基
“吃+NP”的语义生成机制研究
汉语依凭介词的语义范畴
专题