渠寒花,惠建忠,何险峰,王慕华,何晓凤,丰德恩
QU Hanhua1,HUI Jianzhong1,HE Xianfeng2,WANG Muhua1,HE Xiaofeng1,FENG De’en1
1.中国气象局 公共气象服务中心,北京 100081
2.四川省农村经济综合信息中心,成都 610072
1.Public Meteorological Service Center,China MeteorologicalAdministration,Beijing 100081,China
2.Rural Economic Information Center of Sichuan,Chengdu 610072,China
气象科学技术以气象知识造福人民为最终目的[1],并通过服务体现价值。气象服务本质是气象知识的服务,气象服务知识的发现、传播和共享为更好开展气象服务奠定了基石。在气象服务领域中,领域概念及其关系构成了气象服务知识的主体,通常以指标、规则的方式,描述气象服务对象和气象定量要素间的关系。客观化、规范的知识获取和表示方法是气象服务知识传播和共享的有效途径。W3C发布的网络本体语言OWL(Web Ontology Language)[2-3],为网络知识语义层次的共享和互操作提供了标准和规范。随着知识表示与专业气象服务不断深入,概念间存在的冗余逻辑关系、隐含关系难以直接在本体层发现和表述。因此,分析特定气象服务领域背景下概念结构的构成,对指标、规则进行重组优化,为建立更加简洁本体知识库提供科学依据,成为不可或缺的重要步骤。形式概念分析以数学思维方式进行概念分析,理所当然成为气象服务概念处理的理论基础。
形式概念分析(Formal Concept Analysis,FCA)是抽象代数的一个分支,由Wille教授在1982年[4]提出,用于概念的形式分析、发现和排序。在形式概念分析中,概念是概念外延和概念内涵的抽象。外延是父概念所包含子概念对象的集合;内涵是概念对象特征或属性的集合[5]。外延和内涵的关系通过概念格,以Hasse图方式描述概念间的偏序关系结构[6]。目前,形式概念分析作为一种重要的离散数据分析和知识获取方法,广泛应用于机器学习、信息检索、软件工程等领域[7]。但是,使用形式概念分析指导气象服务知识处理尚处于起步阶段。何险峰等人虽然基于数理统计和逻辑学,实现了气象服务领域灾害本体设计和应用[8-9],但未能实现本体模型与形式逻辑理论的有效统一,也尚未获得适用于气象服务领域的统一解决方案。智慧来等深入研究了形式概念分析中的对象概念与属性概念[10];毛华等提出了一种等价关系约束属性形式概念分析方法[11];张斌等基于形式概念分析与统计理论,构建本体模型[12],为气象服务领域基于形式概念分析,进行知识发现和表示提供了理论基础;文献[10-11]仅从FCA理论角度出发,解决了概念格构建及其关系优化算法,未能结合具体的服务领域,获得切实可用的形式概念分析本体知识库并开展服务应用;文献[12]虽然结合政务领域,提出基于统计理论的概念格造格算法,但未能结合描述逻辑规范,实现从数据到知识的本体构建和智能推理应用。
本文从气象服务多值形式背景出发,研究通过数理逻辑、OWL2语法规范和本体知识库实现领域概念关系的可视化表达,构建了符合本体知识库管理需求的气象服务形式概念分析一般模型。提出了基于一阶谓词表达多值背景属性,应用布尔代数范式表达复杂命题,实现气象领域数据向知识转化应用,为领域隐含概念关系知识发现和表示提供了更为理想的解决方案。
定义1(形式背景)三元组K=(G,M,I),其中,G是对象集合,M 是属性集合(Attributes),I⊆G×M 是G与M 之间的一个二元关系(Incidence),gIm表示概念g受属性m的影响,通过谓词逻辑作用。
定义2(概念的内涵和外延)形式背景K=(G,M),上的一个形式概念(简称概念)定义为一个二元组(A,B),满足:A⊆G ,B⊆M ,A′=B,B′=A,其中,A称为概念(A,B)的外延,B称为概念(A,B)的内涵。
定义3(概念格)(A,B)和(C,D)是形式背景K=(G,M,I)上的任何两个概念,称(A,B)是(C,D)的超概念(等价的,(C,D)为(A,B)的子概念),当且仅当B⊆D(等价的,C⊆A),记为(C,D)≤(A,B)。即:(C,D)≤(A,B)⇔B⊆D(⇔C⊆A),通过这种序关系,得到一个有序集B(K)=(B(K),≤),称为形式背景K的概念格。
具有以下性质:
(1)等幂(idempotent):A″″=A″
(2)单调(monotonic):A1⊆A2→A1″⊆A2″
(3)延展(extensive):A⊆A″
定义4(偏序集)设L为一集合,x,y,z∈L.L上的一个二元关系F,且满足自反性、反对称性和传递性,称为偏序,具有偏序关系F的集合L称为偏序集,记为(L,F)。
定义5(全序集)设(A,≤)是一个偏序集,≤是其偏序关系。若对于任意的元素x,y∈A,都有x≤y或y≤x成立,即x和y是可比的,则称≤为一个全序关系,(A,≤)为全序集。
定义6(哈塞图)设(S,≤)是偏序集,图(V,E)称为(S,≤)的哈塞图。这里S=V,E={(x,y)|x∈V,y∈V,x≤y},x是y的下邻近。
定义7(上邻近、下邻近) x称为 y的下邻近,当x<y,且没有z满足x<z<y,这时也称y是x的上近邻,并且记做x≤y。在概念格中,一个概念的下近邻是它的子概念,一个概念的上近邻是它的父概念。
如图1所示给出了由形式背景、概念格、本体知识库、知识库应用组成的形式概念分析模型。该模型从纵向看,阐述了在形式概念分析下,由形式背景分析、概念格构造、知识库构建,并进行应用的理论研究;从横向看,讨论了以知识代理为中心,实现气象观测数据经过推理得到气象服务知识,并进行应用的实践过程。该结构模型的物理意义可表示为:
(1)形式背景。是形式概念分析的起点,也是通过谓词化定义多值背景属性并转换为单值形式背景,进而表达气象服务领域内涵和外延的过程。分解后的单值形式背景,其内涵是气象服务领域中基础气象影响因子集合,外延是概念等级尺度上的全序集合,形成了一套便于概念格逻辑分析基础,构成了概念格概念结构的主体。
(2)概念格。将形式背景阶段获取的气象服务概念和关系用概念集合表示,也是形式概念分析理论的核心数据结构。描述了领域概念间的层次关系,通过Hasse图的形式表现气象服务概念内涵和外延在序集上的分级关系,为气象服务形式概念模型向本体知识库映射,利用描述逻辑表达概念相关性提供了方法。
图1 气象服务形式概念分析模型
(3)本体知识库。将概念格中已经获取的对象和关系,应用OWL2描述逻辑规范和布尔代数表达式进行等价关系描述,也是其利用开源软件进行工程化的过程。这一步骤,为气象服务领域对象和关系向本体知识转换、气象观测数据向气象服务知识转换,和知识库智能代理应用提供了知识基础。
(4)知识库应用。是开展形式概念分析和本体知识库设计的最终落脚点。由观测数据库、智能代理和知识应用的信息服务系统构成。通过Jena语义推理和网络传输手段,对形成的气象服务本体文件分析处理,将实时观测数据通过智能代理转化为气象服务知识,并结合特定服务领域需求进行气象服务应用。
根据模型顶层设计,将气象服务形式概念模型设计分为气象服务多值背景分析、概念的布尔代数范式表示和概念符号化三个层次,每部分工作基于上一环节展开,因此也是气象服务从形式概念形式背景分析到本体知识库应用的过程设计。
气象服务形式概念分析从形式背景开始。气象服务知识由概念和概念间的关系构成,表现为基础气象观测因子与指标、规则及属性值间的关系。对象-属性-值关系是一种对现实问题解析的数据结构,在形式概念分析中被定义为多值背景[13]。
定义8(多值背景)一个多值背景(G,M,W,I),其中G是对象集,M是多值属性集,W是属性值的集合,I是它们之间的三元关系,I⊆G×M×W,使得对任意 g∈G,m∈M ,最多只有一个值w∈W 满足(g,m,w)∈I,即(g,m,w)∈I和 (g,m,v)∈I总蕴含有w=v,表明相同的对象的同一个属性项的值应该相等;用(g,m,w)∈I,表示“对于属性m,对象g具有属性值w”。
形式背景描述了内涵和外延的二元关系,而多值背景的属性具有多值特征,需要根据合适的领域意义和知识将其向形式背景分析和转换,这就需要首先通过形式概念分析去厘清气象服务领域中概念关系,进而实现概念格构建和本体知识表达。形式化方法能有效避免二义性和语义不完整,为多值属性关系的多值属性提取、定义和转换[14]提供了思路。因此,以基于一阶谓词定义的多值背景属性为基础,建立气象服务领域关系外延、内涵与基本气象因子、时间、地域等要素之间的三元关系,以实现多值背景转换分解和领域本体知识描述的目标。
一阶谓词表示以分段函数和命题函数定义和应用为出发点。在气象服务关系定义中,分段函数表示为基础气象因子与时间变量关系的数学模型。如气象灾害中暴雨与降水量、台风与风速等存在分段函数关系。
定义9(分段函数)设x是气象观测要素,如降水量、温度、能见度等数据,x∈[x1,x2]表示为全序集(zi,≤)时间范围内气象因子的分段函数zi:
一阶逻辑是人工智能中较常用的知识表达方法,用谓词和量词表示,提供了良好的阶段推理和决策效率。由表1给出的概念定义,可以看出气象因子与概念间存在分段函数和一阶逻辑的联系。
定义10(一阶逻辑)设x是时间尺度、空间尺度范围内的气象因子,p(x)是气象因子x的命题函数,对分段梯度函数的全序集(zi,≤),zi的一阶逻辑表示为:
表1 以一阶逻辑定义多值背景属性举例
气象服务本身就是一个个复杂的命题逻辑,其概念外延是多个概念内涵共同作用的结果。基于谓词和量词的概念定义和应用(如表1),能更深刻地刻画气象服务的基本概念。在使用OWL2规范构造本体知识库时,当简单命题无法表达气象服务复杂概念时,基于组合逻辑运算关系的布尔代数合取范式及德摩根律,成为解决复杂关系表达的重要方法。
例1以气象电力服务中的风偏红色预警灾害为例,表示为降水量、变温、变湿等多个气象因子一阶逻辑定义和复合命题描述。
x:地面小时降水量
t1:1小时变温
t2:2小时变温
rh1:1小时变湿
rh2:2小时变湿
复合命题中包括了谓词逻辑和布尔运算多种逻辑关系,表达关系较为混杂,出现问题后较难查找症结,将复合命题逐层分解,可获得基于一阶逻辑和布尔代数范式表示。其中,一阶谓词逻辑属性定义和正确性验证在描述逻辑的属性定义中,而不在范式中进行,最大程度提升范式推理效率。对于较为复杂的气象服务概念表示,本方法尤为有效。
合取范式表达为多个命题的数理逻辑运算,在复杂概念情况下,可表示为多个气象因子共同作用的因果关系,能获得较高的推理效率,而德摩根定律能实现具体情境下,析取范式向合取范式的转化。
定义11(合取范式)设A是一个谓词逻辑公式,A中出现的命题变元为p1,p2,…,pn,以Qi表示pi或┐pi,i=1,2,…,n。称 Q1∧Q2∧…∧Qn是 p1,p2,…,pn的一个合取项,若干个互不相同的析取项的合取称为一个合取范式,与命题公式A逻辑等价的合取范式称为A的合取范式。
定义12(德摩根律)在命题逻辑和逻辑代数中,德·摩根定律是关于命题逻辑规律的一对法则。在命题逻辑中存在着下面这些关系:
根据德摩根律,例1改进为:风偏红色预警≡P(x)∧P(t1)∧(⇁P(t2))∧P(rh1)∧(⇁P(rh2))。
结合数理逻辑中的一阶谓词,实现了气象服务领域多值背景向形式背景的转换,而布尔代数合取范式和德摩根律,为气象服务形式背景中概念和外延的表示,提供了有效的形式语言表示方法,为气象服务形式概念分析和本体知识表达提供了数学基础。
有效的符号标识能促进气象服务领域知识传播和共享。对本体结构ontology=<C,O,D,E,A>中的类、数据属性、对象属性、逻辑等价类和公理进行符号化约束,形成了气象服务形式概念分析的简明表达,将有助于类等价关系表达和DL Query推理。符号化主要包括如下三方面:(1)对描述逻辑中的基本属性、类和个体,使用有语义联系的命名作为主体,而非汉语词汇。(2)数据属性是连接本体和智能代理的中间数据定义。采用在气象服务领域广泛认可、无歧义的术语,推荐使用同一英文命名,便于数据资源统一获取和应用,无需重复定义。(3)同一本体模型内定义的概念、数据属性、对象属性、基本属性命名唯一,避免二义性带来的推理悖论。
由于气象服务覆盖领域广,信息资源庞大,尤其是与气象服务密切相关的专业服务领域,交通、电力、水文等,具有形式背景复杂和实用性强的特点。为了提高知识获取和表示质量和效率,以第4章形式概念模型构建方法为基础,从公路交通气象服务和电力气象服务需求出发,给出气象服务形式概念模型下从形式背景分析、概念格生成到本体知识库构建和应用的过程。
5.1.1 公路交通气象服务形式背景分析
公路交通出行受到多个基础气象要素的影响和制约,研究不同气象要素对公路交通出行的综合影响,对更好地开展气象服务意义重大。国家级气象服务部门综合研究分析天气、能见度、风力等多个高影响天气要素对公路交通出行的影响,建立了公路通行的气象条件模型[15]。基于此模型,结合形式概念分析模型设计,建立了公路交通气象形式概念分析形式背景,揭示气象要素与公路通行条件的相关性,为公路交通气象服务知识库建模和应用提供知识基础。
表2 公路通行气象条件模型多值背景二维表
表3 公路通行气象条件模型形式背景
根据表2公路通行气象条件模型多值背景二维表,其中,G={易行,湿滑,危险},为公路通行气象条件等级全序集,W={阵雨,小雨,中雨,大雨,小雪,中雪,大雪,雨夹雪,轻雾,雾,雷暴,冰雹,沙尘暴,龙卷,吹雪,飑,能见度,风速}为高影响气象要素的属性集合,W为气象要素与能见度、风力的多值背景属性集合,I表示为不同级别的公路通行条件与气象高影响要素不同程度的因果依赖关系。根据多值背景转换方法,重新定义后的公路通行气象条件模型形式背景见表3。
(1)应用一阶谓词逻辑定义能见度、风力及天气等不同等级的高影响气象要素,即概念内涵。
(2)使用布尔代数合取范式表示不同公路通行条件下的概念外延,根据布尔代数合取范式规则,公路通行气象条件模型的外延可表示为:
易行(1)≡g and r
湿滑(2)≡i and g and r
危险(3)≡c and d and f and g and h and j and k and l and m and n and o and p and g and r
5.1.2 概念格生成
根据表3形式背景分析后形成的概念格(如图2),表示了公路交通气象服务中不同公路通行条件与高影响气象要素之间的关联关系,实现了基于形式概念分析的公路交通气象服务知识表示。在分析过程中,使用一阶谓词逻辑表达概念内涵,使用合取范式表示概念外延,为气象服务领域知识获取和本体知识库构建开展了有益的探讨。
图2 公路通行气象条件模型概念格
5.2.1 电力气象服务形式背景分析
根据收集到的电力气象灾害风险阈值指标,借助专家领域知识,定义了电力气象舞动灾害多值背景。其中,G={舞动无预警,舞动蓝色预警,舞动黄色预警,舞动橙色预警,舞动红色预警},为电力气象舞动灾害预警等级的全序集,W={地面小时温度,地面相对湿度,地面小时风速,高空温度露点温度条件,高空冷暖层条件},为属性值的集合,W为多值背景属性集合,三元关系I表示为不同级别的电力灾害与基础气象要素不同程度依赖的因果依赖关系。
(1)表4中的地面小时温度、地面相对湿度、地面小时风速,已经是最基本的气象观测因子,从分段函数值域出发,在描述逻辑的逻辑等价类中以一阶谓词逻辑定义属性值。
(2)表4中的多值属性高空温度露点温度条件、高空冷暖层条件,是多个基础气象观测因子经自然语言组合和数学运算后形成的复合条件,借助逻辑换算[16]提取多值背景中的有限数据进行术语定义,以一阶逻辑对有效数据和关系进行整体定义,其数学计算过程不属于描述逻辑范围,在此不作过多涉及,可在描述逻辑的数据属性中定义生成。重新定义后的电力气象服务多值背景属性见表5。
表4 电力气象舞动灾害多值背景二维表
表5 电力气象服务多值背景属性定义
表6 转换后的电力气象灾害舞动灾害形式背景
5.2.2 概念格生成
Lattice Miner在复杂问题处理、支持语义网络和关联规则提取方面具有优势,是单值形式背景和多值形式背景之间的相互转换的较好工具。针对较为复杂的多值形式背景,其通过”ConverttoBinary/Nested Context”,将多值背景转化为单值背景。转换后的形式背景(见表6),多值属性值作为概念内涵,成为参与电力气象服务概念格表达的主体结构。
根据布尔代数合取范式规则,电力气象服务舞动灾害外延表示为:
无舞动预警≡¬RH0 and¬WS0 and¬HLN0 and¬HPT0 and(¬T0 and ¬T2)
舞动蓝色预警≡RH1 and T1 and WS1 and HLN1 and HPT1
舞动黄色预警≡RH2 and T1 and WS1 and HLN1 and HPT1
舞动橙色预警≡RH3 and T1 and WS1 and HLN1 and HPT1
舞动红色预警≡RH4 and T1 and WS1 and HLN1 and HPT1
经过形式概念分析后形成的概念格(如图3),表达出电力气象服务中的舞动灾害中各概念节点上邻近、下邻近与基本气象因子之间的关联关系,实现了基于形式概念分析的电力气象服务知识表示。其中,使用一阶谓词逻辑定义多值属性表达概念内涵,使用布尔表达式合取范式和德摩根律表示概念外延,实现了不同气象服务领域知识获取、表示和应用,证明了模型的通用性。
本文使用Lattice Miner1.4[17]、Protégé5.0[18]工具实现概念格和知识库构建、管理,应用OWL API[19]、Jena 2.6(http://jena.apache.org/documentation/ontology/)进 行 智能代理设计,使得气象观测数据到气象服务知识的智能推理自动化。其中,Protégé5.0实现了气象服务领域分类树图设计。以实例电力气象服务领域本体构建为例,第一层Thing是分类树的根节点;第二层是气象服务中的电力气象灾害类;第三层电力气象灾害子类⊆{风偏,污闪,舞动}为概念偏序集;第四层为舞动灾害属性类和逻辑等价类设计(如图4和图5所示)。
图3 电力气象灾害舞动灾害概念格
图4 形式概念分析下的本体知识库结构
图5 使用protégé完成概念属性定义和等价类设计
对本体知识库描述逻辑的先验测试是避免知识推理矛盾的有效手段,DL Query为逻辑设计和知识推理的完备性和可靠性检验提供了GUI可视化界面。在逻辑测试时,需启动Hermit(或Fact++)推理机,根据本体数据属性设计进行赋值,并依次进行谓词逻辑和布尔代数表达式测试。以电力气象服务为例,输入(RH4 value 93.0f)and(T1 value-2.0f)and(WS1 value 6.0f)and(HLN1 value 1.0f )and(HPT1 value 1.0f),根据形式背景定义,将会得到“舞动红色预警”的推理结果。同时,利用OWL的开源API的规则推理机Jena作用下,扩展OWL等价关系,实现数学表达式、谓词逻辑、布尔代数的智能推理过程。
气象服务拥有海量的数据量和知识量,本文设计了形式概念分析模型,研究参与气象服务中的数据和知识间的相互关系,将气象服务本体知识建模的过程分为一阶谓词定义、布尔代数范式表示和符号化三个层次。一方面,利用数理逻辑设计本体建模的形式化,实现了逻辑设计的本体化表示;另一方面,将气象服务中的指标体系和概念模型等传统模型结构,应用网络本体语言OWL模型进行知识处理,完成了海量气象数据向气象服务知识的自动转化过程,使得气象服务本体知识库建模和应用自动化、客观化和科学化,提升了知识的表达能力和效率,实现了形式概念知识描述机制在气象服务领域中的应用。
本文提出区别于传统方法的气象服务领域知识发现和表示模型,将形式概念分析理论引入气象服务领域进行知识发现,结合OWL2描述逻辑本体知识库进行知识表示,有效解决了领域隐含知识难以发现、知识表示不够的问题,并在公路交通气象服务和电力气象服务领域得到了例证。经验证,该方法适用于多个气象服务领域背景下的概念知识发现和表示,具备较好的适应和推广能力,主要体现在:
(1)提出了气象服务领域知识获取和表示的结构化模型。以形式概念分析理论为基础,结合数理逻辑,给出了复杂形式背景转换和表示的有效方法,实现了气象服务领域复杂概念下知识不同维度分解和表示。
(2)结合OWL2描述规范,实现气象服务知识本体库构建和智能推理应用。以具体的气象服务领域为例,结合本体构建工具,实现了知识的转化和应用过程,获得了可推广到气象服务领域解决方案,具有实践指导意义。
基于形式概念分析的知识表达是一项长期的研究工作。本文的研究尚未涉足在自然语言处理、天气系统概念描述等方面的应用,仍有大量的工作有待完成。
参考文献:
[1]马鹤年,沈国权,阮水根,等.气象服务学基础[M].北京:气象出版社,2001.
[2]Brockmans S,Colomb R M,Haase P,et al.A model driven approach for building OWL DL and OWL full ontologies[C]//Proceedings of the International Semantic Web Conference,2006:187-200.
[3]丁松,唐胜群,刘坤,等.非一致OWL本体的推理方法研究[J].计算机工程与应用,2011,47(9):21-24.
[4]Wille R.Restructuring lattice theory:An approach based on hierarchies of concepts[M]//Ordered Sets.Dordrecht:Springer,1982:445-470.
[5]Fu G.FCA based ontology development for data integration[J].Information Processing and Management,2016,52(5):765-782.
[6]齐红.基于形式概念分析的知识发现研究[D].长春:吉林大学,2005:6-24.
[7]He L J,Wang Q T.Construction of ontology information system based on formal concept analysis[J].Advances in Computer Science,Intelligent System and Environment,2011,104:83-88.
[8]何险峰,舒红平,雷升锴,等.气象服务同构模型研究[J].计算机应用研究,2014,31(8):2394-2398.
[9]何险峰,雷升锴,张祥峰,等.本体化气象服务实现与应用[J].计算机应用,2012,32(S2):226-231.
[10]智慧来,智东杰.形式概念分析中的对象概念与属性概念[J].计算机工程与应用,2013,49(18):112-115.
[11]毛华,李斌.等价关系约束属性的形式概念分析[J].计算机工程与应用,2010,46(36):158-160.
[12]张斌,刘增良,余达太,等.基于形式概念分析与统计理论的本体构建模型[J].计算机应用研究,2011,28(1):111-113.
[13]杨丽,宋振明.基于对象间相互作用的形式概念分析[J].计算机工程与应用,2006,42(29):33-35.
[14]Prediger S,Stumme G.Theory-driven logical scaling:Conceptual information systems meet description logics[C]//Proceedings of the 6th International Workshop on Knowledge Representation Meets Databases,1999:46-49.
[15]王慕华,唐卫,渠寒花,等.面向公众出行的公路交通气象服务系统[J].气象科技,2015,43(5):992-997.
[16]李晓瑞,钟锋,余远,等.基于逻辑换算的一致背景的研究[J].计算机工程与应用,2010,46(21):142-144.
[17]WIKIPEDIA.Functional architecture of LatticMiner[EB/OL].(2016-06-25).https://en.wikipedia.org/wiki/Lattice_Miner.
[18]Thomas J.Stanford center for protégé informations[EB/OL].(2013-12-13).https://protegewiki.stanford.edu/wiki/Main_Page.
[19]Hawke S,Herman I.The OWL API[EB/OL].(2012-01-15).https://www.w3.org/2001/sw/wiki/OWL.