赵会园,李绍稳,刘 超,章 丽(1.安徽农业大学信息与计算机学院安徽省农业信息学重点实验室,安徽合肥 230036)
基于云变换的农业领域本体概念构建方法研究
赵会园,李绍稳,刘 超,章 丽
(1.安徽农业大学信息与计算机学院安徽省农业信息学重点实验室,安徽合肥 230036)
摘 要:针对现有的本体语言不能够表达农业领域知识中存在的诸多模糊概念这一事实,本文提出一种基于云变换的不确定性本体概念的构建方法.设计通过不确定性本体概念的特征属性选择、概念维度数字特征提取与概念层次跃升,得到较粗粒度的不确定性概念的综合形式化表示,并通过实例验证方法的有效性.此外还对传统的云变换算法中熵的估计步骤进行了改进,证明其在时间复杂度上有一定优势.实验结果表明,该方法所提取的概念维度数字特征是有效的,能够较好的表示概念的随机性与模糊性,有助于农业领域本体的客观构建.
关键词:本体;不确定性知识;云模型;云变换;综合数字特征值;形式化
引用格式:赵会园,李绍稳,刘超,等.基于云变换的农业领域本体概念构建方法研究[J].安徽师范大学学报:自然科学版,2015,38(2) : 123-128.
引言
Gruber[1]提出本体是概念的明确的形式化表达,在传统的领域本体构建中,大多数的研究偏向于研究领域本体的生成方法,学者通常认为本体的生成方法分为以下五种:从自由文本中生成本体、基于词典生成本体、从半结构的模式数据中生成本体、从关系模式数据中生成本体[2].众所周知,领域本体是一个涉及大量领域概念及概念间关系的规范说明的体系.本体所表示的概念是明确的、可定义的、计算机可读的,并要求以一种普遍认同的规范来进行描述.因此,规范化的领域概念构建是领域本体构建的基础和重点.
在前期构建农业领域本体的研究中,我们发现,很多对象及描述对象的属性具有很强的不确定性,如体型较大、危害严重、虫体褐色等,到底虫体多大算作体型较大?危害程度在什么范围属于危害严重?精确的褐色RGB值是多少?现有的本体描述语言无法对此类不精确概念进行描述.同时,从某种角度来看,确定性的知识是不确定性知识的特殊表现形式.因而,如何从领域知识中提取不确定性概念、形成不确定性概念层次,形成一套基于本体的不确定性知识的表示方法是目前本体研究领域的迫切任务.
基于上述原因,本文提出一种基于云变换的不确定性本体概念的构建方法.设计通过选择表征概念的特征属性、提取基于云模型的概念的综合数字特征来解决农业领域本体构建中的不确定性概念的表示问题.
1.1云模型与逆向云发生器
1995年李德毅提出的云模型[3],目前已经被广泛应用于多个领域.云模型是一种能够同时表示知识随机性和模糊性的数学模型[4].这为领域中不确定性知识的表达提供了良好途径,通过对多种不确定性模型的比较,笔者认为将云模型引入到农业领域本体建模中,最终可以生成表示不确定性知识的农业领域本体新形式———云本体.该形式在传统本体五元组的基础上加入云模型的三个数字特征值变成八元组的不确定性概念表示形式Oc: = (C,R,A,F,I,Ex,En,He).用云模型的期望Ex表征定性概念的中心点、熵En表示定性概念的变化范围(模糊性)和超熵He通过云滴的凝聚程度表示定性概念的波动性(随机性和模糊性).其中,逆向云发生器理论是定性概念表示中的主要理论.
逆向云发生器[5]能够将一组符合某种分布的基于统计的定量数据转化为以云模型的数字特征(Ex,En,He)来表示的定性概念.
目前被广泛使用的是无确定度的逆向云算法.其原理是首先计算样本均值作为概念云模型的期望值,再经过一阶样本绝对中心矩来计算样本方差,进而得到熵和超熵.具体步骤如下:
第一步:根据输入样本xi计算定量数据样本的均值一阶样本绝对中心矩阵|,样本方差
1.2 云变换
逆向云发生器是针对一组数据提取单个概念的表示方法,那么云变换[6]算法则是适用于更普遍的多个概念的提取和转化.云变换算法是从数据统计频度图中,以曲线拟合的方式进行概念云的三个数字特征的提取.现实统计中,数据频度分布图总是有多个拐点的,即多个概念的数据边沿模糊不清,混淆在一起.从适用性角度来说,云变换算法更适用于实际概念的提取,基于逆向云发生器的云变换算法[7],其原理如下:
在原始频度分布函数的g(xi)频度大于阈值ε的情况下,根据频度较高的点对概念的贡献程度最大的启发式原理,取局部极大值点xi作为概念云模型的期望.再选取此点左右两边的n个点作为样本带入无确定度逆向云发生器,求得此概念的熵和超熵的值.从原始频度分布图中再减去云模型的期望曲线,在新的频度分布图上,不断循环求解,直至不满足阈值ε条件,从而能得到多个原子概念及表示它们的三个数字特征值.可见,云变换算法的核心就是对云概念的三个数字特征值的分步求解.
1.3 改进的熵估算方法
文献[6][8][9]所论述的云变换算法,在概念的期望值和超熵的求解上都是一致的,不同点体现在熵的求解上.文献[8]首先提出了峰值云变换的概念,给出了概念构造的启发式原理,文献[9]给出了求解云模型三个数字特征值的具体步骤,但在求解熵En时,只粗略的说到以拟合原分布曲线的方法来构造,文献[6]给出了具体的拟合步骤,按照一定的准则实验性的选取代表点,以云模型的期望曲线不断接近原分布曲线,得到理想的熵值,但其实现步骤较为复杂,需要多次人机交互.
数学上较易证明,对于某一特定波峰,它与最近波谷的差值为一定值,因此求解概念期望值邻近波谷与波峰的差可以转化为直接求解邻近波峰之间的差.以此原理改进文献[6]熵的求解步骤:即首先找到所有波峰值Ex.采用启发式原理,在第i步确定了Exi后,计算其与剩下所有峰值的频度差,若这个差值大于特定阈值n2,则计算Exi的最短距离点Exi',将[Exi-fabs(Exi'-Exi),Exi+ fabs(Exi'-Exi)]范围内的数据点作为云滴,利用无需确定度信息的逆向云发生器算法计算出Eni,Hei的值.
表1 改进云变换算法流程Table 1 The improved cloud transform algorithm
改进后算法如表1.
改进后的算法避免了原算法[6]在概念中心点期望值Ex附近实验性的寻找n个代表点的步骤,取消了查找中间比较变量波谷值,直接计算满足阈值条件的最近波峰点,将两者之间的左右对称点作为代表点,从而简化了原算法的实现步骤,避免了多次人机交互过程.原算法不断循环求解概念,故每扫描一次数据集产生一个概念,时间复杂度约为O(m* w),改进后一次并行寻找所有波峰假设为n个,满足阈值条件的有m个波峰点即概念期望值点,再在此基础上寻找最近波峰值,时间复杂度约为O(w) + O(m* n),n和m远小于w,w为属性数据范围,m为最后得到的概念个数,O(w) + O(m* n)<O(m* w),显然时间复杂度更低.最后,利用文献[6]中的方法,对En的值进行近一步调整,使得云曲线更好的与原曲线贴近,得到更为准确的熵的值.
2.1 概念特征属性选择
特征属性选择是从属性的角度研究概念的不确定性,具有对概念识别能力强而又不相互冗余的属性称为概念的特征属性,这些特征属性共同表示概念的内涵.
针对农业领域数据库中,存在的大量数据,这些数据是概念的多个属性的描述数据,存在着冗余和不相关,且数据之间往往存在较强的相关性.因此,首先运用基于因子分析的逐步向前属性选择方法,得到少数几个因子代表全部属性数据,选择与因子相关系数最大的属性做为特征属性,再结合专家知识对所选择的属性进行权重调整,最终得到少数几个特征属性,即云概念的特征维度.
2.2 概念综合维度特征值提取
综合维度特征值提取方法是一种从多个属性角度来表示不确定性本体概念的方法(如图2),从农业领域数据库开始,经过特征属性的选择,利用云变换算法提取多个维度的特征值来形式化概念,最终以综合维度数字特征来表示本体概念.具体步骤如下:
第一步,根据3.1中属性选择算法得到概念的特征维度,从数据库中任选一维度数据生成频度分布图g(x)1.
第二步,运用改进云变换算法得到一系列原子概念C1,C2,…,Ci.
第三步,在人机交互的基础上,采用概念合并方法[10],对原子概念进行相应的概念合并得到较粗粒度的概念,对得到的概念进行命名.
第四步,得到此维度个不确定性概念及它们的维度特征值∑1W1(Ex1jEn1j,He1j) (j = 1,…,i).
第五步,第一维度的概念对原来的数据样本进行了划分,取第四步中得到的顶层概念中心点[Ex-En,Ex + En]范围内的点做为样本,对其他维度进行第一至四步骤,将各个维度得到的特征值进行综合,得到概念的综合数字特征值:
第五步中,取顶层概念划分的范围内[Ex-En,Ex + En]的点作为样本,是根据云模型的特征,在概念中心点En范围内的点对概念的贡献度更大,贡献率为66.7%[11],更具特征性,可以忽略此范围外的样本,这样就一定程度上减少了其他维度的概念合并过程.
因此本文提出的方法能够实现概念多个维度(属性)的表示,通过云变换算法提取相同粒度、不同维度的知识并进行表示,有助于不确定性本体构建的客观性.
3.1数据获取与准备
茶园小气候本体中存在着大量的不确定性概念,提取这些概念的基于云模型的三个数字特征是“不确定性本体”生成的最关键的步骤.实验选取了样本进行分析和应用,数据来源农业部农业物联网技术集成与应用重点实验室在黄山地区茶园所采集到的茶园气象数据,设备每隔10-20分钟采集一次,包括茶园的日照时数、蒸发量、空气温度、空气湿度、大气压强、风向、风速、光合有效辐射、降雨量、土壤温度、土壤湿度等13个气候指标,是当地茶园气候的实时感应.显然,这些气候因子是在不断变化的,具有很强的不确定性.
首先,将该地区该时间的气候视为不确定性本体中的总类,即是最顶层的概念,各气象因子为顶层概念的属性,对顶层概念进行解释和表达.其次,本文选择九月份的4092条数据进行分析,欲建立该地区2013年9月份的茶园小气候知识本体模型.最后,按照3.1中方法对13个指标进行特征属性选择,选出最能表达该不确定性本体模型的特征属性,分别为降雨量,日照时数,空气温度,空气湿度,土壤湿度,土壤温度,蒸发量.再运用3.2的方法对属性进行云变换,得到各个属性底层概念的云模型表达,经过概念合并,最终形成综合的顶层属性概念的云化表达.
对属性数据进行取整处理,找出其中的最大值和最小值,对此区间的每一个可能出现的值进行频度统计,生成频度统计图.另外,对某个时间段内的统计属性,如降雨量,测量的数据是一段时间内的降雨程度,选取一天之中最后一个时间点的数据按照上述方法生成统计频度图.
3.2实验具体过程
以属性“土壤湿度”和“土壤温度”为例,说明实验的具体过程,土壤湿度的统计频度图如下(图3).
在阈值1为0.05,阈值2为0.01的情况下,经过云变换后,得到如表1所示土壤湿度属性的五个概念和它们的数字特征值:
将数字特征值带入正向云发生器,其原理文献[12]已有详细描述,这里就不再赘述,得到土壤湿度的各原子概念云图,如下(图4) :
表2 土壤湿度五个原子概念的数字特征值Table 2 Five atomic concepts of soil humidity
经过相应的概念合并,最终得到九月份土壤湿度的总体表示云(21.98,4.60,0.55),如图6所示.概念纵向的合并过程为层次的不断跃升的过程,能够形成此维度属性的分类层次关系,如图5,从下至上的概念粒度不断变粗,概念层次从最低层跃升至最高层.
土壤湿度属性的最顶层概念云图如下图(图6)所示:
对“土壤温度”属性进行数理统计同样得到统计频度图运用云变换算法,阈值为0.01和0.001时,得到最初的两个概念:低土温(22,2.15,0.22),高土温(25,2.17,0.22),经过一次概念合并,得到九月份土壤温度的总体表示,九月土壤温度(23.5,2.90,0.22).
对其他维度属性依此进行如上操作,最终得到九月份茶园小气候的综合概念模型的云化表达,九月份黄山茶园小气候:土壤湿度(21.96,4.60,0.5),土壤温度(23.5,2.90,0.22),空气温度(26.50,6.0,1.0),空气湿度(73,2.79,0.50),降雨量(0.60,5.55,0.55),日照时数(8.66,4.57,0.81),蒸发量(134.3,6.44,0.49).7个特征属性共同对茶园小气候进行表示如下图7,且每个属性由底层原子概念构成一棵概念树,进行从底到高层次的概念表达.
3.3 结果分析
得到的属性总体描述中,空气温度(26.50,6.0,1.0),空气湿度(73,2.79,0.50),降雨量(0.60,5.55,0.55),日照时数(8.66,4.57,0.81),反映当地九月份总体空气温度不是很高,空气湿度大,降雨较少,与多年总结的同时期实际山区茶园小气候的日照少,云雾多,气温低,湿度大的特征相符.以表2所示,本文方法得到的各个特征属性最顶层概念误差率均较小,符合实际情况.
由于云模型本身的优越性,能够较好的表示概念中所具有的不确定性.如图6,九月份土壤湿度的期望值为21.96表示土壤湿度的总体水平,与实际统计数据的平均值23.51相近,熵En4.60表示土壤湿度的变动范围,云图的跨度表示大部分时间点的相对湿度在5%-35%之间,超熵He将此概念的随机性和模糊性相关联表达.在构建本体时可用概念的数字特征值和云图代替原来的概念,更具直观性.
表3 概念误差率Table 3 Error rate of concepts
本文首先提出一种基于云变换的不确定性概念的维度数字特征提取方法,该方法通过属性选择算法对概念的特征维度进行提取,再对单个维度运用云变换方法生成概念,进行一定程度的概念的合并生成较粗粒度的概念,在粗粒度概念对样本的划分基础上对下一维度属性数据进行梳理统计进行相应云变换得到此维度数字特征,以此类推,最终得到概念的综合维度数字特征,为下一步不确定性本体知识的形式化表达奠定基础,其次对文献[6]中提到的云变换曲线拟合方法进行了改进,并进行了实例应用,证明该方法的有效性,为云变换算法在本体建模中的应用提供了参考.
下一步将根据提取的概念和概念的层次关系及能够表示概念的维度数字特征,对OWL语言进行扩展,能够将不确定性本体知识进行表示,最终生成统一规范的不确定性本体形式.
参考文献:
[1] STUDER R,BENJAMINS V R,FENSEL D.Knowledge Engineering: principles and methods[J].Data and Knowledge Engineering.1998,25 (1/2) :161-197.
[2] MAEDCHE A,STAAB S.Ontology learning for the semantic web[J].IEEE Intelligent Systems,Special Issue on the Semantic Web,2001,16 (2) :72-79.
[3] LI Deyi,LIU Changyu,LIU Luying.Study on the universality of the normal cloud model.Engineering Sciences[J].2005,3(2) :18-24.
[4] 杜湘瑜,尹全军,黄柯棣,等.基于云模型的定性定量转换方法及其应用[J].系统工程与电子技术,2009,30(4) :772-776.
[5] 吕辉军,王晔,李德毅,等.逆向云在定性评价中的应用[J].计算机学报,2003,26(8) :1009-1014.
[6] 秦昆,王佩.基于云变换的曲线拟合新方法[J].计算机工程与应用,2008,44(23) :56-74.
[7] 许昌林,王国胤.实现稳定双向认知映射的逆向云变换算法[J].模式识别与人工智能,2013,26(007) :634-642.
[8] 蒋嵘,李德毅,范建华.数值型数据的泛概念树的自动生成方法[J].计算机学报,2000,23(5) :470-476.
[9]李德毅,杜餻.不确定性人工智能[M].北京:国防工业出版社,2005:218-221.
[10] 陈昊,李兵.基于逆向云和概念提升的定性评价方法[J].武汉大学学报:理学版,2011(6) :683-688.
[11] 刘常昱,李德毅,潘莉莉.基于云模型的不确定性知识表示[J].计算机工程与应用,2004,40(2) :32-35.
[12] 李庆,董庆宽,赵蕾.云模型中正向云算法的修正[J].西安电子科技大学学报,2013,40(5) :169-174.
A Method of Constructing Agricultural Ontology Concept Based on Cloud Transform
ZHAO Hui-yuan,LI Shao-wen,LIU Chao,ZHANG Li
(Anhui Provincial Key Laboratory of Agricultural Informatics,School of Information&Computer Science,Anhui Agricultural University,Hefei 230036,China.)
Abstract:Owing to much uncertain knowledge in agricultural domain that ontology can not express,this paper put forward a method of extracting uncertain ontology concepts based on cloud transform algorithm.By concept characteristic attribute selecting,concept integrated digital features extracting,concepts merging,it can get the formalized expression of concepts and demonstrate the effectiveness of this approach through the instance.In addition,the traditional entropy estimation method is improved,which proves that it has a certain advantages on the time complexity.The results show the digital features of concept extracted by this method are effective.They can represent the randomness and fuzziness of concept and are helpful to construct the agricultural domain ontology objectively.
Key words:ontology; uncertain knowledge; cloud model; cloud transform; integrated digital features; formalization
作者简介:赵会园(1990-),女,安徽合肥人,硕士生;通讯作者:李绍稳(1962-),男,博士,教授,主要研究方向为人工智能.
基金项目:国家自然科学基金项目(31271615) ;安徽省高等学校自然科学研究项目(KJ2013Z077) ;安徽省高校省级优秀青年人才基金(2013SQRL014ZD).
收稿日期:2014-08-25
DOI:10.14182/J.cnki.1001-2443.2015.02.004
文章编号:1001-2443(2015) 02-0123-06
文献标志码:A
中图分类号:TP181