基于互联网的多源知识融合与交互印证方法的研究

2015-10-25 09:44肖青兰
湖南科技学院学报 2015年5期
关键词:权值本体食物

肖青兰

(中国人民解放军第169医院,湖南 衡阳 421002)

基于互联网的多源知识融合与交互印证方法的研究

肖青兰

(中国人民解放军第169医院,湖南 衡阳 421002)

文章在基于多源知识融合的背景下研究了关于语义挖掘的交互印证方法,并将原来的语义分析与匹配技术逐渐与智能信息计算相结合,再用语义本体认知的方法,来描述互联网的文本语义,并对这些方法进行了实验分析。

多源知识;知识融合;智能计算;交互印证

0 引 言

互联网上的知识往往具有不确定,多源,多维,动态变化等特征[1],因而许多关于多源知识融合的技术和算法用来验证知识的准确性。文献[2]里研究了关于互联网知识中自动识别年龄和性别的信息融合技术,用到了支持向量机及高斯模糊等技术。文献[3]建立了一套知识验证的方法来进行多源信息融合,该方法基于本体论的委托观念和问题陈述语言本体。交互式验 证是一种计算模型,主要由两个实体验证者和证明者组成,两者都可以看作是某类图灵机[4]。而使用交互式验证算法可以解决多元知识融合中数据分布,异构等技术问题[5]。而交互式验证技术在许多领域都有应用。文献[6]将交互式验证理论应用到错误分析与分类的系统中,体现了它的实用性能。文献[7]利用文本的本体知识如类型,次序,子序列等设计了一个自动的交互式验证系统。文献[8]中提到用Petri网建立模型来验证知识的方法。文献[9]介绍了使用交互式验证在网络安全方面的应用,尤其是对网络恶意攻击,人机交互验证等方面的作用。而本文则更关注于知识的正确性验证和智能分析。

1 交互验证算法

交互式验证的主要思想主要分为几步,首先从互联网上获得初始数据,并对其进行预处理。然后将数据进行分类后得到经验结果。分析经验结果的属性,制定属性的域值和权值,并用获得的经验来验证这些域值和权值,得到融合结果。接下来用融合结果来验证经验结果,并得到差异值。用属性分析的方法再次找出差异的原因。

表1. 算法过程

相关全集分类后得到经验结果EK,但EK的准确性并没有得到验证。设已知知识集为其中且xi具有属性集通过对E和X中xi的属性A进行一致性分析,来验证经验结果EK是否正确。设的属性aj域值为tj,表示为对全集E进行分类的批判指标,设aj的权值为wj,表示为tj所具有的批判力度。定义xi的评判值其中

交互映证的算法描述如表2:

表2.交互映证算法过程

2 食物名称语义本体认知

本体是给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的用于定义词汇外延的规则。以下以食物为例,构建一个食物本体:设食物集F的本体为:

3 实验分析

图2. 文本中的食物数量

从图2中可以看出,互联网上的知识从单源得到的机率较大,因而会出现重复的结果,如上图的有三个峰值是相同的值。而网络单知识源提供信息过少,信息过于片面;食物词典比较全面可信,但过于庞大臃肿;因而希望通过数据融合得到一个知识融合食物集,这个集合比较全面、常用、凝练。所以多源知识融合是有必要的。从搜索集能得到高血压病症者适宜吃的食物集为:总个数为53个,不适宜吃的食物集为:总个数为16个。对这些食物的属性进行分析,分别以20种适宜吃的食物与20种不适宜吃的食物为例,分析其脂肪,蛋白质,胆固醇,纤维素的含量,食物的属性如下图所示:

图3. 脂肪含量图

图4. 蛋白质含量图

图5. 纤维素含量

图6. 胆固醇含量

上面四个图可以得到如下的经验结果,脂肪含量高,蛋白质含量高,纤维素含量低,胆固醇含量高的属于不适宜高血压的食物,而脂肪含量低,蛋白质含量低,纤维素含量高,胆固醇含量低的则属于适宜高血压的食物。各属性的平均值图为:

图7. 食物属性的平均值

根据食物成分表,通过交叉验证算法,在不同域值与权值下得到的两张经验结果与融合结果的对比图交互式验证第一步,用属性分析的结果来验证域值和权值的准确性。

图8. 验证前的结果

显然没有根据属性分析的结果来设定的域值和权值进行分析后,结果与经验结果差异非常大,不断调整域值与权值,进行分析。以下是分析结果较好的一个域值和权值设置方案:

图9. 验证后的结果

第一张图的结果可以看到,没有根据属性分析来设置相应的域值与权值,不符合本实验的要求。实验验证了域值与权值应根据具体的实验来设定,若搜索的是糖尿病或其他病症,则要按照相应的属性分析来设定该实验的域值与权值。第二张图是根据属性分析的结果设置的域值与权值,从融合结果与经验结果对比,可以找到相应的验证失败的集合:经验结果为适宜吃,而融合结果为不适宜吃。再对比属性分析可知,的胆固醇含量为493,属于胆固醇含量较高的食物,建议高血压者不食用。从的属性分析来看,并无明显不符合高血压病者食用的地方,但由于是珍稀动物,建议不要食用,而种类较多,又是冷食,建议不要食用。以下是上面三种食物的属性图:

图10. 食物属性值分布

4 总 结

本文通过实例展示了交互验证方法在多源信息融合中的应用,并分别介绍了知识的预处理算法及交互式验证算法。在实际使用中,本文采用本体的描述方法来描述知识的多源结构,最后通过实验分析将理论应用到了实例中。相比于旧的语义分析与匹配技术,交互式验证方法更安全和可信。

[1]Lorena Chavarria-Baez,Xiaoou Li.Knowledge Verific- ation of Active Rule-Based Systems [J].ICIC 2006,676-687.

[2]Ming Li,Kyu J Han,Shrikanth Narayanan.Automatic speaker age and gender recognition using acoustic and prosodic level information fusion [J].2012,151-167.

[3]Sean Cochrane, Robert Young,Keith Case, Jennifer Har- ding,James Gao,Shilpa Dani,David Baxter.Manufacturing Knowledge verification in design support systems[J].Intern- ational Journal of Production Research. 2009,Vol.47,No.12,3179-3204.

[4]Baralis E,Ceri S,Paraboschi S.Compile-Time and Run-Time Analysis of Active Behaviors[J].IEEE Transactions on Knowledge and Data Engineering,Vol.10,No.3,1998,353- 370.

[5]Nazareth D.Investigating the Applicability of Petri Nets for Rule-Based Systems Verification[J].IEEE Transactions on Knowledge and Data Engineering,Vol.4,No.3,1993,402-415.

[6]S Aitken,T Melham.An analysis of errors in interactive proof attempts[J].Science,2000,565-586.

[7]Wang Daliang,Zhang De-zheng,Gao Li-xin,Liu Jian- ming,Zhang Huan-sheng.Process Knowledge Verification Method Based on Petri Net [J].IEEE Workshop on Knowle-dge Discovery and Data Mining,2008,173-178.

[8]Jia Meng,Claire Quigley,Lawrence C,Paulson.Autom-ation for interactive proof: First prototype[J].Information and Computation 204,2006,1575-1596.

[9]Zhenqiu Zhang,Yong Rui,Thomas Huang,Cem Paya. Breaking the Cock Face HIP[C].2004 IEEE International Conference on Multimedia and Expo,2004,2167-2170.

(责任编校:何俊华)

TP391

A

1673-2219(2015)05-0132-06

2014-12-24

肖青兰(1965-),女,湖南双峰人,高级工程师,研究方向为医院信息。

猜你喜欢
权值本体食物
一种融合时间权值和用户行为序列的电影推荐模型
眼睛是“本体”
CONTENTS
基于权值动量的RBM加速学习算法研究
基于本体的机械产品工艺知识表示
基于多维度特征权值动态更新的用户推荐模型研究
搞笑:将食物穿身上
食物从哪里来?
食物也疯狂
专题