Web实体表格结构识别研究

2016-07-09 13:18张兴兰刘岩
软件导刊 2016年6期
关键词:信息提取

张兴兰 刘岩

摘要:Web表格信息提取已成为构建本体的重要工作,它能自动将本体所需的属性名和属性值提取出来,节省大量人工劳动。提出了一种基于单元格类型和值长度的表格结构识别算法,能有效识别定位出的表格展开方式,对于表格信息提取具有重要意义。

关键词:信息提取;表格信息抽取;表格结构识别

DOIDOI:10.11907/rjdk.161203

中图分类号:TP301文献标识码:A 文章编号:1672-7800(2016)006-0001-04

3结语

在构建知识库时会用到本体的概念,本体的生成除了需专家人工参与外,在表格中提取本体的属性成为一种非常重要的方式。本文对表格展开方式判别提供了一种方法,从表格属性名和属性值在类型和长度的差异中识别表格结构,构造了类型树,使类型差异转化为树的路径;同时引入方差概念,将字符串长度变化情况用方差来描述,不再单一依靠均值来描述字符串的长度。下一步的研究重点是进一步改进表格定位算法,实现表格的更准确定位,从而提升整个表格识别系统的准确率。

3结语

在构建知识库时会用到本体的概念,本体的生成除了需专家人工参与外,在表格中提取本体的属性成为一种非常重要的方式。本文对表格展开方式判别提供了一种方法,从表格属性名和属性值在类型和长度的差异中识别表格结构,构造了类型树,使类型差异转化为树的路径;同时引入方差概念,将字符串长度变化情况用方差来描述,不再单一依靠均值来描述字符串的长度。下一步的研究重点是进一步改进表格定位算法,实现表格的更准确定位,从而提升整个表格识别系统的准确率。

参考文献:

[1]于静.基于页面主体提取的WEB信息抽取技术研究[D].南京:南京邮电大学,2013.

[2]张红梅.基于块的Web网页信息提取[J].软件导刊,2012,11(1):132-134.

[3]程显毅,朱倩,王进.中文信息抽取原理及应用[M].北京:科学出版社,2010.

[4]廖涛,刘宗田,孙荣.Web表格定位技术的研究与实现[J].计算机科学,2009,36(9):227-230.

[5]CHEN H,TSAI S,TSAI J.Mining tables from large scale HTML texts[C].In Proceedings of the 18th International Conference on Computational Linguistics,New Jersey: Association for Computational Linguistics,2000:166-172.

[6]张净.Web信息自动抽取技术的研究与实现[D].武汉:武汉理工大学,2009.

[7]TENGLI A,YANG Y,LI N.Machine learning table extractionfrom examples[C].In Proceeding of the 20th International Conference on Computational Linguistics(COLNG),New Jersey:Association for Computational Linguistics,2004:987-993.

[8]林琳.基于Ontology的web表格内容抽取的研究与实现[D].成都:电子科技大学,2006.

[9]廖涛.Web表格定位技术的研究与实现[J].计算机科学,2009(9):227-230.

[10]贾云长.HTML表格向XML的智能转换[J].计算机工程,2009(14):32-34.

[11]张瑞.网上表格数据到XML的自动转换[J].计算机工程与应用,2007(2):190-192.

[12]徐飞.面向结构的Web表格数据抽取系统[J].西安工业大学学报,2009(6):574-577.

猜你喜欢
信息提取
建筑电气设计中BIM技术的应用研究
基于Clang的AST提取结构体数据库插件的实现
改正通告检查中若干问题的分析研究
改正通告检查中若干问题的分析研究
改正通告检查中若干问题的分析研究
改正通告检查中若干问题的分析研究
基于ICA面向对象的耕地信息提取
享游景区服务系统的开发和研究
Excel函数在学生日常管理中的应用