Web实体表格结构识别研究

2016-07-09 13:18张兴兰刘岩

软件导刊 2016年6期

关键词：信息提取

张兴兰刘岩

摘要：Web表格信息提取已成为构建本体的重要工作，它能自动将本体所需的属性名和属性值提取出来，节省大量人工劳动。提出了一种基于单元格类型和值长度的表格结构识别算法，能有效识别定位出的表格展开方式，对于表格信息提取具有重要意义。

关键词：信息提取；表格信息抽取；表格结构识别

DOIDOI：10.11907/rjdk.161203

中图分类号：TP301文献标识码：A 文章编号：1672-7800（2016）006-0001-04

3结语

在构建知识库时会用到本体的概念，本体的生成除了需专家人工参与外，在表格中提取本体的属性成为一种非常重要的方式。本文对表格展开方式判别提供了一种方法，从表格属性名和属性值在类型和长度的差异中识别表格结构，构造了类型树，使类型差异转化为树的路径；同时引入方差概念，将字符串长度变化情况用方差来描述，不再单一依靠均值来描述字符串的长度。下一步的研究重点是进一步改进表格定位算法，实现表格的更准确定位，从而提升整个表格识别系统的准确率。

3结语

参考文献：

[1]于静.基于页面主体提取的WEB信息抽取技术研究[D].南京：南京邮电大学，2013.

[2]张红梅.基于块的Web网页信息提取[J].软件导刊，2012，11（1）：132-134.

[3]程显毅，朱倩，王进.中文信息抽取原理及应用[M].北京：科学出版社，2010.

[4]廖涛，刘宗田，孙荣.Web表格定位技术的研究与实现[J].计算机科学，2009，36（9）：227-230.

[5]CHEN H，TSAI S，TSAI J.Mining tables from large scale HTML texts[C].In Proceedings of the 18th International Conference on Computational Linguistics，New Jersey： Association for Computational Linguistics，2000：166-172.

[6]张净.Web信息自动抽取技术的研究与实现[D].武汉：武汉理工大学，2009.

[7]TENGLI A，YANG Y，LI N.Machine learning table extractionfrom examples[C].In Proceeding of the 20th International Conference on Computational Linguistics（COLNG），New Jersey：Association for Computational Linguistics，2004：987-993.

[8]林琳.基于Ontology的web表格内容抽取的研究与实现[D].成都：电子科技大学，2006.

[9]廖涛.Web表格定位技术的研究与实现[J].计算机科学，2009（9）：227-230.

[10]贾云长.HTML表格向XML的智能转换[J].计算机工程，2009（14）：32-34.

[11]张瑞.网上表格数据到XML的自动转换[J].计算机工程与应用，2007（2）：190-192.

[12]徐飞.面向结构的Web表格数据抽取系统[J].西安工业大学学报，2009（6）：574-577.