张兴兰 刘岩
摘要:Web表格信息提取已成为构建本体的重要工作,它能自动将本体所需的属性名和属性值提取出来,节省大量人工劳动。提出了一种基于单元格类型和值长度的表格结构识别算法,能有效识别定位出的表格展开方式,对于表格信息提取具有重要意义。
关键词:信息提取;表格信息抽取;表格结构识别
DOIDOI:10.11907/rjdk.161203
中图分类号:TP301文献标识码:A 文章编号:1672-7800(2016)006-0001-04
3结语
在构建知识库时会用到本体的概念,本体的生成除了需专家人工参与外,在表格中提取本体的属性成为一种非常重要的方式。本文对表格展开方式判别提供了一种方法,从表格属性名和属性值在类型和长度的差异中识别表格结构,构造了类型树,使类型差异转化为树的路径;同时引入方差概念,将字符串长度变化情况用方差来描述,不再单一依靠均值来描述字符串的长度。下一步的研究重点是进一步改进表格定位算法,实现表格的更准确定位,从而提升整个表格识别系统的准确率。
3结语
在构建知识库时会用到本体的概念,本体的生成除了需专家人工参与外,在表格中提取本体的属性成为一种非常重要的方式。本文对表格展开方式判别提供了一种方法,从表格属性名和属性值在类型和长度的差异中识别表格结构,构造了类型树,使类型差异转化为树的路径;同时引入方差概念,将字符串长度变化情况用方差来描述,不再单一依靠均值来描述字符串的长度。下一步的研究重点是进一步改进表格定位算法,实现表格的更准确定位,从而提升整个表格识别系统的准确率。
参考文献:
[1]于静.基于页面主体提取的WEB信息抽取技术研究[D].南京:南京邮电大学,2013.
[2]张红梅.基于块的Web网页信息提取[J].软件导刊,2012,11(1):132-134.
[3]程显毅,朱倩,王进.中文信息抽取原理及应用[M].北京:科学出版社,2010.
[4]廖涛,刘宗田,孙荣.Web表格定位技术的研究与实现[J].计算机科学,2009,36(9):227-230.
[5]CHEN H,TSAI S,TSAI J.Mining tables from large scale HTML texts[C].In Proceedings of the 18th International Conference on Computational Linguistics,New Jersey: Association for Computational Linguistics,2000:166-172.
[6]张净.Web信息自动抽取技术的研究与实现[D].武汉:武汉理工大学,2009.
[7]TENGLI A,YANG Y,LI N.Machine learning table extractionfrom examples[C].In Proceeding of the 20th International Conference on Computational Linguistics(COLNG),New Jersey:Association for Computational Linguistics,2004:987-993.
[8]林琳.基于Ontology的web表格内容抽取的研究与实现[D].成都:电子科技大学,2006.
[9]廖涛.Web表格定位技术的研究与实现[J].计算机科学,2009(9):227-230.
[10]贾云长.HTML表格向XML的智能转换[J].计算机工程,2009(14):32-34.
[11]张瑞.网上表格数据到XML的自动转换[J].计算机工程与应用,2007(2):190-192.
[12]徐飞.面向结构的Web表格数据抽取系统[J].西安工业大学学报,2009(6):574-577.