论坛正文内容提取通用方法的研究

2017-05-30 03:50范媚琳司明皎孟媛
科技风 2017年14期

范媚琳 司明皎 孟媛

DOI:10.19392/j.cnki.16717341.201714071

摘要:本文提出了一种新颖的通用论坛信息的提取算法。针对标题,利用论坛标题与网页标题相同这一特征提取。针对回帖模块的定位,我们提出了一种称为基于相似性度量和最低公共父节点的边界确定(BDBSL)的算法。针对回帖内容的提取,我们利用该标签所采用的css样式绝大多数都含有minheight属性这一特点进行提取。针对主题帖,利用主题帖独有的分享模块进行单独提取。

关键词:论坛正文提取;BDBSL算法;dom树;html

1 标题的提取

通过查看网页的源代码我们发现,论坛标题总是用来做网页标题,而网页的标题在标签下面的