基于Python的通用论坛正文提取的研究

2019-02-14 13:10赵光亮令狐雨薇朱德孙赵顺燕陈凤杨陶

科学与技术 2019年1期

关键词：分析研究

赵光亮令狐雨薇朱德孙赵顺燕陈凤杨陶

摘要：本文首先分析了研究背景、研究主题、研究工具与研究意义，同时阐述了研究方式，最后总结了研究流程，仅供参考。

关键词：Python;通用论坛;正文提取;分析研究

本文在BBS类论坛网页基础上，开展文本数据爬取与分析，开展通用论坛正文提取研究，借助HTML、Python工具，构建BBS类论坛网页文本数据抓取算法，详细分析如下。

1 研究背景与研究意义

1.1 研究背景

在大数据背景下，直接带动了各行各业的发展。互联网内网页数据是以半结构形式存在，部分信息被广告、垃圾链接遮挡。采取何种手段，实现网页文本信息的有效提出，为用户提供合理的阅读信息，成为当前急需解决的问题。

1.2 研究意义

一般情况下，网页采取的是超文本标记语言表达方式，简称HTML。在网页信息提取阶段，需要先获取BBS类论坛网页，借助Python语言，实现相关内容提取。

2 研究方式

2.1 正则表达式

正则表达式属于一种模糊匹配所需网页信息，属于模糊匹配文字的最佳工具，具备很强的功能性特点，借助简单快捷的方式，可实现复杂字符串的控制，以此精准获取所需文本内容。

2.2 Python语言

Python本身属于一款免费应用的软件，本身融合了多项功能，自带的各项技术，通过加载相应插件，可实现网络平台的搭建。借助Python语言与正则表达式能够实现网页信息的有效提取^[1]。

3 研究流程

3.1 流程分析

论坛正文提取流程主要包括：参照已知样本数据，锁定网页网址—开展数据预处理—应用正则表达式，判定现阶段网页内容是否属于提取内容—依据正则表达式，匹配网页信息需求—确定匹配模型—分析预期结果，给出最优解决方案。

3.2 数据分析

3.2.1 HTML结构与解析

HTML本身属于一种标准的标记语言，主要是为Web页面创建提供依据。HTML文档本身属于一种纯文本文档，可实现对象文档的形象描述，凸显出各个细胞在浏览器内的显性特征。

3.2.2 BBS网页结构分析

基于BBS与URL分析，能够发现BBS网页内具备很多核心结构信息，页面上不同元素的特定标记不同，不同特定标记之间，借助Python语言可为网页信息挖掘提供方向。

3.2.3 DOM树与HTML文档解析

DOM、HTML文档获取、修改、删除或添加，均需要遵循HTML元素标准。就具备价值的信息，提取出来可为企业、政府的决策提供指导。

3.3 数据处理

BBS类网页文本会榨取网页自身的语言结构与语言标签，站在网页视觉分块特征基础上，开展各项分析与阐述。一般情况下，网页内的文本数据均位于标签[table]节点内，为实现页面“噪声”的去除，一般需要对每个节点开展相应处理，以此获取不含标签的纯文字符串^[2]。

为实现数据的有效抓取，需要对整体数据开展相应剔除。比如：以Web网页为例，若网页无法正常打开，或指定的主题内容不存在，则需要对整体数据开展非正常剔除。或在网页无法打开，指定主题不存在或已删除，弹出返回操作指令，也需要非正常剔除整体数据。

通过研究BBS類网页HTML文档结构，在网页源代码阶段，为实现主贴内容的抽取、保障回帖信息的精准，需要构建对应的算法，实现目标信息的有效抓获。借助正则表达式中的匹配功能，可实现URL信息的快速抽取。为避免同一链接重复访问的情况出现，需要将已经访问过的URL备份到已经访问的队列中。作为网页内的“源”，网络爬虫需要将种子网页内的有效链接提取出来，并将其纳入到后补爬行队列中，参照用户希望的规定，实现URL的精准提取^[3]。

3.4 建模挖掘

互联网本身就如同一张巨大的蜘蛛网，Crawler则如同一只蜘蛛，在大网上自由扫荡，实现互联网内各种文本信息的侦探，精准获取其中的有效文本信息。为实现舆情的有效获取，论坛正文提取方式主要如下。

3.4.1 获取任意类型BBS类网站内的URL信息。

3.4.2 就任意类型的BBS类网页，在正文提取阶段，需要在相关数据项上精准回帖，主贴置顶。本文研究中，通过在网页正文提出基础上，借助html标签对正文内容、正文发布时间、正文作者等开展深入分析，以此保障网页正文内容的有效提取^[4]。

3.4.3 就BBS论坛网页信息抓取，需要先对网页内的信息开展聚类处理。

3.4.4 爬取用户需要的数据项信息，针对主贴发表作者、主贴主题、主贴内容、主贴发表时间等资料详细的网页。采取BBS类论坛网页开展信息抓取，借助论坛内的网络爬虫，通过不断冲击，在超链接地址上获取更多的网页^[5]。

3.5 结果分析

就模型挖掘，经过数据处理之后，最终结果如下：

标题信息

{标题信息：从这一案例中，你明白了什么道理？-人生哲理-大师}

题主信息

{题主信息：“夏天有点冷”}

题主发帖内容

{题主发帖内容：[{在网上看到一则信息，大概内容是：“某山区一对年轻情侣，准备年底结婚”}，{“但是，在通知所有亲朋好友之后，女方要求给12万，寓意“月月红”，为新娘购买三金。”}，{“男方认为要求有点过分，已经买车买房，酒席钱全部由男方出，还要12万与三金不合理，与女方商议不果，直接退婚”}{“男人不是百万富翁就别谈婚论嫁！”}}

回帖信息

{回帖信息：这就是中国光棍那么多的原因}，{回帖信息：看来以后还得多生女儿！}

回帖作者

{回帖作者：老兄顶住}

回帖时间

{回帖时间：2017-12-11，22：16：40}

3.6 算法分析

本文应用的一种固定算法，研究的是与BBS类似的网页，就任意类型的BBS网站，在网页信息提取过程中未能达到预期效果。在算法使用与算法匹配阶段，需要参照相关原则，开展实时更新。本文使用的算法，并不适用不断更新的网页源代码。

4 结束语

综上所述，就论坛正文提取研究，本文以BBS为例，借助正则表达方式，匹配网页代码需要的信息，并将其提取出来，以此保障正则表达式的精准应用。在使用之前，使用者需要充分了解网页源代码的结构，参照所需内容，在各个标签基础上开展多网页分析。通过应用最大相似度的正则表达方式，能够实现网页源代码匹配标记。但本文研究存在着一定的局限性，还需要广大专家学者开展深入研究。

参考文献

[1]赵光亮，令狐雨薇，朱德孙，赵顺艳，杨陶，陈凤.基于Python的通用论坛正文提取研究[J].电脑知识与技术，2018，14（24）：259-260.

[2]刘锐，谭文韬，付园斌，王红.一种通用论坛信息提取方法[J].小型微型计算机系统，2018，39（07）：1398-1404.

[3]范媚琳，司明皎，孟媛.论坛正文内容提取通用方法的研究[J].科技风，2017，26（14）：81-87.

[4]李文强. 基于多特征融合的网页正文提取及双语网站探测[D].哈尔滨工业大学，2014，22（02）：41-45.

[5]李媛. 舆情系统中web信息抽取子系统的设计与实现[D].电子科技大学，2013，22（25）：60-64.

贵州师范学院2017年度学生科研项目自主研究项目“基于Python的通用论坛正文提取的研究”（项目编号：2017DXS047）;“ 贵州师范学院大学生互联网+创新创业训练中心”（项目编号：黔教高发[2015]337号、黔教高发（2017）158号）;贵州省高技术产业示范工程专项项目（黔发改投资[2015] 1588号）;贵州省教育厅创新群体重大研究项目（合同编号：黔教合KY字[2016]040）;貴州省普通高等学校工程研究中心（合同编号：黔教合KY字[2016]015）