基于Python的通用论坛正文提取的研究

2019-02-14 13:10赵光亮令狐雨薇朱德孙赵顺燕陈凤杨陶
科学与技术 2019年1期
关键词:分析研究

赵光亮 令狐雨薇 朱德孙 赵顺燕 陈凤 杨陶

摘要:本文首先分析了研究背景、研究主题、研究工具与研究意义,同时阐述了研究方式,最后总结了研究流程,仅供参考。

关键词:Python;通用论坛;正文提取;分析研究

本文在BBS类论坛网页基础上,开展文本数据爬取与分析,开展通用论坛正文提取研究,借助HTML、Python工具,构建BBS类论坛网页文本数据抓取算法,详细分析如下。

1 研究背景与研究意义

1.1 研究背景

在大数据背景下,直接带动了各行各业的发展。互联网内网页数据是以半结构形式存在,部分信息被广告、垃圾链接遮挡。采取何种手段,实现网页文本信息的有效提出,为用户提供合理的阅读信息,成为当前急需解决的问题。

1.2 研究意义

一般情况下,网页采取的是超文本标记语言表达方式,简称HTML。在网页信息提取阶段,需要先获取BBS类论坛网页,借助Python语言,实现相关内容提取。

2 研究方式

2.1 正则表达式

正则表达式属于一种模糊匹配所需网页信息,属于模糊匹配文字的最佳工具,具备很强的功能性特点,借助简单快捷的方式,可实现复杂字符串的控制,以此精准获取所需文本内容。

2.2 Python语言

Python本身属于一款免费应用的软件,本身融合了多项功能,自带的各项技术,通过加载相应插件,可实现网络平台的搭建。借助Python语言与正则表达式能够实现网页信息的有效提取[1]

3 研究流程

3.1 流程分析

论坛正文提取流程主要包括:参照已知样本数据,锁定网页网址—开展数据预处理—应用正则表达式,判定现阶段网页内容是否属于提取内容—依据正则表达式,匹配网页信息需求—确定匹配模型—分析预期结果,给出最优解决方案。

3.2 数据分析

3.2.1 HTML结构与解析

HTML本身属于一种标准的标记语言,主要是为Web页面创建提供依据。HTML文档本身属于一种纯文本文档,可实现对象文档的形象描述,凸显出各个细胞在浏览器内的显性特征。

3.2.2 BBS网页结构分析

基于BBS与URL分析,能够发现BBS网页内具备很多核心结构信息,页面上不同元素的特定标记不同,不同特定标记之间,借助Python语言可为网页信息挖掘提供方向。

3.2.3 DOM树与HTML文档解析

DOM、HTML文档获取、修改、删除或添加,均需要遵循HTML元素标准。就具备价值的信息,提取出来可为企业、政府的决策提供指导。

3.3 数据处理

BBS类网页文本会榨取网页自身的语言结构与语言标签,站在网页视觉分块特征基础上,开展各项分析与阐述。一般情况下,网页内的文本数据均位于标签[table]节点内,为实现页面“噪声”的去除,一般需要对每个节点开展相应处理,以此获取不含标签的纯文字符串[2]

为实现数据的有效抓取,需要对整体数据开展相应剔除。比如:以Web网页为例,若网页无法正常打开,或指定的主题内容不存在,则需要对整体数据开展非正常剔除。或在网页无法打开,指定主题不存在或已删除,弹出返回操作指令,也需要非正常剔除整体数据。

通过研究BBS類网页HTML文档结构,在网页源代码阶段,为实现主贴内容的抽取、保障回帖信息的精准,需要构建对应的算法,实现目标信息的有效抓获。借助正则表达式中的匹配功能,可实现URL信息的快速抽取。为避免同一链接重复访问的情况出现,需要将已经访问过的URL备份到已经访问的队列中。作为网页内的“源”,网络爬虫需要将种子网页内的有效链接提取出来,并将其纳入到后补爬行队列中,参照用户希望的规定,实现URL的精准提取[3]

3.4 建模挖掘

互联网本身就如同一张巨大的蜘蛛网,Crawler则如同一只蜘蛛,在大网上自由扫荡,实现互联网内各种文本信息的侦探,精准获取其中的有效文本信息。为实现舆情的有效获取,论坛正文提取方式主要如下。

3.4.1 获取任意类型BBS类网站内的URL信息。

3.4.2 就任意类型的BBS类网页,在正文提取阶段,需要在相关数据项上精准回帖,主贴置顶。本文研究中,通过在网页正文提出基础上,借助html标签对正文内容、正文发布时间、正文作者等开展深入分析,以此保障网页正文内容的有效提取[4]

3.4.3 就BBS论坛网页信息抓取,需要先对网页内的信息开展聚类处理。

3.4.4 爬取用户需要的数据项信息,针对主贴发表作者、主贴主题、主贴内容、主贴发表时间等资料详细的网页。采取BBS类论坛网页开展信息抓取,借助论坛内的网络爬虫,通过不断冲击,在超链接地址上获取更多的网页[5]

3.5 结果分析

就模型挖掘,经过数据处理之后,最终结果如下:

标题信息

{标题信息:从这一案例中,你明白了什么道理?-人生哲理-大师}

题主信息

{题主信息:“夏天有点冷”}

题主发帖内容

{题主发帖内容:[{在网上看到一则信息,大概内容是:“某山区一对年轻情侣,准备年底结婚”},{“但是,在通知所有亲朋好友之后,女方要求给12万,寓意“月月红”,为新娘购买三金。”},{“男方认为要求有点过分,已经买车买房,酒席钱全部由男方出,还要12万与三金不合理,与女方商议不果,直接退婚”}{“男人不是百万富翁就别谈婚论嫁!”}}

回帖信息

{回帖信息:这就是中国光棍那么多的原因},{回帖信息:看来以后还得多生女儿!}

回帖作者

{回帖作者:老兄顶住}

回帖时间

{回帖时间:2017-12-11,22:16:40}

3.6 算法分析

本文应用的一种固定算法,研究的是与BBS类似的网页,就任意类型的BBS网站,在网页信息提取过程中未能达到预期效果。在算法使用与算法匹配阶段,需要参照相关原则,开展实时更新。本文使用的算法,并不适用不断更新的网页源代码。

4 结束语

综上所述,就论坛正文提取研究,本文以BBS为例,借助正则表达方式,匹配网页代码需要的信息,并将其提取出来,以此保障正则表达式的精准应用。在使用之前,使用者需要充分了解网页源代码的结构,参照所需内容,在各个标签基础上开展多网页分析。通过应用最大相似度的正则表达方式,能够实现网页源代码匹配标记。但本文研究存在着一定的局限性,还需要广大专家学者开展深入研究。

参考文献

[1]赵光亮,令狐雨薇,朱德孙,赵顺艳,杨陶,陈凤.基于Python的通用论坛正文提取研究[J].电脑知识与技术,2018,14(24):259-260.

[2]刘锐,谭文韬,付园斌,王红.一种通用论坛信息提取方法[J].小型微型计算机系统,2018,39(07):1398-1404.

[3]范媚琳,司明皎,孟媛.论坛正文内容提取通用方法的研究[J].科技风,2017,26(14):81-87.

[4]李文强. 基于多特征融合的网页正文提取及双语网站探测[D].哈尔滨工业大学,2014,22(02):41-45.

[5]李媛. 舆情系统中web信息抽取子系统的设计与实现[D].电子科技大学,2013,22(25):60-64.

贵州师范学院2017年度学生科研项目自主研究项目“基于Python的通用论坛正文提取的研究”(项目编号:2017DXS047);“ 贵州师范学院大学生互联网+创新创业训练中心”(项目 编号:黔教高发[2015]337号、黔教高发(2017)158号);贵州省高技术产业示范工程专项项目(黔发改投资[2015] 1588号);贵州省教育厅创新群体重大研究项目(合同编号:黔教合KY字[2016]040);貴州省普通高等学校工程研究中心(合同编号:黔教合KY字[2016]015)

猜你喜欢
分析研究
跨国公司中小型供应商管理改进问题研究
探析气候变化对中国农业气象灾害与病虫害方面的影响
大直径区熔硅单晶的研究与制备技术探究
新时期高校干部选拔任用工作分析研究
新时期企业员工执行力培训策略探讨