赵继春等
摘要研究了农业信息处理和分析技术,开发了农业网站舆情热点发现系统,实现农业相关类网站的网络舆情分析,发现农业类相关网站的网络舆情热点,通过网络信息的自动获取、分类存取以及热点发现,实现对农业网站舆情信息的热点监测和热点发现功能,为农业科研人员和管理者提供个性化的决策参考。
关键词农业网站;网络舆情;热点发现与监测;个性化
中图分类号S126文献标识码A文章编号0517-6611(2015)24-279-02
目前,农业类网站数量增长迅速,对于农业管理者和科研人员,农业热点信息对于研究或者决策,具有重要的意义。而互联网信息快速发展使得信息成几何级数增加,网络信息的处理就越来越困难,传统的通过手工进行信息处理的方式已经不能够应对大规模信息相应的要求[1]。因此有必要通过新的信息技术,对农业舆情进行监控和分析,满足农业管理者和农业科研人员对信息的需求。对与农业相关的网站进行网络舆情热点信息发现,通过网络信息的自动抓取、分类存取以及热点发现,建立舆情热点发现模型,实现网络舆情信息的热点监测和热点发现功能。同时能够实现热点话题的追踪,为掌握网络中的思想动态做出正确的舆论引导提供分析依据,能够为上级领导部门提供舆情分析报告。
目前,舆情信息的热点发现研究较热,受到了政府和科研管理人员的普遍关注,政府希望通过舆情信息热点发现获取网路中的思想动态,从而实现对于不良的舆情进行监控与疏导,解决网络中存在的潜在危机。科研人员希望获取一手研究资料,了解最新的热点前沿动态,从而能够指导自己的科研。目前的研究技术主要包括基于自然语言处理技术以及统计技术,涉及词频、分词和数据挖掘等技术。针对快速发现热点话题的问题,很多研究针对论坛系统进行了分类,运用多维向量表示实现了网络中舆情热点信息的发现与分析管理[2-4]。
舆情监测分析系统涉及的一些关键技术包括:网络信息采集技术,主要包括网络爬虫技术等;信息预处理技术,主要包括网页净化预处理、文本表示、中文分词、词性标注、去停用词、特征信息提取和特征降维等;文本应用的挖掘与信息处理技术,主要包括文本聚类、热点自动发现、文本自动分类、文本倾向性分析等。针对热点信息采集,可以应用网络爬虫技术,将大量的信息抽取存储到本地数据库,为研究提供数据支撑[5]。
1舆情热点发现技术架构
目前,在舆情分析热点研究方面影响力比较大的国际会议包括文本检索会议(TREC)、情报检索专业组会议(SIGIR)、文本检测与跟踪会议(TDT)等,这些会议展示了该领域最新的研究成果已经研究进展。笔者在阅读大量相关文献的基础上,研究了网络舆情分析所涉及的分词、网络爬虫、聚类分析等关键技术,并对这些关键技术进行集成应用,构建农业类网站的舆情分析引擎[6]。
该研究的技术架构是首先进行舆情信息采集处理关键技术研究,对农业类相关的网站进行信息进行采集,获取用户的活跃话题,并对采集后的信息进行加工预处理,提取信息的特征。结合基础数据信息,建立舆情热点发现模型,最后开发农业网站舆情热点发现系统。研究技术架构见图1。
2系统关键技术研究与实现
2.1舆情信息采集系统研究
舆情信息采集模块实现的功能是按特定主题抓取农业类网站的相关栏目信息,并将信息分类存储到数据库服务器中。信息采集的主要思路是,利用网络爬虫技术,根据网络中的页面地址,获取网页的页面信息,根据正则表达式对信息进行处理,抽取到本地数据库。最后,系统依据本地数据库中抽取的信息,进行分析与处理。
2.2舆情信息的预处理方法研究
舆情信息的预处理主要是对原始数据进行去噪,去掉无效的应用数据,并且找到信息对应的特征项目,最后转化为向量表示。舆情信息的数据预处理为分析系统提供了具有一定可靠度的数据,舆情信息预处理流程见图2。
2.3热点信息发现流程研究
网络信息热点信息发现由信息的预处理模块、热点信息发现模块、用户信息显示控制模块和综合管理模块组成,建立在基于抽取的网络信息数据库基础上,主要实现对于热点信息的分析与监控,网络热点信息发现实现框架见图3。
热点信息发现的流程见图4。首先,应用分词技术,对农业类的相关网站进行关键词的提取,如果是互动的信息,则提取互动信息的特征,并将这些信息存储到信息特征库;然后,针对信息特征库应用统计分析技术提取热点特征信息,同时获取信息对应的报文;最后,统计相关信息的分布。
3系统开发与实现
3.1开发语言与环境
在关键技术研究的基础上,该研究开发了农业网站舆情热点信息发现系统,充分考虑了系统的易用性和扩展性需求。采用Java程序设计语言进行开发,系统采用的应用数据库的是Oracle11,开发的环境是MyEclipse,开发中间件采用的是Tomcat。
3.2系统主要功能模块
数据采集对象主要是涉农互联网网站和网页,包含了对于正文内容的自动识别、文章去重与相似度分析、自动生成摘要和关键词等多项中文语言处理技术。农业网站舆情热点发现系统包括了舆情数据处理子系统、舆情分析子系统和舆情门户应用子系统。舆情数据处理子系统是针对采集子系统采集的数据进行整理、处理。主要功能包括:舆情数据管理、门户信息配置、简报管理模块等,可手动选择信息生成简报,对已生成的简报提供可视化编辑界面。舆情分析子系统功能分为统计和分析两部分。统计主要是对于舆情内容的统计,信息站点分布统计、时间统计、具有折线图、柱状图、饼图多种表现方式。舆情分析功能包括自动聚类、热词发现和事件发展趋势分析。舆情门户应用子系统是一个可定制的舆情展示、呈现平台,平台可以将舆情系统中收集到的信息、分析结果、生成的简报,以图文方式进行展现,提供给用户浏览、下载。系统开发的原型页面如图5所示。
4结语
该研究给出了网络舆情热点信息发现所设计的技术和方法,并开发了农业网站舆情热点发现系统。该系统的最大优点是采用灵活的处理的架构,真正实现分析和追踪热点信息。对农业相关类的网站进行网络舆情热点发现,通过农业网站信息的抓取采集,将数据存储在本地数据库,供系统
进行数据分析。该研究开发的网络舆情热点发现系统,包括了
舆情数据处理子系统、舆情分析子系统和舆情门户应用子系统。用户可以选定特定的时间段,能够实现热点信息排序功能,同时实现热点信息的追踪,提供热点信息的分析依据,为农业管理部门和科研人员提供农业信息舆情分析报告。
参考文献
[1] 盖伟,王晓端.网络舆情分析与监测研究[J].中小企业管理与科技,2014(11):126.
[2] 张文慧,张冉.基于中文分词的农业信息检索平台设计[J].安徽农业科学,2011,39(20):12586-12587.
[3] 王娟.网络舆情监控分析系统构建[J].长春理工大学学报,2007(4):201-203.
[4] 孟春艳.用于文本分类和文本聚类的特征抽取方法的研究[J].微计算机信息,2009(3):149-150.
[5] 颜建华,劉岩,傅黎犁,等.基于网络的舆情分析系统及其应用研究[J].医学信息学杂志,2011(8):10-14.
[6] 汪斌,张云伟,刘健,等.一种面向农业信息主题网络爬虫的设计[J].安徽农业科学,2009,37( 20):9699-9700.