陈 涛,刘世洪
(农业部农业信息服务技术重点实验室中国农业科学院农业信息研究所,北京 100081)
面向农产品安全监测的互联网舆情分析系统研究与应用
陈 涛,刘世洪*
(农业部农业信息服务技术重点实验室中国农业科学院农业信息研究所,北京 100081)
围绕农产品安全舆情监管要求,研发面向农产品安全监测的互联网舆情分析系统。利用网络爬虫对互联网农产品安全相关信息进行采集,利用中文分词技术处理,设计适合农产品安全的聚类和分类算法进行分析,完成了农产品安全舆情分析的实时采集、智能处理和分析、热点话题发现、舆情分类、可视化展示和个性化定制功能。该系统实现了农产品安全舆情信息的获取、处理、分析和服务,系统的使用增强了农产品安全舆情监管力度,并为相关决策部门提供了科学依据。
农产品安全;互联网舆情;舆情监管;舆情分析;信息系统
文献著录格式:陈涛,刘世洪.面向农产品安全监测的互联网舆情分析系统研究与应用[J].浙江农业科学,2015,56(9):1464-1467.
DOI 10.16178/j.issn.0528-9017.20150941
随着互联网的快速发展,网民对网络事件可随时进行评论,这就诞生了一个新词,“网络舆情”。网络的便捷提供了网民言论自由的机会,但同时带来了网络舆论监管的挑战。根据中国互联网络信息中心2015年1月发布的《中国互联网络发展状况统计报告》数据显示,截至2014年12月,中国网民规模达6.49亿,中国网民中农村网民占比27.5%,规模达1.78亿[1]。近年来,舆论对于农产品质量安全问题的放大和炒作,大大增加了质量安全监管工作的难度,严重挫伤消费者信心,也给产业发展带来严重损失,甚至引发毁灭性打击,已成为影响社会和谐和经济发展的重要因素,因而农产品质量安全舆情问题日益受到监督管理部门及有关领导、专家的重视[2]。2014年监测获得的全部农产品质量安全舆情信息中,来自于网站的舆情信息数量首次超过50%,占比高达51.95%,互联网已成为农产品质量安全舆情信息的主渠道[3]。当前,网络舆情研究逐步扩大,但大部分的研究停留在理论上。在大数据时代,应该利用先进的计算机技术进行研究。最近中央提出的“互联网+农业”为现代化农业发展带来新的契机。因此,为增强农业信息化建设的需要,为满足农产品安全监测的需求,作者开发了一套面向农产品安全监测的互联网舆情分析系统。
1.1 系统概述
农产品安全舆情分析系统是以信息技术为基础,以互联网上农产品相关数据为信息源,利用计算机技术对采集的信息进行分析,最后以可视化的界面展示给用户,以便快速做出决策。整个系统工作流程从信息的采集、信息处理和分析到舆情服务是具有生命周期的。从对网络舆情信息的需求的产生开始,到舆情的规划,通过技术手段到网络舆情信息的采集、网络舆情信息的分析、网络舆情信息的服务、网络舆情信息的预警,最后到部门领导的决策,整个生命周期是不断循环的,且每个环节也是必不可少的。其流程如图1所示。
图1 农产品安全舆情分析系统的工作流程
1.2 系统架构设计
在农产品安全舆情分析系统中,整个系统应有严格的数据流和信息流的流动方向,以及各个层次之间的划分和相互关联。总体设计是系统设计的核心部分,设计的好坏直接影响到系统未来的应用。因此,在设计时必须着眼于信息技术目前和未来的发展趋势,在充分了解系统需求的基础上,合理规划系统的组织结构,定义好各个模块之间的接口,使系统具备较好的灵活性和扩展性。农产品安全舆情分析系统是一个数据分析系统,也是一个应用业务系统,这么一个复杂的系统,其总体设计架构要合理完善。在综合考虑系统建设的成本、需求和面向用户对象的基础上,提出了网络舆情监测系统的总体架构(图2)。
图2 农产品安全舆情分析系统的总体架构
农产品安全舆情分析系统采用基于B/S架构的系统设计框架。通过浏览器进行信息的查询和沟通,这种方式能更好地满足政府部门、农产品企业和一般农户的需求。通过对农产品安全舆情分析能够及时挖掘农产品安全的舆论信息,从而采取有效的应对措施,提升政府、企业的品牌形象。
1.3 关键技术
1.3.1 农产品安全舆情信息抓取
信息采集的数据都是来自互联网,采集的来源主要是各类网站。本系统是面向农产品安全的舆情监测,在信息采集来源方面面向农产品的网站,包括中国农产品信息网、农业部网、中国农业新闻网等网站,以及贴吧和博客等。采用开源搜索引擎Nutch进行数据抓取,Nutch是一个Java实现和平台无关性的搜索引擎,提供了运行自己的搜索引擎所需的全部工具。作为一个研究平台,Nutch有开放灵活的架构。用户可定制个性化的搜索引擎[4]。
1.3.2 农产品安全舆情信息智能处理与分析
舆情信息的智能处理和分析技术是整个系统的核心的技术。农产品安全舆情数据采集后,通过网页去噪、排重、中文分词、特征提取和聚类分类分析,最后得出结果。在这个过程中采用中科院的分词软件ICTCLAS分词[5]进行中文分词处理,采用TF-IDF算法[6]进行特征提取,使用向量空间模型VSM[7-8],最后使用文本聚类和分类算法得出农产品安全的热门话题,实现全过程的智能处理和分析。
1.3.3 农产品安全舆情服务
舆情信息服务是通过技术将分析的结果以可视化的方式展示给用户。结合用户的需求,系统以简报形式呈现出日监测报告、周监测报告和月监测报告发布,也可对农产品安全专题全面而系统的报道。同时根据用户的工作范围或工作重点对信息源权限赋值,将其最关注的舆情展示出来供优先浏览及舆情分析。按照用户关注的类别分类展示舆情,通过类别的选择了解各类别舆情信息。
2.1 系统功能模块划分
根据农产品安全舆情分析系统的实际需求,本系统由4大功能模块组成,即农产品安全舆情信息采集模块、农产品安全舆情信息处理模块、农产品安全舆情信息分析模块和系统管理模块。
2.2 系统功能模块详细设计
2.2.1 农产品安全舆情信息采集模块
本模块主要功能是负责舆情信息的采集。为了能够在海量数据中抓取与农产品安全相关的舆情信息,需要构建一个针对农产品安全监测的爬虫。本文采用Nutch开源搜索引擎作为农产品安全舆情信息采集的工具,主要是基于Nutch的二次开发。通过事先选取部分种子的URL列表,然后使用Nutch网络爬虫从种子URL列表爬取农产品安全的舆情信息,将得到的网页信息进行数据清洗、网页去噪、网页内容文本提取等操作,将其作为数据源。Nutch中还可设置URL地址的黑白名单,来实现部分网站的精确爬取(图3)。
2.2.2 农产品安全舆情信息处理模块
信息处理模块的主要功能是将采集模块采集的信息进行初步处理,再将其存入数据库,变成可进行舆情分析的数据,即信息处理模块的结果作为舆情分析模块的输入信息。信息处理模块主要包含页面解析、网页去噪、网页排重、内容提取、中文分词、特征提取、文本向量表示等过程。具体流程如图4所示。
图3 农产品安全舆情分析系统的信息采集模块
图4 农产品安全舆情分析系统的信息处理流程
2.2.3 农产品安全舆情信息分析模块
农产品安全舆情信息分析模块是系统的核心模块,主要针对处理后的信息进行分析,包括农产品安全的热点话题发现、农产品安全话题监测与追踪、农产品安全敏感信息监测、农产品安全自动摘要等。在此基础上,进行农产品的安全趋势预测、安全舆情预警、安全舆情报表服务、安全舆情分类、安全专题追踪、安全统计分析、安全高危舆情、安全舆情检索和用户个性化定制等,包含了农产品安全监测的各个方面,总体上能够满足用户的农产品安全舆情监测需求。
2.2.4 系统管理模块
舆情管理模块包含两部分,一是农产品安全舆情管理,包括舆情报告管理、舆情话题管理、舆情文档管理等;二是舆情系统管理,设置系统的相关信息,包括系统权限管理、系统角色管理、系统字典管理等。舆情发布管理主要是舆情报告的生成,系统通过预先设置的统计报告生成模板,生成用户所需的舆情报告。舆情话题管理主要是实现话题的增、删、改操作。舆情系统管理主要是对系统的基本信息进行配置管理。主要包括用户权限的管理、角色管理、用户管理和系统配置信息管理等。
3.1 系统开发环境
农产品安全舆情分析系统软件是在NET环境下采用C#语言进行开发,系统是基于B/S架构设计,用户可以不受地域的限制和B/S架构的平台无关性,可以随时随地进行查询和浏览等。系统数据库开发工具采用MySQL关系数据库。
3.2 系统应用情况
农产品安全舆情分析系统通过一系列的对数据的处理,最终结果将以可视化的界面与用户进行交互。目前,本系统部署在中国农业科学院农业信息所,利用信息所的平台,包括大型的服务器、农产品安全预警方面专家和科研团队,采集模块可以全天候24 h进行农产品安全舆情采集,通过系统分析,结合专家和团队的意见,实现农产品安全舆情全方位、多方面的监测。系统目前运行良好,具有一定的应用价值。
[1] 中国互联网络信息中心.第35次中国互联网络发展状况统计报告[EB/OL].[2015-01].http://cnnic.cn/gywm/ xwzx/rdxw/2015/201502/W020150203456823090968.pdf.
[2] 郭林宇,戚亚梅,李艳,等.农产品质量安全网络舆情监测工作的几点思考[J].中国食物与营养,2012,18 (12):5-7.
[3] 崔建玲.2014年我国农产品质量安全舆情概况[J].农产品市场周刊,2015(8):22.
[4] 张彧.基于Nutch的农业信息垂直搜索引擎的研究与实现[D].北京:北京邮电大学,2013.
[5] 刘群,张华平,俞鸿魁,等.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429.
[6] 李海蓉.基于概念向量空间的文档语义分类模型研究[J].图书情报工作,2011,55(24):106-108.
[7] 田文颖.面向专业领域的文本特征提取技术研究[D].北京:国防科学技术大学,2009.
[8] 李祥洲,钱永忠,邓玉,等.2014年农产品质量安全网络舆情特征分析研究[J].农产品质量与安全,2015(1): 41-47.
(责任编辑:张瑞麟)
S 126;F 307.5
A
0528-9017(2015)09-1464-04
2015-04-17
中国农业科学院科技创新工程农业网络创新基金项目
陈 涛(1989-),男,江西萍乡人,在读硕士,研究方向为信息管理和数据挖掘。E-mail:lotus.ct@hotmail.com。
刘世洪。E-mail:lotusct@16.com。