摘要:首先从粮食安全的分析入手,引入了粮食舆情信息挖掘的必要性和紧迫性,介绍了Web挖掘的应用情况,重点阐述了当前粮食舆情分析面临的难点,提出了解决问题的方法,构建了粮食舆情分析系统的框架,说明了设计思路和各部分的主要功能。
关键词:Web挖掘;文本分类;粮食舆情;舆情分析
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)10-2426-03
粮食是人类生存之本,粮食安全问题已经成为世界范围内关注的最重要的问题之一。粮食信息数据量大、市场供求信息不明确、技术保障不到位等因素对我国粮食安全敲响了警钟。2009年初中国爆发了几十年来最严重的一场旱灾,国内市场充斥着粮食供应可能趋紧并有可能大量进口粮油产品,以及全球粮油价格将由中国的大量进口而出现暴涨等网络言论并造成了一定的影响。
因此如何引入新的技术手段对粮食情报信息实现有效监管,如何在海量的粮食网络资源信息中,快速有效地挖掘蕴含有巨大潜在价值的粮情知识和信息,同时过滤掉大量无用的或不相关的粮情内容,准确地定位所需要的信息并自动分类,以保证粮食安全,已成为一项重要而迫切的研究课题。该文就基于Web挖掘在粮食情报分析中的应用进行了一些讨论,并提出了一个基于Web挖掘的粮食舆情分析系统的框架。
1 粮食舆情系统模型设计
1.1 Web挖掘简介和粮食舆情分析难点
Web挖掘是从大量Web文档集D中发现隐含的模式W。如果将D看作输入,P看作输出,则Web文本挖掘的过程可看作从输入到输出的映射,即F:C→P。网络舆情是公众利用互联网表达或传播的对热点事件和问题的看法和所持观点的较有社会影响力的态度。利用Web挖掘技术进行主题追踪的舆情分析成为近年研究的热点。任海果研究了主题事件的追踪技术,实现了对热点事件的发现、演化和趋势分析[1]。Federico Neri等研究了1000个关于意大利公共广播服务意见的Facebook网贴,得到了观众关注度和兴趣度,并在开源情报信息和Web挖掘中得到应用[2]。Wang等利用垂直搜索技术收集互联网上关于食品质量和安全的网络信息,搭建了食品安全的网络舆情分析系统,满足了对食品安全网络舆情的有效监管[3]。但由于粮食信息的特殊性和复杂性[4],使得粮食舆情信息的采集不够全面,现有分析系统的分析不够深入,总体来说粮食网络舆情挖掘扔存在着一下难点:
1) 粮食舆情影响因素复杂。粮食舆情受多种因数的影响,和粮食直接相关的有粮食产量、销售价格、产地、供求关系等因数,此外还有气象条件、病虫害的等间接影响着粮食安全,目前对粮食安全因素的挖掘不够全面。
2) 粮食舆情信息的存储位置和方式复杂,没有统一的系统来采集各种形式的粮食信息。如粮食产业信息资源,如灾害史、产量信息、气象条件等,并发存储在各家统计机构、管理机构、经营机构的网络环境中,并且没有统一的数据表示形式,没有开发出联合采集各家机构和组织中粮食数据的采集或者存储方法和策略,不利于粮食舆情信息的整合和关联分析。
3) 粮食舆情信息牵涉面广,没有融合各方面信息处理方面的优势。在粮食信息处理方面,没有实现统计学、模式识别、人工智能以及人工神经网络等多种分析方法融合的决策策略。
4) 没有提出预测和预防模型。现在的网络舆情分析往往注重于热点的发现,没有为热点事件建立等级级别区分管理和提供预防,同时对于发现的灾难事件,没有定量的分析灾害危害的严重程度和预警级别。
利于舆情分析技术实现对粮食舆情信息的监控和管理成为一项紧迫的课题。为了解决以上问题,该文设计了一个粮食舆情分析架构模型。
1.2.2 舆情信息预处理模块
舆情信息预处理模块的主要功能是:对采集到的相关网页进行去噪处理,如对广告、注释等噪声数据进行清理,然后用统一的结构化的格式进行文本表示,然后利用分词技术、特征提取技术、权重计算技术等进行特征选择,构建粮食数据仓库,利用分类器实现文本的分类。文本分类技术是整个预处理模块的核心,其步骤描述如下:
本模型主要包括以下三个方面功能:
第一、通过对粮食舆情主题检测进行热点、敏感信息的发现,并针对特定的粮食安全主体,如粮食价格、供求关系、气象条件等各个主题跟踪技术处理,同时设计融合各方面因素的分析策略,及时发现安全隐患,并提供预警信息。
第二、对特定粮食安全事件的公众所持观点和关注度的分析,掌握事件发生、发展和加强的可视化时间序列,开发基于区域性舆情的分别汇总,提供实时的空间和时间的网络舆情趋势信息保障,有利于决策者实施适当的措施。
第三、利用灾害预测、分析和预防的决策系统,对多发性的、危害严重的灾害构建主动分析、及早预测和及时预警的机制,提供相关、相近主题的预防措施经验。同时针对灾害引起的其他方面的问题进行关联分析,比如旱灾有可能引起局部供求关系失衡,灾害的严重性导致价格波动的范围等建立定量的数据分析方法发现彼此存在的联系。
2 结论
利用Web挖掘技术实现对粮食信息的监测,有利于充分海量的粮食网络信息资源,能够及时发现粮食热点事件,为粮食安全提供预警服务。该文着重分析了当前粮食方面舆情分析系统存在的不足,提出了解决方案,构造了一个较完善的粮食舆情分析架构。通过各种算法的编码和改进,实现本文所构建的系统是进一步研究的方向。
参考文献:
[1] 任海果. 基于主题事件的舆情分析系统的设计与实现[D].北京:北京邮电大学,2012.
[2 ] Neri F, Aliprandi C,Capeci F,et al. Sentiment Analysis on Social Media[C]. Istanbul, Turke:Advances in Social Networks Analysis and Mining,2012:919-926.
[3]Wang Su, Liang Meiyu, Gao Tian and Du Junping. Realization of Product Quality and Food Security Internet Public Opinion Supervision System[C]. Jinan, China:Proceedings of the 8th World Congress on Intelligent Control and Automation, 2010:2736-2739.
[4] 龙方. 新世纪中国粮食安全问题研究[J]. 湖南农业大学学报:社会科学版,2007 (3):7-14.
[5] 孙立伟,何国辉,吴礼发. 网络爬虫技术的研究[J]. 电脑知识与技术,2010(15):4112-4115.
[6] 曾锡山,胡俊荣. WEB文本海量数据挖掘应用中的多点数据采集及处理问题研究[J]. 情报杂志,2010(8):131-135.
[7] 张丰.面向网格的海量时空数据访问、集成与互操作研究[D].杭州:浙江大学,2007.