广西壮族自治区经济信息中心 梁铭之
大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。经济网络舆情信息是指人们借助互联网,对经济事务特别是经济热点、焦点问题所表现出来的有一定影响力、带倾向性的意见或言论,是人们对于经济事件的所有认知、态度、情感和行为倾向的集合。
经济网络段情监测的基本内容包括网络消费者信心分析、金融投资分析、房地产投资分析、双创活力分析、生态环保监测、价格监测等方面。
网络消费者信心分析,反映网民对经济形势的判断和未来经济发展的预期;投资分析从企业减负、投资准入和投资金融服务等方面反映民众对当前投资环境的判断和评价;房地产投资分析包括国家及各地楼市调控政策解读、房地产交易情况、当地政府楼市政策分析、楼市热点分析、房地产价格情况、下阶段预期等相关问题;双创活力分析从融资事件量、民众对双创的热情程度等方面反映当地双创活动的活力;生态环保监测从网民反映的生态环保问题、对环保关注程度等方面监测的生态环保情况;物价监测从网民反映的消费问题、主要产品产量的监测、生活资料和生产资料旬度价格监测反映当地物价走势。
利用大数据技术,对网络交易平台、社交网络、自媒体网站、企业经营网站信息进行抓取、采集,通过对半结构化和非结构化数据的清洗、处理、分析,采用数据挖掘、自然语言处理等大数据手段,能快速分析领导关注热点,辅助发现相关问题的解答方案。
数据挖掘技术是从海量的数据中发现隐含的、有意义的信息,并对未来的趋势及行为做出预测,帮助人们进行决策。数据挖掘分为两个的步骤:首先是确定业务对象,认清需要处理的问题及目的;二是数据处理,搜索与业务对象有关的数据信息,选择合适的数据,通过数据预处理,对数据的质量进行分析,确定要挖掘操作的类型,建立适合的挖掘算法分析模型,对数据进行转换、挖掘,最后得到分析结果并完成知识的同化。典型的数据挖掘系统通常由数据库、知识库、数据挖掘引擎等构成。系统可对数据库、数据仓库、万维网或其他信息库中的数据进行清理和集成,根据用户的数据挖掘请求,数据库或者数据仓库服务器负责提取相关处理结构。知识库主要包括某一领域知识,用于指导搜索或评估结果,完成数据挖掘任务。数据挖掘引擎是数据挖掘系统的基本组成部分,用于执行特征化、关联和相关分析、分类、预测、聚类分析、离群点分析和演变分析等任务。
文本情感分析是利用自然语言处理、机器学习、数据挖掘等技术,通过文本内容分析其作者的观点、态度、情感或者情绪,分析的文本对象包括新闻、评论、微博等。文本情感分析要建立情感词典,情感词典是作为情感倾向性和情感极性判断的重要依据,其质量决定了情感分析的效果,情感词典要随语言的发展进行不断的扩展。情感词典的扩充方法有两种方式:一是基于共现或相似度的方法,利用种子情感词、语义词典以及包含情感词的文本等资源,以候选词与种子情感词的共现、相似性等信息为依据,抽取情感词并判断其极性;二是基于分类的方法,将情感词抽取和情感极性判断视为分类问题,通过分类模型,将候选词划分到正面性、负面性和无极性三个类别中。
经济网络舆情系统结构包括数据采集层、处理存储层、数据分析层和平台应用层。
数据采集层,采集管理实现系统与上下层系统的接口对接,统一调度采集任务和进程,同时对信息进行统计分析和告警。采集配置实现对目标网站的采集配置进行管理。爬虫以分布式的方式部署爬虫,实现了爬虫多任务调配、多线程执行的工作机制,保障了爬虫的稳定、高效执行任务。
处理存储层,数据处理实现舆情数据预处理,包括数据排重、数据清洗等。数据存储实现数据的存储和读取。
数据分析层搭载了分词程序、遗忘算法、传播指数分析、实体抽取、情感分析、热词分析、地域分析、统计分析、可视化分析等分析程序。
平台应用层主要实现了经济舆情分类监测、事件监测、舆情预警、舆情报告等前端应用。
经济舆情监测系统架构图
主要功能包括:舆情工作台、分类舆情、舆情预警和舆情预告。
舆情工作台主要展示经济发展整体的舆情监测概况,包括舆情统计表、舆情漏斗、舆情栏目等功能。舆情统计表展示各个载体和时间的二维表数据透视结果;舆情漏斗展示从全量数据、相关数据、舆情数据、负面数据、正面数据以及预警数据的数据分析漏斗;舆情专题可以在经济发展专题设置中自定义分类和标签,选择数据展示方式后进行展示。
分类舆情是与对济发展数据进行分析展示和数据查询处理的工作系统,可按照设置的分类和标签进行联动筛选;支持舆情自主研判、手动加入预警、数据排重以及数据排序等;针对每一个经济问题分类的数据集合进行图表分析,包括载体趋势、文章属性、站点分布、任务活跃度分析等。实现经济分类舆情信息的实时更新,按照各种维度灵活的筛选和检索以及图表分析。
舆情预警针对与营商环境相关的重点舆情数据进行预警,包括手动预警和自动预警,手动预警即在全景舆情中边浏览边选中预警,自动预警即预先设置关键词进行实时分析预警。
舆情报告是经济舆情监测成果的输出功能,可针对指定的经济舆情分类进行报告制作,同时系统自动生成智能的月报,用户可自主订阅报告。
构建大数据经济舆情之“双创指数”。
2015年6月和2017年7月国务院相继发布多个双创指导文件,启动和加速了我国历史上前所未有的双创大潮。广西壮族自治区作为“一带一路”有机衔接重要门户,以及重点产业的承载区,构建广西双创指数,全面反映广西各个领域、各个行业、各个层级的创新、创业情况,对于监测广西创业环境及出台创业支持政策有着重要参考意义。
广西双创指数以“数据可采集、指标可计算、方法可比对、结果可解析、决策可参考”等为核心,以“规模、结构、质量”三个特征维度为着眼点,以系统梳理广西双创活动的“潜力、实力、动力、活力、合力”为突破口,构建双创指数测度体系的具体思路。
在指标体系研究的设计过程中参照和汲取国内外先进的经验,创新性的发展一套指标体系。在指标的选取上既有宏观的指标,又有微观的指标,微观指标来源于对创业者的调研以及从线上获得客观的微观指标。因为双创指数会持续、动态的更新和发布,所以数据可得性是未来指标体系继续发展非常重要的基础条件。另外,在指标的选取上还注重横向可比,跟国内、国际上先进的创新创业的指数构成可比性,能精准的衡量广西双创在国内和国际的位置。
通过各行业部门统计数据和互联网采集数据,借助大数据的技术手段,选取科技、经济、人才、环境四个与双创工作关联度较大的影响因素,形成四个一级指标,构建广西双创指数。使用大数据的清洗、分析、建模方法计算双创指数,科学、准确、及时地反映经济结构,优化升级的新进展。实现按月发布广西全区及行业的双创指数,较好的辅助“双创“决策。
本文提出了一个大数据经济网络舆情监测系统的设计方案和具体监测案例,从使用的关键技术、系统功能方面进行了描述、设计,利用该系统能发现话题并对经济舆情进行跟踪、分析,使经济管理者和决策者能及时监经济网络舆情,辅助经济决策。
[1]刘文.网络舆情监测系统设计及实现[J].指挥信息系统与技术,2015(10):56-60
[2]姚晔,石翠.网络舆情监控分析系统的构建探讨[J].科技展望,2016(12):262-263