基于大数据架构的舆情数据中心分析与设计

2020-11-18 14:00周奇印鉴张良均
现代计算机 2020年28期
关键词:舆情架构数据库

周奇,印鉴,张良均

(1.广东开放大学信息与工程学院,广州510630;2.中山大学数据科学与计算机学院,广州510630;3.广州泰迪智能科技有限公司,广州510630)

1 建设背景

自习近平主席在2013 年9 月和10 月分别提出共建“丝绸之路经济带”和“21 世纪海上丝绸之路”(简称“一带一路”)的重大倡议以来,丝路沿线国家及国际社会反响强烈。从国际舆论情况的来源看,既有来自政界、学界、商界、媒体的声音,也有来自民间公众的评价。从其性质看,既有积极和充满期待的一面,也有谨慎和疑虑的一面,还有反对、诋毁的杂音。从其认知内容看,既存在合作互信现象,又存在知之甚少现象,甚至不乏错误解读现象。准确把握相关国家的丝路观、了解它们的利益与诉求,有助于我们科学研判与决策,讲好丝路故事,克服认知风险,营造积极的国际舆论氛围,顺利推进与丝路经济带国家的务实合作,实现共同发展、共同繁荣、合作共赢之目标。

目前“一带一路”已经设计包括亚洲43 国、中东欧16 国、独联体4 国、非洲1 国在内的共64 国。由于域内民族众多,教派林立,更有众多历史遗留问题,了解相关国家政府、民众对“一带一路”的态度,解读相关地区和国家对“一带一路”倡议的公共话语与基本认知,才能更加有针对性地摸索对外传播“一带一路”倡议的重点,逐步降低和打消相关国家的疑虑;同时提升中国国际舆论话语权,力避中国在全球舆论场中的失语问题。

2016 年10 月29 日,首届中国国际舆论学年会在广东外语外贸大学召开,华南首个新闻大数据联合实验室落户广外。在中国走出去融入国际社会的过程当中,国际舆论以及通过国际舆情了解中国在国际的身份,中国怎么样以更好的姿态更有效地走出去,如何更好地做好舆情分析的研究支持工作成为义不容辞的责任。

2 现状及需求分析

2.1 现状

(1)信息获取过于分散收集效率低

互联网日益发达的今天,我们获取信息的途径也变得越来越丰富,足不出户就能掌握全球资讯。资源越多意味着我们要收集这些信息需要花费的时间就越多,如“一带一路”有来自各国政界、学界、商界、媒体的声音,也有来自民间公众的评价,而这些信息分布在国内外各大主流网站、论坛、博客、贴吧、微信,等等,要进行这些信息的收集需要发大量的人力物力,同时信息完整度和时间得不到保证。

(2)获取大量相关信息后无法进行处理和判断

大量的各类信息收集完成后,需要根据需求进行信息处理,去除垃圾信息,并作出相应判断。面对这类重复性多且任务烦重的工作,少量人力短时间内无法完成,同时得出来的数据偏向于个人情感。

(3)各信息间难以归类分析

要准确掌握资讯最新动向,需要结合前期资讯作出归类分析,结合经验得出事件趋向,达到先知先断的效果。而要做到信息归类分析,需要作很多相应工作,同样费时费力。若这些工作不能按时完成,归类出来的结果也失去了意义。

2.2 机遇

习近平总书记指出,互联网是我们这个时代最具发展活力的领域。互联网快速发展,给人类生产生活带来深刻变化,也给人类社会带来一系列新机遇新挑战。新大型数据新闻节目——《数说命运共同体》,节目挖掘超过1 亿GB 的数据,分析发现“一带一路”沿线国家40 多亿百姓休戚相关的密切联系。让沉默的数据说话,它们呈现出来的,是“一带一路”国家间前所未见的联系图景。

2017 年8 月24 日,中国电子信息产业发展研究院在工业和信息化部信软司指导下发布了《中国大数据产业发展水平评估报告(2017 年)》(以下简称《评估报告》)。作为《大数据产业发展规划(2016-2020 年)》颁布后的第一个年度大数据产业评估报告,为我国大数据产业健康发展和相关产业管理工作提供了有力支撑。

2.3 需求分析

随着互联网的发展大数据不断地向社会各行各业渗透,为每一个领域带来变革性影响,并且正在成为各行业创新的原动力和助推器。互联网社交互动技术的不断发展创新,人们越来越习惯于通过微博、微信、博客、论坛等社交平台去分享各种信息数据、表达诉求、建言献策,每天传播于这些平台上的数据量高达几百亿甚至上千亿条,这些数量巨大的社交数据构成了大数据的一个重要部分,这些数据对于政府收集民意动态、企业了解产品口碑、公司开发市场需求等发挥重要作用。

舆情资讯信息涵盖的内容很多,对这些内容分析需要一个专门的分析平台做处理,以减轻人员工作量及数据准确度,以极度的时间分析掌握各事件动态,及发展趋势为进一步推理提供数据基础。

需要一个分析平台去把事件归类,以应对不同的分析场景,如政策、经济、旅游、文化等为类分析,让结果更有针对性,方便针对性的解析问题。

通过平台实现对世界各国和地区宏观经济、投融资环境、项目需求、项目进展、风险评估等信息采集、解析和数据挖掘,直观显示信息变化。

3 总体流程

图1 展示了平台基本建设流程。

图1 平台基本建设流程

信息采集、解析与转换:进行网络爬虫,并解析网页得到所需信息,通过语言转换过程将解析后数据统一翻译为中文,并存储至业务库;

数据预处理:针对每一个文章记录,进行分词、词性标识、实体识别等预处理过程,为后续的数据挖掘建模提供基础;

挖掘建模:针对不同的应用场景,建立不同的模型,如文章分析、事件识别、事件分析、网民分析、舆情监控预警等;

应用:将模型预测的结果进行展示,为最终用户提供可视化,包括事件统计、热点分析、观点分析、情感分析、监测预警。

4 总体建设规划

舆情大数据分析平台的建设规划是基于一网、二化、三库、五应用四个方面展开的。

(1)一网

即我们的舆情大数据分析平台,利用数据采集、云计算、数据挖掘等技术,构造的一个应用平台,它通过一个入口,用户通过浏览器即可访问有权限的数据及分析结果。

(2)二化

即标准化和可控化。标准化即数据格式要标准化、处理流程标准化、分析过程标准化。可控化即平台将采集的数据从不同维度、不同密度进行分析,预测并发现热点事件与负面舆情,对公共政策提供基于大数据的评估和建议。

(3)三库

三库即业务数据库、媒体事件库、主题分析库。业务数据库即从不同的网页爬取“一带一路”相关网页信息,并通过排重、解析、翻译等一系列过程将结果数据汇集而已。媒体事件库即将业务数据进行预处理后,分解聚合为网民、评论数据、媒体事件等可供分析的数据库。主题分析库即将媒体事件库数据从不同维度、不同密度进行分析挖掘形成的数据库。通过建立关联耦合的数据库,因虚而实,形成持续数据,实现超融合、超预期的工作支撑。

(4)五应用

应用即为展示给最终用户的分析结果。包括事件统计、热点分析、观点分析、情感分析、监测预警。

5 项目部署网络拓扑图

图2 平台网络拓扑结构

6 总体应用架构

舆情大数据分析平台在充分考虑业务的平稳运行、满足性能要求的前提下,从数据采集、支撑框架、大数据中心和综合应用等方面提供可行的应用方案,其应用架构如图3 所示。

图3 平台应用架构

(1)数据采集层

整个平台通过数据采集层实现从不同网页、不同终端数据的抓取及汇聚,形成集中统一的数据资源。这些数据资源是整个平台所有功能模块运行的核心基础,因此数据采集层也是整个平台架构中的基础。舆情大数据分析平台通过数据采集层和不同系统进行对接,获取上层数据处理应用所需的各种数据,如媒体报道、网友评论、贴文等;也能够支持不同数据类型的获取,如各种主流数据库、非结构化数据文件(如网页数据等等)。

(2)数据处理层

在数据汇聚到融合平台上以后,通过数据处理层实现对平台数据的底层处理工作,为上层功能模块提供有力的工具保障。可以说,数据处理层是整个大数据平台的核心所在。应该将完成业务信息库、媒体数据库和主题数据库的整理,完成数据中心、综合应用中心、分析挖掘平台所支撑的计算及分析处理。通过这层数据处理实现数据在整个生命周期内的所有管理功能,并提供了完善的数据模型和开发接口,为上层应用系统的功能模块封装了必要的、完善的实现手段。

(3)数据应用层

数据应用层是根据舆情大数据分析平台的具体项目需求设计的具体功能模块和展现效果,利用数据处理层提供的资源和接口,对数据采集层汇聚过来的数据,按照不同的业务逻辑进行处理和展示,是整个数据综合平台的核心价值所在。本项目的目标在于利用大数据的手段,通过对多源数据的融合和在分析平台上进行配置及定制化开发。为更好的实现这一目标,在分析平台上利用融合汇聚的各系统数据,重新定义了新的业务系统。区别于传统应用系统各自独立的设计方式,在综合平台中,我们将业务系统的上层展现与底层的功能模块进行分离,通过对不同应用子系统业务逻辑的深度分析和挖掘,开发出不同类型的功能子模块,便于各个业务系统根据需要选择接入点,应用之间通过服务总线进行有效交互,以适应未来业务发展的需求,实现信息、资源的共享和重用,提供数据共享及服务共享能力。

7 系统技术架构

舆情大数据分析平台主要从软件层面提供平台级的应用支撑能力,基于最底层的Linux 集群基础设施,提供PaaS 层的平台服务,在其之上提供SaaS 层应用。

在PaaS 层提供数据采集服务、分布式文件存储服务、分布式数据库服务、数据搜索服务、分布式离线计算服务、实时计算服务、数据挖掘服务、分布式消息队列服务、分布式协调服务、开放式监控服务以及集群管理。

在DaaS 层构建数据库群,包括业务数据库、媒体事件库、主题数据库。

在SaaS 层提供应用级别的服务:情感分析、观点分析、热点分析、监测预警和事件统计。平台技术架构如图4 所示。

图4 平台技术架构

8 结语

本文对舆情数据中心的基本建设流程、部署网络拓扑图、总体应用架构和系统技术架构进行分析与设计,能对大量的舆情资讯信息进行科学有效处理,以减轻人员工作量及数据准确度,以极短的时间分析掌握各事件动态,及发展趋势为进一步推理提供数据基础。

通过对分析与设计平台把事件归类,以应对不同的分析场景,如政策、经济、旅游、文化等归类分析,让结果更有针对性,方便针对性地解析问题,能对信息采集、解析和数据挖掘,直观显示信息变化。

猜你喜欢
舆情架构数据库
功能架构在电子电气架构开发中的应用和实践
基于B/S架构的图书管理系统探究
构建富有活力和效率的社会治理架构
数字舆情
数字舆情
数据库
消费舆情
数据库
VoLTE时代智能网架构演进研究
数据库