基于天翼云的互联网舆情大数据系统建设研究

2020-06-09 07:52李网灿
江苏通信 2020年2期
关键词:子系统舆情站点

李网灿 赵 勇

中国电信股份有限公司江苏分公司

0 引言

互联网信息技术和移动通信技术的发展,使网络媒体进入人们的日常生活,每个人都可能是信息的提供者、传播者和阅读者。与此同时,网络舆论也随之产生,人们通过微博、论坛、博客等发表着自己的看法、转发自己关注的消息、关注热点及自己关心的内容。舆情已成为当前社会和谐度和稳定度的标志,成为社会各界的关注焦点。互联网舆情监测以及相关的大数据分析已经成为各级政府与大型品牌企业的一项基本工作。由开始的人工搜索、自建系统到购买相关舆情公司的云服务,这些都为政府和企业提供决策辅助。当然,无论是自建系统或是舆情公司建设的舆情云服务平台,传统购买服务器方式使系统的建设与运维成本越来越高。

中国电信天翼云从数据层、中间层、Web 层、服务层、安全与监测层、弹性负载层几个方面提供全方位的服务,能够大大降低舆情大数据系统的建设成本。如何利用天翼云建设一套高效、先进的舆情大数据分析系统是本文研究的内容。

1 研究现状

当前各级政府和企业对互联网舆情的监测,基本采用自己投资建设,或向专业舆情服务商购买类似江苏电信舆情云这样的云服务。这些自建系统或舆情服务商在进行系统建设中,往往采用购买物理机或租用普通云主机的形式。随着互联网应用的日新月异以及大数据分析的需要,系统在建设和运维过程中,采集系统、存储系统、分析系统以及应用系统,都需要不断进行硬件扩充和各类支撑服务系统的建设,造成运营成本越来越高,开发效率日益低下。

中国电信天翼云提供云主机,是一种可实时获取、弹性可扩展的计算服务。天翼云采用BS 三层架构,能够有效降低建设和维护成本,同时也简化了系统的运维和管理。对于像舆情大数据分析系统这类大规模和复杂的应用系统部署,能够快速、低廉、安全的部署与实施。

本文根据江苏电信舆情云系统建设经验,结合中国电信天翼云的服务,对互联网舆情大数据系统框架进行了重新研究与定义,研究如何利用天翼云提供数据层、服务层、中间层Web层、弹性负载层、安全与监测层,对采集子系统、存储子系统、大数据子系统以及应用子系统进行重构与设计。

2 系统设计与部署

2.1 舆情云系统功能设计

从舆情系统的整个业务流程来分析,网络舆情系统需要从互联网上进行海量数据抓取,进行分析打签并入库,再根据用户及业务需求,对数据进行加工分析,通过应用系统进行展示。在系统设计与实现时,可以把一个舆情系统功能模块分为采集子系统、存储子系统、大数据分析子系统、应用系统,该系统业务功能如下图所示。

图1 舆情云系统功能图

2.2 采集子系统

采集子系统是整个舆情系统的基石,为后面大数据分析提供数据来源。基于舆情业务的特点,该子系统要求能够实现数据的全面性与实时性。数据全面性取决于站点的覆盖面,实时性则取决于采集子系统资源的快速与动态扩展性。江苏电信舆情云系统数据采集方式主要通过两种方式实现。

2.2.1 元搜索技术

一种是根据用户指定的关键字在互联网引擎服务提供商所提供的搜索引擎上进行搜索,并自动采集搜索到的目标网页内容数据。

2.2.2 Spider 技术

再有是通过各种Web 协议对站点库中各站点进行轮询全站采集、入库,大数据子系统再根据用户需求,将用户需要数据进行分析并推送展现给用户。

采集资源使用部署在全国各地的天翼云主机,能够快速地采集各网站数据,并根据目标网站的更新频率智能调整采集策略。高速的带宽、可靠的环境、智能的策略共同保证数据的及时性。

2.2.3 站点库的自我完善

采集子系统以元搜索为基础起点,通过元搜索获取数据及站点,并将站点存入站点数据库。同时Spider 模块对站点上超链接进行分析,发现目标信息URL 时均可识别之前未纳入监测系统的新网站,二者互补即可完成新站点的添加,保证站点库自我补充与完善。该系统流程如图2 所示。

图2 采集子系统站点库自我完善流程图

2.2.4 采集子系统的部署

部署实施中,系统对资源的需求是一个动态扩展过程,这些资源包括CPU、内存、存储、IP 归属等资源的弹性扩展。

(1)传统部署方式

若采用传统物理机方式进行部署,前期需要预估系统最大峰值资源需求,当资源没有达到峰值时,资源处于浪费状态;再有,后期服务器运维也需要投入大量成本。当出现超出预估资源需求时,从采购到部署周期较长。采用传统云主机方式,虽然可以临时进行资源动态扩充,但其部署与运维成本也较大。

(2)天翼云部署方式

江苏电信舆情云,如图3 所示,通过部署在全国各地的中国电信天翼云,提供弹性云主机,它由CPU、内存、镜像、云硬盘等组成,根据采集子系统业务使用量配置和策略,在满足业务需求的前提下,减少资源投入。

图3 天翼云主机弹性扩充示意图

通过为采集子系统提供全国不同区域的IP 资源,基于不同类型站点Spider 采集模块,可以配置私有ECS 实例上的OS选择和应用系统配置,私有镜像创建云主机,将原来部署单台采集模板主机需要花费的时间从数小时缩短到几分钟。

2.3 存储子系统

该子系统在处理互联网上海量非结构化数据时,通过数据分析、数据挖掘,将海量非结构化数据转化为用户需要的结构化数据,并提供原始链接,保存内容摘要。同时需要根据舆情系统业务特点,设计与搭建一套分布式数据存储系统,使该系统具有冗余与备份功能。

为提高用户体验,以索引查询服务的方式对信息进行高效查询,同时为应对海量信息,本系统需要设计与搭建分布式索引服务器。

(1)传统部署方式

为实现以上功能,传统系统除了硬件投资外,还需要大量技术人员的投入,需搭建分布式索引系统、异地数据备份与同步等设计与部署,而在系统部署后,需要投入大量运维资源。

(2)天翼云部署方式

天翼云提供如下图的一系列PaaS 服务,只需直接使用分布式存储、异地备份、分布式索引等服务,还可以按需动态调整。

图4 天翼云PaaS 服务示意图

2.4 大数据子系统

大数据子系统是舆情系统的核心部分,它是在采集子系统采集数据的基础上,对存储数据进行分类与分析。系统采用的是分布式实时计算框架Storm,Storm 是目前流行的分布式实时流计算框架之一,它提供了可容错分布式计算所要求的基本需求和保障机制,可以满足高吞吐,实时满足关键业务应用的需求。该技术对计算资源的弹性要求较高,要能够支持分布式计算系统,同时支持快速进行资源调整。

基于自然语言AI 的机器学习系统的搭建,可用于实现舆情数据正负面信息的学习判断。采用数据建模和数据挖掘技术和“数据清洗=>特征,标注数据生成=>模型学习=>模型应用”的步骤,基于数据仓库模型对数据进行分类,清洗掉无用数据,推送真正有用、准确的数据。

(1)传统部署方式

以上技术在实施时,对资源的需求是动态的,特别是情感分析模型训练完成之后,需要对云计算资源进行回收,传统方式需要购置大量云主机,在完成这些计算后相当长一段时间内会造成资源闲置与浪费。除此之外,还需设计计算资源的调度系统,增加系统成本和系统故障点。

(2)天翼云部署方式

天翼云提供弹性伸缩(CT-EAS ,Elastic Auto Scaling)服务,能够自行定义业务使用量配置和策略,灵活进行下发和配置,并且按需调用资源。如图5 所示。

图5 弹性伸缩服务任务下发示意图

2.5 应用子系统

应用子系统直接面向用户层,这里的用户不仅包括舆情系统的最终使用人员,也包括系统运维人员。舆情系统展现给最终用户的内容包括信息展示模块、图表分析模块、移动服务模块。系统运维人员需要对系统进行管理,进行软硬件性能监测、系统安全防护以及其他增值服务的接口管理等。

(1)传统部署方式

运维人员在搭建和部署业务系统时,传统方式和天翼云方式差别不大,但在实施系统监测、安全防护等工作时,传统方式需要投入昂贵的软件和硬件系统。

(2)天翼云部署方式

天翼提供的云监测(CT-CW, CloudWatch)服务,针对用户各种虚拟化资源,从不同维度不同指标项的数值进行收集聚合,帮助用户实时监测其资源的动态,包括弹性云主机、云硬盘、弹性负载均衡、虚拟私有云、RDS、弹性伸缩组等相关指标。天翼云为用户提供安全检测、DDoS 防护服务,使得运维人员可以完全从系统安全的防护中解脱出来,通过这些增值服务不仅提高了舆情系统的安全防护能力,还能节省人员和设备的投资。

3 总结展望

本文从舆情大数据系统的整体架构设计,结合中国电信天翼云的服务内容、江苏电信舆情云系统的建设经验,分别从舆情采集子系统、存储子系统、大数据子系统、应用子系统几个方面,提出如何利用中国电信天翼云进行系统建设。

目前该研究成果正在江苏电信舆情云系统实施,初步测试结果证明,搭建在中国电信天翼云上的舆情系统与传统私有部署方式有以下优势:

(1)直接投资成本低。由于采用弹性云计算,使得系统建设不需要一次性投资,后期根据业务拓展动态投资,大大提高了资金利用率。初期能够节省60%左右的投资,到中期预计也将节省35%的投资,资金利用率达到95%以上。

(2)研发运维成本降低。基于天翼云提供的多类数据层及中间层服务,使得舆情云研发团队不需要投入相应的研发人员进行系统开发,后期维护人员的数量、技术要求也大大降低。

(3)可靠性安全性更强。基于运营商级的硬件和安全防护,其稳定性、防护能力与性价比是传统模式所无法比拟的。

(4)分析效率更高。基于自然语言AI 情感分析模型的训练不定时地需要海量计算资源,天翼云灵活地弹性计算能力快速扩展,使得分析效率和准确性也不断提高。基于天翼云强大灵活的计算能力,江苏电信舆情云针对政府行业敏感类数据判断准确率在85%以上,非敏感判断准确率在95%以上,目前在业界处于领先位置。

猜你喜欢
子系统舆情站点
不对中转子系统耦合动力学特性研究
GSM-R基站子系统同步方案研究
基于Web站点的SQL注入分析与防范
驼峰测长设备在线监测子系统的设计与应用
积极开展远程教育示范站点评比活动
首届欧洲自行车共享站点协商会召开
消费舆情
怕被人认出
舆情
舆情