白海亮?冯梅
摘 要 重庆广播电视集团(以下简称“重庆广电”)融媒体系统是重庆广电积极响应国家号召,依托“两江云”平台搭建的融合媒体系统。该系统旨在构建全方位、全覆盖的全媒体体系,实现传统电视节目与新媒体业务的流程一体化。本文主要通过高可用机制、备份机制及监控告警机制来分析如何实现该系统的技术保障。
关键词 广电;融媒体;高可用
重慶广电融媒体系统技术保障方案是融媒体综合业务平台各业务系统遇到紧急情况或运行中断后为恢复相关服务所采取的快速有效的应对手段。通过建立包含应急启动、执行、恢复等流程、步骤和技术操作方案,为系统相关部门、人员处理应急情况提供指导,保障平台业务系统的安全、平稳运行。
针对融媒体系统成立专门的技术保障工作协调小组(以下简称“保障小组”)负责技术保障工作,决定融媒体系统技术保障工作的重大事项,组织实施、业务协调和发布融媒体系统应急指令,发布系统决策处理方案[1]。
该方案适用范围是融媒体系统有关的所有组织体系和人员,适用于融媒体综合业务平台运行所需的功能,操作和资源。该方案适用于融媒体系统应对突发事件所导致业务中断,需要采取应急处置和恢复措施予以操作的事件。
1高可用机制
在做系统架构设计时,对基础共用类服务和核心应用类服务都采用负载均衡,主备,集群等高可用架构,最大限度提高系统的可用性。并且考虑到了高负载及服务器宕机等多种情形,保证了整体系统对外服务的稳定性。
1.1 基础服务的高可用
MySQL数据库采用主备架构,并实现读写分离,既保证了数据的灾备又保证了数据使用的高效;MongoDB数据库采用副本集+分片的模式设计,以3台服务器进行配置,多台服务器并存,数据储存实行切片制,可以为密集读写提供保障;RabbitMQ消息队列采用镜像模式,含有内存高效调度与磁盘同步写入。
1.2 应用服务的高可用
融媒体系统统一认证服务CAS、云平台外网访问代理和工具类、资源类API等均采用LVS+Keepalived服务器负载均衡;转码,截图、快编等服务均采用集群式设计,提高处理能力及自身服务的稳定性。
2备份机制
系统数据备份是所有系统中最重要的技术保障机制,融媒体系统必须保障各项业务数据的安全性,防止突发意外事件导致的安全问题,制定了统一的系统和数据备份标准与规范,采取数据备份技术,保证业务数据和系统软件的安全性。
2.1 应用软件包备份
在融媒体系统的备份服务器上针对各包分配相应的备份存储空间,统一管理线上应用系统软件包。按照“软件名称_版本号_年月日”进行备份。
项目更新前期备份:按“公司名_.bak”的格式备份,备份目前软件包,如果同一个软件包当天更新多个版本,之前的版本可依次按“公司名_软件名称_版本号_年月日.bak1”,“软件名称_版本号_年月日.bak2”等备份,备份位置为项目上级backup目录。
项目更新过程:项目服务自动切换到备用系统,在不影响系统整体对外服务前提下,将更新包更新到主服务系统,完成关键性测试后,将项目服务切换到主服务系统,再对备用系统进行更新升级。
2.2 操作记录备份
项目相关系统配置、更新的操作完成后计入《操作记录》,相关人员事后将《操作记录》备案,抄送所有涉及部门;关于服务器增减,架构变化的操作,出具《架构更新方案》经过领导层邮件审批后方可进行,完成后邮件通知涉及部门并计入《服务器整改记录》[2]。
2.3 数据库备份
对于MySQL,MongoDB等数据库实行脚本定时备份,备份数据存放于私有云的备份服务器上。并以“公司名_数据库名_应用名”规则进行数据备份。
2.4 存储安全备份
融媒体系统虚拟化存储采用主备双活机制,在主存储故障时备存储会自动接管,保障整个系统虚拟化的正常运行,保障融媒体业务的安全;融媒体系统业务存储采用分布式存储,采用N+2模式在有两个节点故障时依然能够保障业务数据的安全。
2.5 系统备份
融媒体系统有快照功能,如果系统层面出现故障导致无法恢复性错误,可以用快照等方式恢复系统到最佳状态;系统镜像在融媒体系统各区域交叉备份,每次程序有更新时对该系统生成一次系统镜像备份,并将系统镜像拷贝一份到分布式存储。防止单区故障引起的配置及数据丢失,最大限度保障系统稳定性及高效性。
2.6 媒体文件安全管理
融媒体系统中每个应用都分配独立的存储标识,存储空间互不干扰;采用限制访问IP策略及用户名密码访问权限等保障文件访问的安全;采用统一的文件管理系统,设有回收站等安全删除策略。在误删时可以从回收站中进行还原。
3监控告警机制
融媒体系统有统一的云管理平台,使用企业级监控系统zabbix对网络服务器CPU,内存,磁盘读写,网络流量,数据库状态,特定进程,以及核心业务进行全面实时监控。并设置告警阈值,当运营指标超过告警阈值时,监控系统将自动发送报警信息给运维和管理人员,以便快速响应突发情况。
通过监控告警等渠道获悉服务器或服务将受到或已经受到影响时,保障小组可以在第一时间予以响应,并采取有效措施,以避免整体服务受到影响,尽最大限度保障对外服务的高效运行及稳定,在处理故障的同时严格按照故障流程进行处理。
故障排除后,保障小组需向系统使用人员发出系统运行正常通知,并且对系统发生故障的原因、影响及处理结果进行全面的经验总结,出具详细文档备案记录。
参考文献
[1] 付丽群,何金宝.网络中心核心机房数据备份的设计与实现[J].华人时刊(下旬刊),2015,(4):90.
[2] 张钰.广播电台音频节目制播系统存储架构设计[J]. 广播与电视技术,2016,(9):76-81.