基于分布式流计算的运维安全分析

2018-02-26 07:56吴志力杨世登
网络安全技术与应用 2018年2期
关键词:敏感数据数据管理日志

◆吴志力 陈 希 杨世登



基于分布式流计算的运维安全分析

◆吴志力 陈 希 杨世登

(深圳市脉山龙信息技术股份有限公司 广东 518000)

随着信息化的不断深入,越来越多的企业运营发展依赖于IT系统。每个与IT相关的公司和组织,都有IT运维的身影。企业业务逐步迁移至信息系统上运作,因此IT运维人员工作日趋繁重,IT系统存在的如投资黑洞、数据孤岛、技术与业务脱节等问题日益凸显。当IT运维跟不上产品的发展,能对外提供的IT服务产品必然大打折扣,甚至会因为事故妨碍到产品质量,从而带来巨大的经济和安全损失。本文将探讨基于分布式流计算来分析运维管理系统所产生的实时的、持续的非结构化的数据,从而实现运维安全,对于读者研究分布式计算技术具有一定的理论指导意义。

运维;安全;管理;分布式流计算

1 自动化巡检内容

目前自动化巡检对象涵盖了所有的生产主机及应用,固定巡检内容主要包括常见的入侵攻击检查、安全补丁检查、系统及应用日志检查、数据库安全配置检查等。巡检工具把历史积累的各种脚本按巡检内容进行逐步归类,作为巡检工具的基础项,也可以随时对巡检内容进行修改,所有的巡检动作全部可视化,并且巡视项、巡检方式、巡检主机等全部可以进行定制,巡检任务结束后会自动生成巡检报告,并能通过邮件、短信等第一时间告知关注人。

2 自动化巡检效果

通过将日常巡检报告自动化,不断来提升运维的自动化程度,通过脚本管理、故障诊断、拓扑图执行远程命令调用等功能规范日常运维操作;通过巡检可以保存系统性能数据、容量信息、配置信息为后期系统维护、升级、扩容提供决策数据支持;同时通过灵活的工具定制,达到了对各种等资源全面的监控,提升运维的专业化水平。

3 自动化告警处理

传统告警处理,主要靠人工操作,告警响应速度受到多方面因素的制约,如告警信息发布及时性、值班人员响应速度和对系统熟悉程度等;一旦值班人员错过了告警,就有可能导致系统故障或业务中断。

自动化运维工具通过告警消息自动触发故障处理流程,主动高效地识别和解决故障,极大的提升运维对故障的响应速度和缩短故障时间。

(1)快速高效地识别、解决和消除服务中断的根源。

(2)通过工具来查看、管理、诊断和解决问题。

(3)整合运维团队积累的、厂商的专业工具和知识来加速事件和问题的诊断和解决。

(4)自动进行故障问题定位并启用对应一键快速诊断定位性能问题:

①I/O性能问题;

②并发问题;

③低效SQL或者高负载SQ;

④对象争用;

⑤锁阻塞;

⑥运维人员可以通过自动化工具,根据告警触发或手工调度诊断流程,自动调度预定处理流程或方案(预定处理脚本集),最后返回诊断结果。

4 自动化数据管理

云架构下的IT系统越来越多,数据库管理员需要面对成百上千的数据库,数据存储将迈入EB级别,传统手工数据管理的难度越来越大。同时云架构中出于开发、测试、培训以及数据对外共享变现等目的,需要从生产环境中同步和迁移大量数据,其中亦会涉及大量用户隐私数据。而之前整体IT系统数据流和业务流的关系不太清晰,业务数据可视化展示程度很低,缺少可视化的企业整体数据地图,对于数据的维护困难重重。

5 云架构下数据管理规划

为解决传统数据管理上的痛点,让数据管理相关工作更加标准化和流程化,我们借鉴国内外IT业界先进的数据管理和运营经验,着手在数据管理领域的自动化运营工具作出了规划。整体规划如下图1。

图1 整体规划

6 云架构下数据安全管理

根据生产系统中敏感数据分布情况,建立敏感数据策略化管理。数据从生产环境向非安全环境(包括开发、测试、培训等)迁移时,数据安全管理员应当制定敏感策略,对数据进行自动化安全脱敏,减少敏感数据外泄的可能。

目前数据安全管理工具,实现从敏感数据识别、脱敏策略配置、数据迁移配置,以及数据在线和离线脱敏全程,自动化安全地将数据从生产环境向非安全环境迁移,同时在迁移过程中实施敏感数据脱敏。

7 分布式数据(应用日志等)采集

7.1数据采集

从各个节点上实时采集日志数据,可以指定目录或文件,通过flume实现,仅增量采集数据。

7.2数据接入

由于上述采集数据的速度和数据处理的速度不一定同步,增加分布式消息曾作为缓冲,防止丢失数据,采用kafka。

7.3流式处理

对采集的数据进行实时分析,选用spark-streaming+redis实现。

7.4数据输出

把分析结果存储在mysql数据库中,并进行告警展示。

以往,生产日志分布在各服务器上,每次检索要逐一登录到各服务器操作,严重影响效率;同时,日志留存于操作系统本地,会受到存储空间限制而循环覆盖,导致重要数据丢失;由于对关键日志缺乏保护,也给监控、审计带来诸多困难。

随着业务发展,来自硬件、操作系统和中间件的日志量不断膨胀,独立而分散的日志管理模式已不能满足日益增长的维护需求,特别在事件回溯、问题分析及报表统计相关工作中,其基础数据均源自这些分散的日志单元,亟需形成统一管理、综合分析、集中展现的新型一体化管理机制。为此一直进行着日志集中化改造的尝试。

8 实时数据分组+聚合

利用大数据集中处理平台的处理流程主要分两部分,通过消息队列处理Flume采集的日志,再通过ElasticSearch建立索引,最终将数据、索引导入在mysql集群。

大数据平台主要分析用户交互日志,用来感知用户体验。用户日志是用户在浏览器中每一步操作的性能评估,主要包括用户每一步操作的名称(如点击按钮、键盘录入、下拉框的选择等);用户操作整体响应时间及其构成部分包括:客户端响应时间(包括页面元素渲染时间、页面JavaScript脚本执行时间)、网络耗时(包括网络中的传输时延及CDN的处理时间)、服务器处理时间。此外,用户操作和用户请求是关联的,通过关联关系可以找到用户每一步操作的具体含义。

然后就是对用户操作业务聚合,即按时间顺序、用户操作的业务名称、用户号码等对用户真实的操作场景予以重建,这样做的好处是从整体上了解某一笔业务的操作繁琐程度(难易度、友好性);了解某一笔业务在哪一步较慢,是慢在网络层面、客户端层面、服务器层面还是用户自身原因(如间歇性停留)导致的;了解业务分布情况及成功率、转化率等。为确保业务聚合的并行计算高效,我们采取了spark流处理机制完成。

9 深入性能诊断

基于集中日志实时分析,可用于性能诊断等场景,并总结了一些宝贵经验:如网络故障关联分析和诊断、诊断企业总线调用外部域时发生的故障、基于接口报文的后端交易调优、针对RPC的性能分析等。

10 结论

随着企业对生产实时监测、海量存储和科学分析决策等方面的需求不断提升,运维监控系统已逐渐成为主要的管理手段。在这样一个飞速发展的时代下,安全方面和保障正常运行的维护等是非常必要的。而且,随着云计算的快速发展,越来越多的企业将业务部署到云环境中,其中,实时流处理业务占据的比重越来越高。传统云计算平台多为批处理平台(如Hadoop),批处理作业的输入是预先存储好的静态数据,作业规模可预知,数据处理完毕即停止。与批处理作业不同,实时流处理作业的输入是不间断的数据流,且数据量大小具有波动性。因此,用最新的分布式流计算技术,设计及搭建一个数据规模易扩展、处理速度快、安全性高、成本低的云运维监控系统具有重大的意义。仿真实验证明,分布式流计算运维系统中的海量数据告警效率优于传统方法,随着数据量的快速增长,优势越明显。合理、有效地利用分布式计算技术能够降低计算运维成本、合理分配网络闲置资源,是当今社会信息技术飞速发展的必然产物。

[1]谭明强.基于分类器联合的分布式安全威胁检测[J].电信工程技术与标准化,2015.

[2]付松龄,谭庆平.基于任务和角色的分布式工作流安全模型[J].国防科技大学学报,2004.

猜你喜欢
敏感数据数据管理日志
干扰条件下可检索数字版权管理环境敏感数据的加密方法
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
一名老党员的工作日志
海洋环境数据管理优化与实践
CTCS-2级报文数据管理需求分析和实现
扶贫日志
实现虚拟机敏感数据识别
基于透明加密的水下通信网络敏感数据防泄露方法
基于4A平台的数据安全管控体系的设计与实现