刘锋,潘科
(重庆信息通信研究院,重庆,401336)
大数据作为一种通用技术应用在各个行业,为数据的管理和应用提供重要的技术支撑,近年来,随着工业互联网的快速发展,相较于传统的应用型数据,数据源范围扩大,数据边界不在清晰,包括设备、系统、网络、平台等数据,数据种类存在复杂的多样性,且数据流动方向和路径复杂,数据采集和数据集成难度也很大,本文从工业互联网大数据通用架构进行概要解析。
工业互联网大数据应用的整体架构一般分为四个部分:采集后台、数据中台、应用前台以及运维管理。
通常利用主动探测扫描、通信流量监测、被动蜜罐诱捕以及信息系统数据对接等技术手段,实现数据采集的功能,采集数据源一般包括互联网数据,工业互联网相关联网资产、资产漏洞、安全事件、威胁情报、关键信息基础设施数据等。
智能大数据分析与建模平台,定位于降低数据洞察阻力、大数据使用门槛、数据交换成本、数据监控难度以及提升数据洞察广度、探索深度、交换速度和监控精度,满足各类数据的集成、计算、存储、挖掘、管理等需求。
基于数据中台提供的底层数据,进行数据分析,支撑基础资源管理、网络安全态势感知、APP情报动态线索挖掘、工业互联网安全等多个顶层应用,一般可服务于多部门、多业务、多场景。
实现系统自身的运维管理,一般包括系统管理、安全管理、智能监控、告警处理等功能。
2.1.1 接入数据源分析
2.1.1.1 互联网流量
通过部署流量探针的方式,接入基础电信企业流量,主要是互联网专线流量、特定对象的牵引流量等,生成包括通联日志、报文样本、域名日志、HTTP日志、恶意代码日志等各类日志。
2.1.1.2 主动探测数据
通过公网部署扫描设备,实施安全扫描,主要针对重保用户的网页、应用商店APP的爬取,以及基于IP段的关键信息基础设施的扫描发现。
2.1.1.3 相关部门和企业已建系统数据
相关已建系统的数据主要包括:网安技术管理平台、基础监测系统、信安系统、企业侧安全监测系统等。
2.1.2 数据采集
数据采集系统包括采集基础电信企业流量,爬取互联网网页/APP内容,被动诱捕网络攻击行为,主动扫描获取关基数据、重保网站的数据、以及现有系统的数据资源共享,对“主动+被动”方式获取的数据进行解析,提取各类用以支撑网络安全监测分析业务的数据。
2.1.2.1 互联网流量采集
在关键网络节点部署流量采集探针,负责网络原始流量的采集,提取各类用以支撑网络与信息安全监测分析业务的数据。输出的日志一般包括通联日志、报文样本、域名日志、HTTP日志和恶意代码日志。
通过相应汇聚分流设备进行流量的同源同宿、负载均衡处理,输出至网络流量探针专用设备。通过流量探针专用设备实现互联网流量采集、协议解析和访问日志提取,将输出的日志存入数据中台支撑上层业务应用分析。
2.1.2.2 互联网内容爬取
网络爬虫主要实现对网页内容以及APP内容的爬取下载,供上层应用进行分析。
(1)网页爬虫:互联网用户访问的网页浩如烟海、数量庞大,传统的互联网爬虫技术已经不能满足当前网页信息获取的准确性、全面性、及时性的要求,因此,可以采用并行爬虫技术和IP池代理技术,让爬虫的质量、覆盖率、爬取效率等性能得到全面的提升。
(2)APP爬虫:通过积累大量的互联网诈骗网站,使用蜘蛛爬虫技术和ip池代理技术,24小时不间断的对网络中的互联网诈骗网站进行爬取。
2.1.2.3 关键信息基础设施数据采集
一般采用网络资产探测识别设备进行主动扫描采集数据,同时结合网络流量被动分析,形成一套完整的网络资产及其指纹库信息,指纹信息包含系统指纹、应用指纹、网站指纹等,从而可以对网站、域名、IP等基础资源数据形成本地的互联网信息库,为网络安全漏洞分析、安全漏洞预警等提供有效数据支撑。
2.2.1 数据集成
数据集成支持数据采集、过滤、缓存、中转分发调度等,是内外数据交换的通道,完成数据在组件间及层次间中转、缓冲及调度。一般会采用数据集成ETL模块,包括数据采集模块、数据清洗和转换模块,其中数据采集模块一般包括批量结构化数据采集、半结构化数据采集、非结构化数据采集;数据清洗与转换模块一般也包括结构化数据清洗与转换、半结构化数据清洗与转换、非结构化数据清洗与转换三个模板。
2.2.2 数据计算
2.2.2.1 流式计算
一般具备流计算能力,可基于flink集群,支持读取kafka、socket、hdfs的数据源里的数据,通过配置stdp、字段定义解析器,将数据通过输出统计组件、统计监控组件、窗口、水印设置,最终输出规则配置,统计结果输出。
2.2.2.2 实时计算
实时计算模块一般可提供了高吞吐、低延迟、高性能的流处理能力。
2.2.2.3 离线计算
大数据离线计算,就是利用大数据的技术栈(主要是Hadoop),在计算开始前准备好所有输入数据,该输入数据不会产生变化,且在解决一个问题后就要立即得到计算结果的计算模式。离线计算特点如下:
(1)数据量巨大,保存时间长。
(2)在大量数据上进行复杂的批量运算。
(3)数据在计算之前已经完全到位,不会发生变化。
2.2.3 数据存储
大数据平台的数据存储,一般包括结构化数据存储模块、NOSQL数据存储模块、非结构化数据存储模块以及图数据存储模块。数据存储是大规模通用集群存储系统,对外支持标准文件访问接口。数据存储层采用MPP分布式列式数据库系统、分布式集群存储系统、Hadoop系统、分布式数据仓库和分布式图关系数据库系统。用于存储结构化数据、NOSQL数据、非结构化数据以及图数据的存储与访问。
2.2.4 数据挖掘
2.2.4.1 IDE引擎
通过可视化界面,进行创建、管理、编辑脚本,使用人员可在界面上对数据进行操作,系统通过调用不同的IDE引擎下发相应的指令,操作对应的数据服务组件,返回相应的数据结果。
2.2.4.2 数据探索
数据探索是在具有较为良好的样本后,对样本数据进行解释性的分析工作,它是数据挖掘较为前期的部分。数据探索并不需要应用过多的模型算法,相反,它更偏重于定义数据的本质、描述数据的形态特征并解释数据的相关性。通过数据探索的结果,可以更好的开展后续的数据挖掘与数据建模工作。
2.2.5 数据管理
2.2.5.1 数据共享
通过固定接口(如webservice接口、FTP传输、数据库以及组件,封装后的API接口等),将数据共享到各应用平台进行应用。提供统一应用接口进行数据共享,相关接口主要包括数据接入适配、流处理接口适配、数据查询接口适配、数据分析接口适配、用户管理接口适配、系统对外开发接口等。
2.2.5.2 数据资产
数据资产主要涉及到各类数据源采集的数据,包括:威胁情报库、漏洞库、病毒库、nv-彄、僵木蠕特征库;基础信息库、企业库、IP库、域名库
2.2.5.3 数据安全
通过数据访问策略制定,数据加密脱敏,日志审计等方式,保障数据数据安全,确保经过传输和交换的数据不会发生增加、修改、丢失和泄露。
2.3.1 数据分析
在企业的数据分析项目中,数据驾驶舱是系统搭建的一个重要过程。通过数据驾驶舱,可以将采集的数据形象化、直观化、具体化,为企业业务的相关决策提供支撑。数据驾驶舱提供的是一个管理过程,让数据能够以更加有组织的方式来进行体现。
2.3.2 业务应用
基于数据中台以及应用前台的数据分析能力,可支撑包括基础资源管理、网络安全态势感知、APP情报动态线索挖掘、工业互联网安、物联网安全等常见应用场景在内的各种业务、应用场景。
2.4.1 系统管理
针对系统进行统一的用户管理、角色管理、权限管理、日志管理和资源管理等功能,能够统一管理分布在不同网络和地域的多个数据中心集群,封装各类数据存储和处理引擎的功能,为不同地域和网络的数据中心系统提供统一的逻辑视图,为系统的管理员和用户提供一站式服务。
2.4.2 安全管理
借助于防火墙、防病毒等安全产品,平台实现安全机制:认证机制、授权机制、访问控制、机密性和完整性。
2.4.3 智能监控
通过通用的数据采集模板和和终端采集程序汇集数据,通过强大的ETL能力将数据迁移到监控,实现监控数据的集中分析和展示。
2.4.4 告警处理
一般大数据平台具备告警处理功能,对平台的运行状态进行全面监测,提供运行异常及时发现和告警,系统部分故障的准确定位;同时,实现基础资源的统一化管理,为管理人员的维护决策提供重要支撑。
目前各类大数据平台均是基于大数据分析核心扩展出各类组件,国内外的应用技术已经成熟。大数据脱离了对数据的治理和应用就失去了数据的灵魂,根据行业领域不同,大数据平台所做的数据治理、标准化、数据管理和其他所需功能和展现的形式,将会存在较大不同。