胡冰蔚,洪 晟,王泽政,李鹏超,刘博宇,冼 峰,赵立鸣
(1.国际关系学院 网络空间安全学院,北京100091;2.北京航空航天大学 网络空间安全学院,北京100191;3.恒安嘉新(北京)科技股份公司,北京100098;4.上海城投水务(集团)有限公司,上海200002)
工业互联网是以数字化、网络化、智能化为主要特征的新工业革命的关键基础设施[1],工业数据安全是工业互联网创新发展的基础保障。各工业企业基于网络化协同和生产化改造需求,践行“内外网”改造和“上云”业务,工业互联网系统架构从以控制系统为中心转向以工业大数据为核心[2]。大数据安全在工业互联网新业态和应用场景下愈加重要。“5G+工业互联网”、“物联网”、“云计算”、“工业互联网平台”等新信息技术的快速发展和大规模产业化应用使得工业数剧量剧增,数据作为工业互联网的基础资源和关键要素,事关企业安全运营、社会经济正常运转乃至国家安全,一旦工业互联网数据泄露、被窃取或篡改,将对社会经济和国家安全造成严重的威胁[3-6]。
国内外对于工业互联网数据安全的研究仍处在应用探索阶段,面向“工厂内网”和“工厂外网”场景的工业互联网数据安全保障大都延续采用传统的防护手段。例如,工业数据的安全交互,主要通过私有协议封装和二次加密实现数据加密传输;工业互联网平台服务和运营,依托准入认证、接口加密、漏洞扫描、代码审计、安全加固等传统网络安全措施来抵御潜在攻击。
在数据采集方面,传统的网络数据采集技术针对的是采用固定端口传输[7]。工业互联网业务应用的快速发展使得承载其服务的端口数量持续增加,更新和维护端口数据库日渐困难。不同的工业设备、工业控制系统和工业互联网平台供应商使用专用通信协议、工控协议和自定义接口,私有工控协议封装后通过HTTP/HTTPS传输,一些“双跨”工业互联网平台网络传输基于安全性考虑进行了二次加密,增大了工业互联网的流量分析难度。
基于传统网络结构下数据包监测技术主要对数据链路层、网络层、传输层的数据包元素监测和分析,其流量识别检测方法概括如下:
(1)基于网络端口映射的协议识别方法[8-9]。该方法凭借网络协议通信时使用的端口号建立映射关系,并据此区别各类网络协议和应用服务。其缺点是未能给所有应用及服务定义端口号,且对于端口号不固定的数据传输协议不能与之一一对接,难以形成和积累较为完备的端口映射关系。
(2)基于有效载荷分析的应用业务识别方法(Deep Packet Inspection,DPI)[10]。此类方法依托建立的应用业务特征规则库进行应用业务识别。DPI技术在流量分析、网络信息安全和网络服务质量(Quality of Service,QoS)监测等领域应用广泛,其可对网络数据包进行内容分析,能够解析数据包内容及有效载荷,提取内容信息。完整的DPI技术处理流程如图1所示。由于网络带宽和数据的不断增加,预先建立的规则库也快速增加,导致系统计算开销过大,且存在数据泄露的安全风险。
图1 DPI技术处理流程
(3)基于行为特征的流量识别方法(Deep Flow Inspection,DFI)[11]。DFI是基于流量行为模式的技术,可以视为DPI体系的一部分,可分析网络中通信行为及模式,基于流量特征对网络流量进行分类识别和检测,积累广谱规则。在不同的应用类型中数据流的状态不同,表现为数据流特征的差异。此方法存储开销较大,实时性较差,致使其技术状态进展缓慢。
(4)基于机器学习的流量分类识别方法[12-13]。具体应用可分为有监督学习的流量分类识别方法、无监督学习流量分类识别方法和半监督学习的流量分类识别方法。但从实际工程效果看,该类方法识别精确度有待提升,实时性有限,且特征值之间的关系仍待进一步的研究。
随着网络通信技术的进步加之“互联网+”模式的兴起,以数据匹配检测模式构建的监测防御体系不能应对海量数据交互带来的安全风险。在当前工业互联网安全保障探索阶段,存在工业传输中应用协议复杂、通信端口伪装、工业互联网数据跨境传输等客观现状,进行工业互联网流量安全分析的同时需要保证数据的机密性和完整性,工业互联网协议行为特征识别需要较大时间、空间开销,也存在检测实时性等问题。传统数据监测流量识别技术尚不能有效处理目前“工业互联网+大数据”环境下的诸多问题,需要探索新型工业互联网数据安全保障技术。
针对DPI和DFI的现存问题,本文提出了一种基于网络流量分析(Network Traffic Analysis,NTA)的工业互联网数据监测方法,该方法将DPI、DFI、机器学习等方法以监测需求为出发点,依托“大网”监测场景,采取汇聚分流的方式,将网络中多个节点的数据进行特征分流、数据汇聚、数据预处理等操作,并将数据发送至对应的模块进行处理。该方法先汇聚全流量并依托广谱规则做流量筛选,再依托特征监测、文件还原和事件研判等技术识别潜在数据风险,在控制其计算开销和存储开销的同时,解决原有技术缺陷。
网络流量分析技术NTA应用场景更为宽泛,旨在通过监控网络流量、连接和对象来识别恶意程序、攻击入侵行为迹象,本质是记录、审计和分析网络流量数据的过程。NTA探针设备及配属产品集成高速正则事件引擎、内容结构检测引擎、异常行为识别引擎、文件还原研判引擎和全流量回溯引擎,识别流量异常,鉴别数据泄露、违规传输等可疑行为。NTA底层技术通过DPI[14]和DFI[15]来解析流量,兼具规则集成和特征签名功能,能够对流量解析数据和外部数据进行建模,具备加密流量检测和威胁样本分析能力,可结合威胁情报提供威胁响应的决策支持。
由于工业应用业务类型的复杂性,仅分析报文头字段内容无法很好识别报文所承载的工业业务类型。通过识别跟踪业务协议交互过程,对报文有效载荷特征以及流量特征深度检测,检测工业互联网流量,识别工业应用业务类型,开展包解析和文件还原日渐兴起。
基于NTA的底层技术是在传统基于端口识别的基础上,增加机器学习、DPI、DFI等技术方法,即融合传统规则和机器学习的方法,探索提高工业互联网流量分析的准确性。通过将采集设备部署在骨干网、城域网、工业互联网专线、工业园区出入口、工业企业出入口等关键节点,采集流量信息,结合主动监测技术,丰富和补充各类资产对象,结合特征识别和流量还原技术增强工业流量数据的获取和分析能力。该技术适用于多工业场景下的工业互联网流量识别、协议解析和内容还原研究。
基于NTA的数据监测总体技术架构如图2所示,该架构可分为三个模块,即数据源采集模块、NTA技术模块和工业资产管理模块。在数据源模块中,对部署网络节点如网关、交换机等设备进行流量采集。在NTA技术模块中,将底层技术识别能力汇聚成NTA技术的基础能力,实现对采集流量的特征分类,构建分析所需的流量数据集,通过广谱规则做流量筛选;然后,再对流量进行精细化分析,进行工业协议识别解析、工业互联网设备识别、工业互联网文件筛选和解析、异常流量识别等业务。在工业资产管理模块中,结合态势感知技术面向入侵检测、应急服务具体业务进行功能联动。
图2 工业数据安全监测技术架构
为了实现面向具体行业或场景的细分,本方法在NTA基础能力上,结合威胁情报,辅助开展工业数据安全事件分类分级评测业务。可结合不同行业要求,强化分类分级业务指导下的工业数据安全保障,从大数据安全防护视角为企业主体提供工业数据安全防护新技术手段,结合工业企业、工业互联网平台和标识解析企业已部署的安全防护手段,进一步提高数据安全防范措施。
2.2.1 工业互联网协议识别
工业互联网协议识别针对支持S7、Modbus、BACnet等常见工业通信协议、支持MQTTXMPPCOAPUPNPONVIF等物联网协议、支持HTTPDNSFTPSMTPHTTP2等协议识别。其中工业互联网应用层协议识别主要包括超文本传送协议(HTTP)、分布式实施数据分发服务中间件协议(DDS)、消息队列遥测传送协议(MQTT)、OPC统一架构(OPC-UA)识别和分析。
2.2.2 工业互联网资产识别
利用工业互联网资产识别技术,可识别2G/3G/4G/5G移动互联网、骨干网、IDC、物联网和工业互联网专线等通信网络中的资产,包括各种工业网络设备、主机设备、安全防护设备等。该方法支持探测到资产的存活状态、资产的系统版本、设备类型、开放端口或服务、中间件、数据库等应用程序版本、组件信息、漏洞数量等。
基于流量的被动资产指纹识别,支持探测到资产的存活状态、资产的系统版本、设备类型、开放端口或服务、应用程序版本、Web组件信息、漏洞数量等。结合工业企业备案信息,支持对未“上云”资产识别,配合云端情报联查监测相关风险。
2.2.3 基于机器学习的工业互联网敏感数据识别
为了在流量中还原数据流的样本,自动识别数据的敏感程度,本文基于机器学习方法,实现对数据包的清洗、特征识别和数据监测。
基于机器学习的流量识别方法:在不依赖于端口和规则特征的流量识别前置条件下,利用机器学习从数据流中提取特征属性,构建工业互联网安全监测业务分类模型,完成流量的识别和业务应用检测。相关特征属性主要包括数据包特征和数据流特征。
基于机器学习的风险监测方法:以传播渠道的行为检测技术为基础,基于工业互联网企业、平台、设备、业务的基础特征数据设计机器学习模型,分析异常数据传输和敏感数据泄露事件。集成联网“暴露”工业资产监测、异常流量监测、工业威胁监测技术手段,依托风险检测引擎的协同工作,可针对恶意攻击、脆弱性利用、Web漏洞、主动数据泄露行为等场景开展检测和研判,建立多维度的特征扫描机制,构建哈希值、软件包名称、关键字、特征码、软件签名、字符串等多态特征判定和积累方法,提高对潜在风险的识别能力,实现对安全风险多态特征进行精准快速定位。
其本质是在流量中还原数据流和样本,自动识别数据的敏感度。其中文件数据根据文件的大小、类型、传输协议进行筛选,并且通过机器学习方法,对自定义文件类型进行训练生成自定义文件类型模型库,设定文件特征值,然后再根据模型库筛选出符合特征值的文件,实现对文件的过滤功能。
2.2.4 异常流量分析方法
基于对业务安全的考虑,越来越多的工业互联网应用采用HTTPS或SSL/TLS进行数据交互,根据现网统计数据,目前加密流量占比已经超过70%,并呈现增加趋势。目前对于加密流量的识别通常采用证书或签名的方式,该种方式只能识别流量归属于哪一种应用,无法满足如恶意程序、信息安全等业务的需求。通过采用机器学习及人工智能相关技术,首先对TLS流量的元数据、包长和时间序列、字节分布、非加密的TLS头信息通过卷积神经网络CNN进行分类,然后将每条TLS流的前N个载荷拼接起来并转化成图像通过CNN进行分类,再将分类结果经过集成学习得出最终识别结果,并将识别结果反馈给学习模型。最后,采用机器学习方法,通过统计特定数量的连续字节的熵,区分不同类型的二进制流,对异常流量进行识别和持续监测。
系统架构自下而上可大致划分为数据接入层、基础能力层、业务能力层及应用支撑层,如图3所示。
图3 系统架构图
数据接入层提供基础流量、工业互联网平台企业、工业企业的数据接入,其中基础流量包括某地域的固网、移动网、互联网专线(IDC出入口)的大流量采集能力,采集流量作为上层业务安全分析和处理的基础。
基础能力层对采集流量做汇聚和分流处理,可将网络中多个接口的原始数据进行汇聚、分流、提取、过滤、复制等操作,支持精细化、定制化分流输出给业务系统进行数据分析。搭载数据中台,实现数据入库、分析和持久化存储。集成基础规则库,积累和沉淀广谱规则和工业互联网指纹特征。
业务能力支撑层基于NTA技术,读取IP包载荷的内容来对OSI七层协议中的应用层信息进行深入分析。DPI技术除支持对链路层、网络层、传输层及应用层工业协议进行识别与解析,还具备对物联网协议、工业互联网协议、车联网协议、VPN协议、工业应用识别与内容还原等底层能力,提供工业资产识别、恶意代码检测、溯源取证、网络探测检测、恶意攻击检测、特殊流量检测、数据泄露检测等业务安全解析能力。NTA引擎具备面向工业互联网全业务(含数据安全)的并行多次处理输出能力,支持自定义格式化输出给上层应用支撑系统。
应用支撑层不仅具备工业数据泄露监测功能,还具有基于联网暴露工业资产监测、工业漏洞管理功能,通过对外接口输出定制化话单,支持漏洞管理、监测预警、网络取证等工业互联网安全应用系统的分析和展示。
实验验证依托某地域现网环境,开展软硬件环境搭建和系统集成,面向本地域内的工业资产监测、风险识别、数据安全监测开展验证和分析工作。
3.1.1 硬件环境
硬件环境搭建由大数据服务器和业务系统服务器组成。服务器配置不低于2×4核CPU,32 GB内存,1 TB硬盘,能够满足大部分网络节点数据采集和业务对接需要。
3.1.2 软件环境
软件环境操作系统采用Cent OS 6.8;搭配第三方组件:Base-A10.1-Jdk1.8(版本:1.8.0_162),BaseA10.1-redis(版本:4.0.9),BaseA10.1-nginx(版本:1.15.6),BaseA10.1-mysql-5.7(版本:5.7);客户端环境兼容主流浏览器:Chrome 45.0.2454.101或以上版本,Firefox 45.1.0或以上版本,IE10或以上版本。
软件环境配置如表1所示。
表1 软件环境配置表
3.1.3 系统部署
系统的部署分为前台数据安全策略显示和下发模块,后台数据采集分析及监测业务模块。前台负责显示流量识别和数据安全情况,并生成合适的策略下发给用户;后台设计为统一的大数据分析平台实现对流量采集和分析,由数据采集、数据库存储、数据监测、特征库模块等功能组成,是工业数据安全监测应用的核心。
在实际部署业务中,需根据网络节点的实际情况进行部署调整,但需满足网络、硬件及软件部署所需的最低配置要求。
3.2.1 资产识别和安全风险监测
本文所介绍的技术已广泛应用于工业互联网安全监管领域,基于该技术体系打造的工业互联网安全监测和态势感知平台在多地实际部署应用。某地的应用效果(节选)如表2所示,在近期月份监测识别到设备(工控设备、物联网设备、车联网设备)106.13万个,联网平台(工业互联网平台、物联网平台、车联网平台)516个。3月份监测到工业互联网企业安全漏洞333个,安全事件665万余次。
表2 应用效果对比表
在车联网应用领域,以某省互联网专线监测为例,累计发现约58万条事件数据;其中4个IP定位到其指向同一车联网平台“GPS定位管理平台”,发现成功事件25次、攻击次数31 479次、涉及单位17个。
3.2.2 工业安全事件案例
在木马远控事件中,监测到某单位的*.*.138.14多次访问美国纽约的IP:199.59.242.153的域名ww25.stats.stuffpicks.com,该恶意域名是用于与网页木马远控端进行通信,经木马样本数据与恶意数据包对比,发现数据包内容相同,综合研判为Trojan.unknown.a.C640木马远控事件。
在挖矿病毒危害事件中,监测发现某单位的IP地址*.*.227.26向新加坡的IP地址134.209.100.235,荷兰阿姆斯特丹的IP地址142.93.137.119、178.128.242.134进行了多次门罗币挖矿矿池登录请求,从流量包可以看出攻击者通过心跳机制keepalive维持与矿机的通信。
3.2.3 工业数据泄露案列
通过某省工业互联网专线流量分析,发现用户名、密码、手机号、GPS、位置信息、邮箱、智能水表、消防仪表等相关信息泄漏,涉及仪器仪表行业、消防安全、交通管理和水务等多个领域。
3.2.4 车联网跨境通联案例
基于某工业互联网专线部分流量分析,发现车联网信息泄露,包括车牌号、经纬度、sim卡号、速度(轨迹)、车辆状态等信息。持续监测发现,某热门合资品牌智能网联汽车存在跨境通联行为,跨境访问前十位目的国家如表3所示。
表3 车联网跨境通联统计表
工业数据安全是工业互联网企业数字化安全转型的前提,是落实工业互联网企业安全防护的重要保障。得益于NTA技术在工业互联网及车联网领域的拓展应用,通过主被动一体化技术面向实际防护对象的数据采集和处理,结合防护对象的实际应用场景和业务流程,集成威胁情报、工业漏洞和安全事件,开展多维关联分析,积累协议特征库、应用特征库、设备指纹库、行业特征库,支持联网“暴露”工业资产监测、工业漏洞管理、工业互联网态势感知业务。经实际应用发现,该系统能够发现联网暴露工业资产,识别其安全风险,监测各类工业数据泄露事件。
工业数据安全是落实工业互联网融合发展的核心要义,基于NTA技术开展工业数据安全监测研究是各行业主管单位进行数据安全风险监管的主要手段,是弥补各工业企业开展数据安全防护不足的有效措施。借此可支撑工业数据防护业务拓展到入侵检测、工业数据分类分级测评、工业敏感数据防护等具体场景。综合NTA技术探索工业互联网数据多点跨域环境下遭非法篡改、人为破坏、违规泄露或非法利用时的监测保障和防护处置措施,可作为落实工业数据安全分类分级管理要求、夯实企业主体责任的有效技术抓手。