□文│杨鸿瑞
在工业化、信息化革命的推动下,人类的知识生产和社会活动产生了大量可以用于存储和传播的数据。据报道,全球数据正以每年40%左右的速度快速增长,2017年全球的数据总量为21.6ZB(1个ZB等于十万亿亿字节),全球数据积累存量已达到引爆新一轮行业变革的规模和水平。[1]同时,面对席卷全球的大数据浪潮,数据泄露、损毁等安全问题也正在引起各行各业的高度关注。
2019年上半年,美国威瑞森(Verizon)公司发布 《Verizon 2019年数据泄露调查报告》(The Verizon 2019 Data Breach Investigations Report,简称DBIR)对包括73个组织的41686起安全事件样本和2013起数据泄露样本进行了统计和分析,结果显示:从2018年开始云存储配置错误、知识产权被盗等事件处于上升趋势。此外,68%的数据泄露事件以勒索钱财为目的;超过一半的违规行为需要数月或更长时间才能发现。[2]
2019年5月,国家互联网信息办公室会同相关部门研究起草了《数据安全管理办法(征求意见稿)》,并开始向社会公开征求意见。[3]该办法对于在中华人民共和国境内利用网络开展数据收集、存储、传输、处理、使用等活动,提出了明确的监管要求。现阶段,积极开展在大数据背景下出版业数据安全问题的研究,具有重要的现实意义。
当前,我国出版业正经历传统出版和新兴出版融合发展的新阶段,出版市场既有传统纸质出版物,也有移动化、社交化、视频化、互动化等互联网传播形式的出版新产品。
出版业数据既包含传统出版数据,也包含互联网性质的数据,具体如表1 所示。
表 1 出版业主要数据类型
表 1 数据中,从数据库管理角度来看,既有结构化数据,也有大量半结构化、非结构化数据;从数据展现形式来看,有文本、图形、图像、音频、视频、软件、动漫、游戏等类型的数据。
目前对我国出版业数据量大小缺乏精确的统计资料。2018年有专著首次对我国传统出版物内容数据量进行计算和披露:2007至2016年全国书报刊累计出版数据量(不含复本数)约为2.87TB。[4]该结果按照传统出版物内容以文字字符格式存储计算得出。实际上,新兴出版物包含大量图片、音视频等,其数据量比文本文件数据量大得多。此外,截至2017年年底,全国数字出版产业的累计用户规模达到18.25亿人(家/个)(包含了重复注册和历年尘封的用户等)。[5]这些用户信息数据多为半结构、非结构化数据,数据量巨大。如果加上表1中的所有数据,我国出版业的各种数据总和将是传统出版内容数据量2.87TB的几何级倍数。
一是涉及知识产权。出版业内容数据一般都经过三级或多级审查,属于精挑细选的知识数据,基本上均涉及知识产权。
二是涉及公民个人隐私或第三方权益。出版企业在经营活动中产生了大量出版制作数据、营销数据、用户数据等,这些数据可能包含国家、企业、第三方的敏感信息以及公民个人隐私信息等。
三是属于出版企业的重要数据财富。随着大数据相关技术的发展,出版企业产生和获取各种数据的能力大大提升,已经积累了海量数据,这些数据含金量高、完整性好,是可以进行大数据分析与挖掘的原始数据,将这些碎片化的数据经大数据分析后,价值将成倍增长,属于价值巨大的数据。
目前我国出版业主要面临以下数据安全方面的挑战。
传统的数据安全保护基础是依据数据价值实行数据分级,对不同级别的数据实施不同的保护策略。而在大数据背景下,数据采集、处理、分析过程中,数据内容不断发生迭代变化,数据边界变得模糊,传统的基于数据分级的保护策略不再适用于大数据环境下的保护。同时,大数据的访问控制、加密存储等机制都变得更为复杂,均面临新的挑战。
此外,当前出版企业多数信息系统均可以通过电脑终端或手机接入,网络的非实名特征使得对于网络威胁的识别更为复杂,网络攻击过程演变迅速,使得风险评估也更为困难。云平台特别是公有云在管理上的不确定性,增加了数据泄露的风险,但无论是公有云还是私有云,数据的可用性、安全性、可审计性等都可能存在一定的安全隐患。
一是不法行为对出版业大数据的盗用变得容易。当前,不法行为通过黑客入侵、数据篡改、APT攻击、内外勾结、业务逻辑漏洞、撞库盗号等手段盗取有价值的数据变得更加容易。对出版业而言,大量的知识型数据和有价值的客户信息数据,是不法者重点攻击攫取的对象。特别是新兴出版产品的大量涌现,盗版者通过远程操作即可能得手。在大数据时代,一旦数据安全管理不到位,将表现为批量数据的“复制与粘贴”,与传统意义上的盗版等不法行为相比,不法行为的难度和成本极大降低,而维权的难度和成本却大大增加。
二是出版数据的滥用行为司空见惯。广大客户、作者和出版企业的版权保护意识比较薄弱,导致大量数据畅通无阻地下载、复制、转发,一些网民认为网络上提供的资源都是免费的,缺乏网络付费购买的意识,加剧了数据的滥用。同时,网络出版物都是通过数据形式传播,容易模仿和复制,由于网络数据复制的无限性、低成本以及数据二次利用和传递的隐蔽性,一旦形成“破窗效应”,就会催生越来越多的滥用行为。
我国出版业正由传统出版向传统出版与新兴出版融合发展的过程转变,移动阅读、在线教育、知识服务、按需印刷、电子商务等新兴业态发展迅速,新兴出版存在传播速度快、传播主体多元化等特点,原来封闭式的相对静止的出版数据将变得开放、共享、流动,传统的信息科技基础设施、管理模式已经无法适应新的要求,这对于出版业信息化建设以及数据治理都带来了新的挑战。具体表现在如下三个方面。
一是系统分散、存在大量信息孤岛。由于历史原因,我国出版企业与出版企业之间系统差异较大,数据交换标准不统一,数据共享、数据交换困难。在我国出版企业内部,信息化系统碎片化明显,按照业务条线建立不同的部门系统,单个系统功能偏少,系统之间耦合性不强,数据结构不统一,数据分散,数据整合难度较大。
二是面临人才、资金短缺等问题。部分出版企业特别是中小企业没有完备的信息科技队伍,信息化系统的开发、运维均采用外包制。数据安全主动权掌握在第三方,企业自身管控能力较差,加重了数据安全管理难度。同时,一些企业存在重发展、轻安全的思想,在信息化基础建设及数据安全管理方面的资金投入不足,数据安全管理得不到有效保障。
三是信息化基础薄弱。部分企业信息系统多年没有升级、系统架构落后、软硬件老旧,重要业务处理系统未同步建设灾备系统、未采用高可用架构等,无法适应大数据发展的需要。
出版业大数据涉及出版工作的各个环节,加强数据治理,需要从企业战略层面进行顶层设计,从企业各部门、各环节予以统筹考虑。
在大数据背景下,确保数据安全要成为企业的一种文化。出版业数据安全治理体系框架如图1所示。
图 1 大数据背景下出版业数据安全治理体系框架
出版业数据安全治理体系中,组织机构与管理制度是确保数据安全的前提,运营操作环节的各项安全是确保数据安全的重点,技术支持是确保数据安全的基础。在当前大数据迅猛发展、出版企业技术应对措施普遍不足的情况下,加强技术支持也是现阶段确保数据安全的关键。
组织管理层面。一是建立健全制度体系。出版业数据安全治理应首先建立完善行业级的数据安全管理规范和数据安全治理标准,强化统一管理;要加快国际标准关联标识符(ISLI)、中国出版物在线信息交换(CNONIX)等标准的推广和应用。在企业内部,要确立企业级的总体数据安全策略,建立健全覆盖数据全生命周期的管理制度、操作规程、操作流程、技术标准等。
二是建立完善组织机构。在数据安全治理体系的建设过程中,出版企业要对数据安全治理中的角色、职责、工作内容划分清晰,建立包括科技管理、系统研发、系统运维及数据管理在内的职能部门或专职团队,明确相关部门在数据安全治理方面的权责利关系。在企业内部逐步建立起信息安全管理委员会,加强对出版企业包括数据安全在内的信息安全重大事项的统筹规划和管理协调。
三是加强人力及资金等资源保障。数据安全是出版企业发展的基础,数据安全治理是一个从上到下的系统工程,需要企业的高度重视和强有力支持,在人力资源及资金投入方面给予适当倾斜。要加强数据安全的宣传、培训和教育工作,大力培养数据安全风险管理方面的专业人才。
运营操作层面。一是加强对各类外部用户的管控。当用户需要对出版企业数据进行访问时,首先要确认身份,包括进行用户画像,区分用户为安全用户还是危险用户。对于危险用户的防护措施,是运营操作层面需要防护的重点,一般采取如下三层防护措施:第一层是通过入侵检测、防火墙、安全态势感知平台等防护手段,主动探测外在威胁,及时采取应对策略;第二层是采用数据加密、脱敏、防泄漏等安全防控手段,防患于未然;第三层是从系统建设阶段定义数据访问接口,使得数据的访问受限并可控。
二是对出版工作各环节涉及的内部使用者实行全流程管控。出版工作中的选题策划、创作编辑、排版制作、营销发行、客户服务、运行维护、内部监管等多个环节均涉及对企业数据的增、删、改、查等操作,需要在各个环节加强数据使用者的管理。基本的方法是加强权限管理与日志管理,权限管理包括登录身份控制、对访问的数据范围设定人员权限等;日志管理是为了加强事后审计及异常处理,审计日志中记录了使用者的操作信息,能够提供安全事件的事后追溯、定位问题原因及划分事故责任等。同时,加强出版工作的过程管理和信息系统的业务需求评审,确保在出版工作的每个操作环节没有业务安全漏洞或数据安全隐患。
三是加强运维管理。严格执行出版系统运行维护工作的各项管理制度、操作规程,要严格通过权限设置、模块授权等手段来限制运维人员对数据的无限访问权,加强对运维人员的操作日志审计和定期检查。同时,加强供应商的管理,严格限制第三方人员对出版企业内部数据的访问。
技术支持层面。大数据背景下,数据安全治理的关键在技术层面,需要采取切实可行的技术手段,对数据进行全生命周期的安全保障。
从技术层面看,数据的生命周期一般指数据创建(采集)、数据迁移(传输、交换)、数据应用(处理)、数据存档(存储)、数据回收(销毁)等几个阶段,然后再次激活以及退出的整个过程。[6]具体的技术保障措施如下:
数据创建(采集)。指新的数据产生或现有数据内容发生显著改变、更新的阶段。在该阶段,应从如下三个方面加强数据管控:一是数据完整性。包括数据的提取、转换和加载的完整性。二是数据合规合法性。在数据创建阶段就要充分考虑数据创建过程中所依据的原始信息是否合规合法,是否涉及他人隐私等。三是数据准确性。数据的准确性是一切数据具有价值的前提,在数据创建阶段确保数据的准确性,能够减少后续数据在应用阶段产生的误差,提高数据应用的效果。
数据迁移(传输、交换)。指数据在企业内部或内外部之间进行交互的阶段。在该阶段,一般利用加密、签名、鉴别和认证等机制对数据进行安全管理,防止数据遭泄漏和篡改。具体如下:一是进行数据加密。加密传输是对数据进行保护的一种最可靠的办法,使用中应选用国家密码局认定的算法。二是运行安全工具。通过防病毒软件、漏洞扫描等对系统自身进行识别、更新、排查。三是信息泄露检测。采用数据防泄漏(DLP)技术,对数据进行内容识别、检测。
数据应用(处理)。指针对动态数据进行的一系列活动的组合。数据应用安全重点关注如下几点。一是合规合法使用。基于国家相关法律法规,在数据使用全过程中明确相关责任、建立保障机制。二是数据分析安全。在数据分析过程中采取适当的安全控制措施以防止由于数据分析而可能带来的数据泄漏风险。三是采用密文数据处理。通过建立适合企业内数据服务特点的数据加密和解密处理策略和密钥管理规范,以防止重要或敏感数据在应用处理过程的泄漏风险。四是数据脱敏处理。针对可见数据形式的敏感信息,通过一定的技术方法、脱敏规则进行敏感数据的变形,以实现在数据脱敏后达到数据的可用性和安全性的平衡。五是数据溯源。在数据应用处理过程中建立溯源机制,实现对数据应用处理过程的可追溯性。
数据存档(存储)。指非动态数据以任何数据格式进行物理存储的阶段。加强数据存储管理,重点是通过建立数据存储的规范化流程和安全保护措施,实现对数据的有效保护。数据的存储可采用集中式存储或分布式存储,存储方式包括在线存储、近线存储、离线存储等。一般采取如下最佳安全实践:制定存储安全策略和数据恢复方案;制作数据副本,通过定期开展数据的复制、备份和恢复,实现对存储数据的冗余性管理,保护数据的有效性。
数据回收(销毁)。指通过对数据及数据存储介质相应操作,使数据彻底无法通过任何手段恢复的过程。作为数据生命周期中的最后一环,数据销毁或回收处理的安全同样不容忽视,重点是加强销毁过程的监管,确保数据回收或销毁的彻底性。
在新的历史条件下,我国出版业正向数字化、网络化、智能化融合创新发展模式转变,面对越来越庞大的出版数据,进一步加强大数据背景下的数据安全治理,是出版业又好又快发展的前提和基础。