张基恒 刘 露 魏进武
中国联通研究院 北京 100032
硬件设施的年年革新、云计算和大数据领域的迅猛发展为大体量数据的采集、分析创造了技术条件;同时,数据的采集、分析也由传统集中式模式发展为分布式模式。根据预测,到2020年,全球将拥有35ZB的数据量。
数据的拥有符合长尾理论,如谷歌、腾讯等大型企业利用其行业特点可以及时、有效地获取大量数据,并通过其独特的数据处理、分析平台不断完善自身;规模较小的企业虽可以通过API等形式调用数据,但这些被调用的数据通常是过期的、深度加工后的数据,进而逐步形成大企业对海量、高价值数据的垄断格局[1]。而在信息时代,对数据的垄断,既是对信息的垄断,也是对资源的垄断。垄断的数据资源抬升了企业、行业间信息处理的壁垒,使得数据复合利用率较低,难以发展出可协作性的数据生产体系。
有鉴于此,企业界、学术界针对数据交换、数据共享等问题已开展深入研究。数据资源的共享开放也在2016年两会被纳入“十三五”规划纲要(草案)中。目前,中国联通集团具有丰富广泛的数据来源,并且已经积累了海量、以不同形式存储的数据资源,同时拥有技术成熟的大数据平台,依托大数据技术,兼顾全量数据处理的成本与效率,快速提升数据的挖掘与应用能力,充分发挥企业大数据的核心价值与边际效应。较成熟的技术与电信行业丰富的数据源驱使中国联通向其他行业探索合作。如何与其他行业实现数据、数据集市的融合成为亟待解决的问题。
本文在第一章对国内外现有数据共享实现方式以及面临的核心挑战进行了分析;在第二章,根据现有数据贡献实现方式和面临的挑战,提出一种数据共享框架,并以联通现有数据平台基础,提出了联通共享数据平台架构,并探讨了此架构的应用场景。
在国外,在大数据共享开放方面有较丰富成果的国家包括美国、德国等,其中美国政府、企业及行业中较为突出的数据共享如下。
1)政府。美国政府在2009年推出的大数据开放计划和平台Data.gov,依照原始数据、地理数据和数据工具分为三个门类,目前为止共开放出了近20万项数据集,涵盖了农业、商业、气象、消费、生态环境等数十个门类的数据资源。为方便公众使用和分析,该平台引入了数据分级评定、高级搜索、用户交流以及和社交网站互动等新功能。为方便民众和应用领域的开发者利用这些数据进行开发应用或创业,该平台同时提供了1 000多个应用程序和软件工具、100多个手机应用插件[2]。
2)企业。Palantir公司梳理了可获取的数据库,并完成了对数据的确认、整合和关联分析。目前,该公司可为政府反恐和犯罪调查、银行、保险、零售、医疗保健、石油和天然气等各种行业提供多样融合的数据分析服务。
但Data.gov项目侧重提供政府数据,如谷歌、亚马逊等大型互联网企业拥有的大量数据,其开放程度较低;Palantir公司的数据整合模式则使得数据集中在该公司本身,无法有效地与其他企业产生联动价值[3]。
除美国之外,德国的IAIS协会主导的欧洲工业数据空间(IDS)在政府数据开放领域也较为突出。该项目将分散的工业数据转换为一个可信的数据网络空间,目前已得到欧洲30多个重点工业企业支持(例如源讯公司、拜耳、普华永道、大众等)[4]。然而该项目围绕工业4.0,主要侧重工业生产链条中处于不同生产位置的企业数据,其数据源有所局限[5]。
在国内, BAT(百度、阿里巴巴、腾讯)互联网巨头围绕自有交易、网络数据等开展增值业务,如淘宝CPI指数预测经济走势、淘宝中小企业交易状况分析财务健康和诚信经营;百度公司利用互联网数据以及行业数据提供多种综合分析和预测应用服务,例如,春运经济指数预测、景点预测、疾病预测、体育赛事预测、高考预测、电影票房预测等。但这些数据巨头均是利用自身庞大的数据再结合一些体量较小的、易获取的辅助数据来实现自有的数据整合、增值,并未实现深层次的数据共享[6]。
总结而言,数据共享、交换主要通过以下两种方式实现,如表1所示。
表1 数据交换、共享的实现方式
除1.1阐述的实现问题外,数据共享、交换仍面临着如下挑战[7]。
1)权限控制(数据所有权和许可权):数据掌控者拥有对数据的最终权限,可以许可其他用户合法使用与传递数据,避免在数据交换完成后发生数据泄露。
2)信任机制、身份确认:数据交换的参与者需要进行可靠的身份确认,建立完善的信任体系。
3)共识机制:交易双方要在共识的基础上,根据特定的约定条件,进行数据交换,避免数据欺诈。
4)数据交换管理:在数据安全存储的基础上,安全、可控的数据交换是必要的,数据交换记录也应该无法伪造。
5)数据价值实现:数据在流通交换中,创造新的价值。通过数据的交流,发现新的以数据为基础的商业模式。
针对数据交换、共享在我国实现的问题以及面临的挑战,一种可行的数据共享治理方案需具备以下要素。
1)去中心化方式,分布式架构;
2)可信任的参与者(身份确认)[8];
3)用户驱动的开放式访问;
4)平台和服务网络[9];
5)数据交换管理,预定义规则[10];
6)安全传输[11]。
以去中心化思路为核心,构建企业级数据共享空间,由各个企业的数据中心通过数据共享空间提供的标准接口相互连接。在此数据共享空间内,当用户需要数据提供增值服务时,数据可以在被认证的合作伙伴之间共享。数据共享空间[12]在“去中心化”的同时,具备一些轻量级的中央管理功能,其架构如图1所示。
图1 数据共享框架
如图1所示,数据共享空间由门户以及共享处理中心组成。数据共享空间门户可通过数据管理系统建立,如开源的CKAN等。而共享处理中心则可以通过大型企业共同搭建,为数据应用开发提供应用商城及数据服务。
如2.1所述的企业级数据共享架构,提供了一种去中心化访问、轻量级管理的数据共享框架。以联通现有数据中心及平台为基础,基于此种共享架构,可在初期构造如图2所示的联通共享数据平台,将为外部用户(如中小型企业、创业公司、刚起步公司或院校)提供数据开放、数据共享等能力[13]。
共享数据门户可为外部用户提供访问服务,如提供样本数据、数据索引及使用报告、应用管理及元数据管理等功能。
1)样本数据。提供去隐私化的样本数据的可视功能,支持以图、表形式显示样本数据。
图2 企业级数据共享空间架构
2)索引+报告。提供该用户可查看的数据索引及相关测试、使用报告。
3)应用管理。应用管理包括需求管理以及应用的全生命周期的管理。应用的全生命周期管理包括三个环节:应用的测试与开发、应用发布与运行控制、应用的使用体验与反馈。其中,应用开发商根据中国联通提供的相应技术规范进行相应的应用创新与开发;应用发布要遵循中国联通相应的入网规范与流程;应用发布后,相关业务部门使用该应用并且给出相应的评价信息。
4)元数据管理。对共享数据处理中心提供的数据实现元数据管理。
共享数据处理中心实现了数据的注册并为数据应用提供运行环境,具体由数据注册中心和应用运行中心组成。其中,数据注册中心实现数据的注册、一体化等[14],包括以下六点。
1)样本数据库。为用户提供样本数据查看、选取等功能。样本数据库实现样本数据存储及基于数据集取样等功能。存储的样本数据相互隔离,样本数据通过自动取样和人工取样两种方式获取,样本获取规则和脱敏方法由数据提供方提供。
2)数据注册。数据集市、应用开发/测试过程中使用的数据需要在数据注册模块进行注册和对已注册的数据库/数据集市实现修改、删除、查询等操作。
3)元数据。由数据注册中心完成底层数据仓库元数据的实际生成、存储。包括:①与联通元数据管理平台的对接配置及管理;②对元数据的新增、修改、删除、查询操作,能保留历史版本信息(界面修改及EXECL导入均应记录版本),支持大版本的恢复;③对元数据类型、属性和关系等信息的维护和对文档类等非结构化元数据的管理;④对元数据资源、功能等的属性化授权管理,对元数据访问的权限分派、审批以及访问日志记录,并对元数据访问和功能的使用进行有效监控。
4)数据库描述。提供对底层数据库的高度概括,便于外部使用用户的快速查询。
5)用量监控。对数据使用及应用对资源的占用进行监控,当存在异常用量时,管理员可以强制结束;当数据使用过程中存在不合规时,会给系统管理员、数据提供者发送告警。
①数据使用监控包括:以图像或列表的形式显示监控状态(如数据使用者、使用的数据、数据提供者、数据操作、现状等);
②应用使用监控包括:以图像或列表的形式显示监控状态(如应用使用者、占用的资源情况、使用数据情况、现状等)。
6)数据摄取及一体化:数据摄取是指从各种数据源/数据库中提取、转换和加载海量数据,如数据库、rest APIs、文件等;数据一体化是指提高数据质量和使用率、一体化两个或两个以上的数据成分的定义、确定它们之间的共性,从而确保保证数据可以融合或统一成单一的数据成分。
应用运行中心为外部用户或应用提供数据使用和运行环境,包括以下四点。
1)应用沙盒。在数据应用进行开发、测试或使用时,测试运行环境使用沙盒机制,使得应用程序只能在为该应用创建的文件夹内读取文件,不可以访问其他地方的内容,包括:①每个应用程序都在自己的沙盒内;②不能随意跨越自己的沙盒去访问别的应用程序沙盒的内容;③应用程序向外请求或接收数据都需要经过权限认证。
2)数据过滤。对应用调用的数据进行过滤,包括:①实际数据需要经过数据过滤才可进入沙盒;②数据过滤规则包含自动规则和人工配置规则,过滤规则可配置;③数据过滤后需通过合规审查检查。
3)数据融合。实现对底层不同数据库、多种数据源中的相关数据提取、融合、梳理整合成一个分析数据集。
4)应用调度及结算包括应用对数据的需求调度及使用数据进行结算。
中国联通现有大数据平台通过统一的标准接口与共享数据处理平台对接,提供多源、异构,不同层次、维度的数据,底层数据库类型包括Oracle、Hadoop、Greenplum等,数据层次从原始数据、数据仓库、数据集市到数据魔方。
基于本方案基础,数据处理及应用交互主要运行于共享数据处理中心,图3、4所示为数据应用在不同阶段的使用场景。
数据应用的开发、测试流程如图3所示,步骤如下:
①数据挖掘/分析师通过门户探索到可以提供哪些数据集;②③数据挖掘/分析师根据提供的数据在应用沙盒内开发、测试应用;④测试可通过提供样本数据或通过应用调度⑥取得的实际数据(但需经过数据过滤⑦)来完成;⑤基于实际数据进行测试的应用需要与提供者进行结算清分;⑧应用随后可以注册至应用商城,应用使用的数据需要进行最终清分。
图3 应用开发、测试流程
应用执行、调用数据、数据结算过程如图4所示,步骤如下:①请求使用数据的应用通过应用商城进行应用调度及结算功能②③;④⑤应用融合数据并返回结果。
图4 应用执行、调用数据、数据结算过程
基于数据共享的思路,中国联通现已搭建了初步实现共享数据平台功能的原型系统,并完成了电信自有数据中心、互联网行业数据及地理信息的轻度融合,完成了面向国家统计局、公安、安防等外部用户的数据应用开发,包括关键人员追踪、聚集预警及交通拥堵状况[15],形成了如图5所示的数据融合应用格局。
图5 数据融合应用
企业级数据共享的实现,将完成不同行业的各类数据的整合,提供全方位的立体数据绘图,从而可以从更高层次、更加系统的角度了解并重塑数据模型。仍需持续研究并形成包括建模、数据规范、数据组织管理、隐私保护与数据安全、程序化交换/交易方法与技术标准在内的全生命周期数据资源管理和治理方法成果,构建“行业内全量数据——行业间可交换/交易数据——社会开放数据”的分级式数据资源开放和共享应用模式[16],最终构建并提供以电信行业为主、融合金融、旅游、电力等其他典型行业的跨行业大数据资源池,以支持跨行业数据资源的融合、开放共享与分析应用。
参考文献
[1]曾文英,朱亚兴,徐承亮,等.企业数据共享解决方案研究[J].中小企业管理与科技,2015(8):288-289
[2]Ross JS, Krumholz HM. Ushering in a New Era of Open Science Through Data Sharing: The Wall Must Come Down[J]. JAMA. 2013,309(13):1355-1356
[3]Aryanto K Y E, Wetering R V D, Broekema A, et al.Impact of cross-enterprise data sharing on portable media with decentralised upload of DICOM data into PACS[J]. Insights Into Imaging, 2013, 5(1):157-164
[4]Miller H G, Mork P. From Data to Decisions: A Value Chain for Big Data[J]. IT Professional, 2013,15(1):57-59
[5]Ronald Fagin, Phokion G Kolaitis, Renée J Miller, et al. Database TheoryData exchange: semantics and query answering[J]. Theoretical Computer Science,2005,336(1):89-124
[6]李晓东,杨扬,郭文彩,等.基于企业服务总线的数据共享与交换平台[J].计算机工程,2006,32(21):217-219,223
[7]林伟胜,陈森利,许卓伟,等.保护隐私的轻量级云数据共享方案[J].计算机应用研究,2015,32(8):2410-2414
[8]宋关福,钟耳顺,刘纪远,等.多源空间数据无缝集成研究[J].地理科学进展,2000,19(2):110-115
[9]张星,文子龙,沈晴霓,等.可追责并解决密钥托管问题的属性基加密方案[J].计算机研究与发展,2015,52(10):2293-2303
[10]祝衍军.公共数据安全交换平台的数据交换引擎研究与实现[D].中国科学院沈阳计算技术研究所,2008
[11]闫玺玺,耿涛.面向敏感数据共享环境下的融合访问控制机制[J].通信学报,2014,35(8):71-77
[12]金保华,和振远,张亮,等.基于SOA的数据共享与交换平台分析与设计[J].郑州轻工业学院学报(自然科学版),2011,26(1):102-106
[13]李卫,张云勇,魏进武,等.电信运营商数据挖掘分析共享平台架构研究[J].移动通信,2014,(19):13-17
[14]王天亮,陈刚,徐宏炳,等.基于共享数据库的数据共享技术[J].计算机工程与设计,2007,28(8):1923-1926
[15]魏进武,靳淑娴,张基恒,等.大数据关键技术及运营商落地建议[J].邮电设计技术,2015(5):9-12
[16]魏进武,张云勇.电信运营商的大数据价值创造[J].信息通信技术,2013(6):10-14