大数据产业发展的他山之石

2017-01-23 03:01马慧民
张江科技评论 2017年2期
关键词:开源发展

■ 文/马慧民

马慧民,上海大数据联盟常务副秘书长,经济学博士。

中国发展大数据产业需要拓展国际视野,借鉴国际经验,他山之石,可以攻玉。

2012年被认为是大数据元年。在这一年,美国奥巴马政府推出了《大数据研究和发展计划》,启动了美国国家大数据战略;用户日志管理公司Splunk成功上市,成为大数据第一股。在随后的几年中,大数据风潮席卷全球,技术、资本、人才趋之若鹜,大数据产业出现了一波脉冲式的发展。从全球经验来看,企业是大数据应用创新的主要力量,政府为大数据产业发展提供了巨大支撑,开源社区则为大数据技术进步营造了广阔空间。但是,与此同时,鼓励数据价值发现之“鱼”和保护个人隐私之“熊掌”不可兼得的法规矛盾变得越来越突出。

经济层面 创造价值是大数据应用创新的原动力

利用大数据资源和技术创造更多价值,成为企业开展大数据应用创新的原动力。围绕既有的资源禀赋和竞争优势,企业进行着各种大数据产业创新,探索出大数据背景下适合企业自身发展的路径。

一方面,传统IT硬件厂商积极向大数据基础设施和大数据技术平台服务提供商转型。根据美国专业分析机构Wikibon发布的报告,IBM公司2013年从大数据相关产品及服务中获得了13.68亿美元收益。其具体产品包括服务器与存储硬件、数据库软件、分析应用程序以及相关服务,还有DB2、Informix、InfoSphere数据库平台,Cognos与SPSS等大数据分析应用类产品。惠普公司在2013年获得的大数据营业收入总值为8.69亿美元,它还提供与之相关的硬件、软件以及服务,其中最为知名的方案当数Vertica分析平台。

另一方面,诸多新型互联网企业成为数据资源的集聚方,通过创新形成大量的数据产品服务于各类应用场景。例如,eBay公司用数据驱动商业,其所有的数据产品都是针对业务而生,数据部门需要对不断变化的用户需求找到解决之法,也就是从客户的行为数据中寻找更多新价值。eBay公司针对卖家工具提供的Seller Hub,可以对每一位卖家进行深入分析,使卖家了解哪些商品更畅销,产品如何标价才能具备竞争优势等。Salesforce公司是一家专注于CRM(用户关系管理)的公司,通过对用户数据分析挖掘形成新的价值,是大数据在精准营销领域的典型应用。Salesforce公司在2015年的营业收入超过50亿美元。据大数据行业分析师估计,到2020年,Salesforce公司有望成为一家市值达1 000亿美元的公司。

技术层面 开源社区是大数据技术进步的大生态

开源模式成为大数据技术创新的主要途径。从大数据技术的发展历程上可以看出,大数据核心技术如分布式存储、云端分布式及网格计算均依赖于开源模式,即通过开放式的平台,吸引全球开发者通过开源社区进行代码的开发、维护和完善,从而集全球智慧推动大数据技术的不断进步。当前,全球各大企业加大了对开源社区的赞助和智力投入,开源社区在大数据技术进步中占据核心地位。

一方面,由第三方打造的大数据技术开源平台发挥了积极作用。Apache软件基金会(ASF)是推动大数据技术发展的全球顶级开源社区。ASF正式创建于1999年,至今已经成功孵化了众多大数据相关的开源项目。ASF大数据开源社区的创建过程是全球大数据技术公司的集体智慧。其中,Apache Hadoop技术的发展就是非常典型的例子。谷歌公司在2003年发布的关于谷歌文件系统(Google GFS)的论文和2004年发布的关于编程模型MapReduce的论文是Hadoop的技术雏形。2005年,雅虎公司启动了Nutch项目,提供了一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。到2008年1月,Hadoop已成为Apache的顶级项目,并成为大数据发展的技术标准。

另一方面,大数据领先企业也在围绕自身生态打造技术开源社区。这些企业通过开源项目的方式推动技术创新,并将创新成果通过开源方式向全社会辐射,引导和推动大数据技术的发展,在国际上逐渐形成了一套高效运转的研发产业化体系。开源提供了一种高效生产软件的方法,降低了企业进入大数据应用服务市场的壁垒,催生更多技术和服务应用的创新。比如,Facebook公司于2013年11月开源了Presto技术,该技术是新型分布式SQL引擎,它能够对各种大小(从GB级至PB级)的数据源进行交互式的分析查询。2015年,Presto社区的代码提交数量提高了48%,而fork的数量则提高了99%。Airbnb、Dropbox、Netflix等各大公司都开始使用Presto作为交互式查询引擎。Presto在全球范围内的接受度也在逐步提高,包括来自日本的社交媒体游戏开发公司Gree,以及来自中国的电子商务公司京东都在使用该技术。

政策层面 政府战略是推动大数据产业发展的重要保障

完善的政策是当前大数据先行国家推广大数据应用的重要保障。在政府大数据战略部署和政策推动下,发达国家的政府部门、企业、高校及研究机构都开始积极探索大数据的应用。美国政府和欧盟成员国家都对大数据发展持积极态度,但具体策略有所不同。

美国的大数据战略重在“以点带面”,通过公布重要部门的大数据项目规划,扶持重要领域的大数据技术研发,带动其他部门和社会各界对大数据技术的研发投入和推广应用。2009年,美国国家科学技术委员会(NSTC)发布了《开发数字数据的威力》报告,初步提出了发展大数据的框架、建议和目标。2012年3月,奥巴马政府宣布启动《大数据研究和发展计划》,投入2亿美元进行大数据相关技术的研发。2013年5月,奥巴马政府发布行政命令,加大政府数据开放力度,以便更加有效地利用宝贵的公共数据资源。2014年5月,白宫行政办公室与总统科技顾问委员会(PGAST)联合发布报告《大数据:抓住机遇,保护价值》,从政策角度分析了大数据技术的发展对社会带来的巨大影响。2016年5月,白宫又发布了《联邦大数据研发战略计划》报告,在已有基础上提出美国下一步的大数据发展战略。通过一系列的政策措施,美国大数据战略形成了跨部门协同工作的机制。具体工作由NSTC下设的“网络与信息技术研发计划”(NTTRD)分委员会负责,并专门设立跨部门高级别协调工作组,参与部门多达15个,2016年的工作预算达到近3亿美元。

欧盟则强调政府“铺路打基础”的作用,突出政府在人才培养、基础设施建设、资金扶持、项目规划、合作环境搭建中的基础保障作用。2012年9月,欧盟进一步公布了《释放欧洲云计算服务潜力》战略方案,并向欧盟委员会和欧洲议会提交了《云计算发展战略及三大关键行动》建议。该战略计划通过两年时间,把欧盟打造成云计算服务的领先经济体,为2014—2020年欧盟“云起飞”创造基础,让大数据技术革命渗透到经济社会的各个领域。到2020年,大数据技术为欧盟创造的GDP将达到9 570亿欧元,增加就业人数380万。2015年以来,欧盟力推的《数据价值链战略计划》旨在用大数据改造传统治理模式,大幅降低公共部门成本,并促进经济和就业增长。这一计划的重点是培育一个连贯的欧洲数据生态系统,促进围绕数据的研究和创新工作,采用数据服务及产品,采取具体行动,改善数据价值提取的框架条件,包括基础能力、基础设备、标准以及有利的政策和法规环境。目前,欧盟正在制定一系列重点行动计划,解决数据价值链中与价值创造相关的大量交叉问题。数据价值链战略计划包括开放数据、云计算、高性能计算和科学知识开放获取四大战略。

法规层面 隐私保护是大数据产业发展的难掩之伤

当前,各国对大数据产业创新给予支持的同时,未能形成明确的监管法律来确定个人隐私在大数据时代的法律边界,这造成了大数据行业发展的法律监管“灰色地带”。一方面,以数据驱动的经济发展模式是各国所向往的新经济形态,鼓励数据开放是“鱼”;另一方面,数据价值挖掘背后是对个人隐私权不同程度的侵犯,呼吁保护隐私是“熊掌”。但是,“鱼”和“熊掌”不可兼得。因此,我们经常看到,各国政府在制定和实施隐私保护法规的时候,往往会出现时紧时松、左右摇摆的现象。

美国是非常尊重个人隐私的国家,最早提出隐私权概念,同时也是世界上互联网络技术最为发达的国家,大力倡导网络信息自由。1966年颁布的《信息自由法案》要求充分实现信息公开和开放,让公民有足够的知情权;1986年通过的处理网络隐私权保护问题的重要法案《联邦电子通信隐私权法案》强调对个人隐私的保护。多种法律法规对行为主体的适用性会出现不一致的情况,所以美国政府在保护网络隐私方面更偏重于采用行业自律模式。在“9·11”事件之后,尤其是“棱镜门”事件之后,美国政府加强了对网络信息的管控,直到大数据产业兴起,网络数据管控才有所放松。随着以数据驱动的新经济模式的发展,个人数据隐私被侵犯的问题变得越来越严重。奥巴马政府时期,联邦通信委员会(FCC)颁布了《网络用户个人隐私保护法案》,不允许网络服务提供商(ISP)在未经用户同意的情况下买卖用户的个人数据信息。但是,2017年3月28日,美国众议院票决宣布废除《网络用户个人隐私保护法案》。这标志着美国互联网政策将发生剧烈变化,政策摇摆现象展现得淋漓尽致。不过,也有人将此解读为商业巨头的博弈,因为此次联合决议授权ISP进入原来由谷歌公司和Facebook公司占据主导地位的在线广告市场。

欧盟在隐私保护方面更为保守,倾向于制定和执行较为严格的隐私保护法规。欧盟1995年通过了《数据保护指令》,为欧盟成员国立法保护个人数据设立了最低标准。其后,2002年颁布的《隐私与电子通信指令》要求网站告知用户启用Cookie及如何删除或作废Cookie。2009年颁布的《欧洲Cookie指令》则要求网站在用户初始使用时必须关闭Cookie,直到用户明确同意启用Cookie时才能开启此功能。2015年12月,欧盟执委会(European Commission)通过了《一般数据保护条例》(GDPR),以欧盟法规的形式确定了对个人数据的保护原则和监管方式。值得一提的是,《一般数据保护条例》还提出了“被遗忘权”(Right to Be Forgotten),即个人可以要求搜索引擎从包含“不相关”或者“过期”个人信息的结果里移除链接。这种法律拘束性判决现在不仅是欧盟法律的一部分,还延伸到覆盖各种类型的个人数据。比如,个人可以要求Facebook公司删除个人账户以及所有自己的活动相关的数据。

纵观全球大数据产业,当前尚处于初级阶段。对于中国大数据产业来说,政府的战略支持和企业创新能力都已经具备,但还没有形成成熟的大数据技术开源社区。此外,为了保障大数据产业的有序规范发展,相应的法律法规也是必不可少的。

猜你喜欢
开源发展
校园武术“学、练、赛”一体化实践探索
迈上十四五发展“新跑道”,打好可持续发展的“未来牌”
传播开源精神 共迎美好未来
五毛钱能买多少头牛
2019开源杰出贡献奖
从HDMI2.1与HDCP2.3出发,思考8K能否成为超高清发展的第二阶段
砥砺奋进 共享发展
改性沥青的应用与发展
大家说:开源、人工智能及创新
开源中国开源世界高峰论坛圆桌会议纵论开源与互联网+创新2.0