解读2014年的“大数据”

2015-09-04 06:33
中国建设信息化 2015年3期
关键词:大数据

中国信息通信研究院(原工业和信息化部电信研究院)日前在北京召开的“ICT深度观察大型报告会”,同期发布“2014年十大关键词和2015年十大趋势”。“十大关键词”包括:大数据、4G、云计算、网络与信息安全、移动互联网、互联网金融、铁塔公司、阿里巴巴上市、微信、可穿戴设备。

一、互联网公司在四个方面引领大数据发展

一是积极采用大数据技术优化既有业务。在搜索领域,百度基于大数据和深度学习推出了以图搜图、语音搜索等更加精确的搜索服务;在广告领域,互联网公司通过对数亿用户建立的上万个指标的客户画像,能够精准的分析用户属性和行为。据统计,基于大数据的实时竞价(RTB)广告年均增速已达150%,几家大型的互联网公司都已经建立了大规模的广告交换网络(Ad Exchange)。二是今年以来陆续推出一系列面向第三方的大数据服务。阿里巴巴面向商户提供了量子恒道、数据魔方、数据超市等一系列大数据服务,百度推出“司南”、数据工厂和百度大脑等一系列大数据服务,下一步将在政府、制造、医疗、金融、零售、教育等传统领域开展合作。三是借助大数据技术向线下业务延伸。互联网金融在大数据支撑下超速发展。阿里小额贷款无需传统担保,不良贷款率仅为传统银行的1/5, 成本不及银行的百分之一。京东利用消费记录、退换货记录、配送信息、购物评价等数据评价用户信用,瞬间就可向用户发放“京东白条”的消费贷款。四是技术开放及创新加快。在大数据分析集群方面,这些企业能够结合自主研发,构建全球领先的大数据系统,阿里巴巴大数据平台单集群规模达5000 台服务器,腾讯5600台,百度则达到1.2万台,数据量管理规模约为100PB到1000PB。在数据挖掘技术方面,百度在深度学习技术方面加强投入,聚集了一批国际顶尖人才,产出的成果在搜索、广告等业务中应用效果明显,在学术界也有较大影响。阿里和腾讯相继将其核心大数据存储(OceanBase)、大规模数据仓库(TDW)等技术通过开源模式与产业界分享,带动了其他企业的技术创新。

二、传统企业大数据应用模式仍在探索中,发展回归理性

大数据在全社会的应用,总体上仍处于早期阶段。Gartner 在2014年9月发布的报告中指出,传统企业普遍都在摸索阶段,认为“在采用大数据方面其他人都比我超前”其实是误区。Gartner的调查显示,在北美地区,即便有47% 的受访企业已经投资大数据,但是大多数仍在探索阶段,只有13%的已经部署了大数据解决方案。传统企业在大数据应用的思路上也在纠偏,更加务实。一是从盲目追求严格符合3V 标准、非结构的“大”数据,到更加注重更干净、结构化小的数据。二是从把希望寄托在互联网、社交等外部数据上,到更加注重企业自身沉淀下来的内部数据的价值挖掘。三是从一味追求Hadoop 等高大上的分布式先进技术,转而更加注重根据业务需求把Hadoop 与传统数据仓库结合起来用。四是抛弃一夜之间大数据使得企业数据分析实现飞跃的幻想,转而改走从小处着手自发生长的道路。

三、政府热议用大数据提升治理能力

各级政府高度重视大数据发展。2014年3月份,“大数据”首次出现在今年全国两会的《政府工作报告》中,相关话题也成为今年两会的热点,多位代表和委员提交了相关提案,建议将大数据上升为国家战略。2014年6月,全国政协召开双周协商座谈会,就“利用大数据技术提升政府治理能力”提出建议,委员们认为,大数据等现代技术发展迅猛,正对全球经济社会产生重大影响,在政府治理中运用大数据等现代技术,能够显著提高政府科学决策、监管市场、公共服务、社会管理和生态文明建设等能力,是建设透明、效能、服务、责任型政府的迫切需要。北京、上海、广东、贵州等省市积极行动,推动大数据产业发展。北京中关村2014年2月发布《加快培育大数据产业集群推动产业转型升级的意见》,力图引领周边区域筹建京津冀大数据走廊。广东省在制度创新上走在前列,2014年年初在全国率先成立了大数据管理局,负责研究拟订并组织实施大数据战略、规划和政策措施,引导和推动大数据研究和应用等工作。贵州省出台了力度空前的大数据发展优惠政策,力图走“后发先行”跨越发展道路。在各地各部门积极推进的同时,业界对国家层面的大数据顶层设计也寄予厚望。更系统的大数据发展政策有望在明年出台。

四、三方面挑战是我国大数据发展面临的主要挑战

一是数据开放程度较低、流动性差,数据资源结构性短缺普遍存在。一方面一些政府部门和大型企事业单位手中拥有宝贵的数据资源。另一方面,多数企业在开展大数据应用时都面临外部数据短缺、获取成本高的困境。造成这种现象很大程度上因为数据流动性不足造成的。然而,国内数据责权利不清晰,开放与保护的边界不明确,隐私隔离与数据清洗等方面的标准不完善,导致企业担心法律风险和舆论压力而不敢大规模开发、利用和流通,资源难以发挥价值。在国外,特别是美国,对接需求与供给的数据中间商(databroker)或数据交易市场(data marketplace)已经存在多年,在数据资源合理流动方面发挥了价值。我国也可引进这样的机制来促进数据流通,但如何有效监管是未来政府需要考虑的问题。

二是大数据相关的法律法规有待进一步完善。如何应对隐私保护挑战,在世界各国都是大数据发展中的焦点问题。2014年美国白宫进行了为期90天的大数据与隐私调研,在美国国内激起热烈讨论,一派认为目前垂直领域的隐私管理和行业自律机制已经够用,没必要出台新的法律,另一派则呼吁要加强立法工作。2014年5 月,欧洲法院裁决,当个人信息明显过时或不相关时,民众有权行使“被遗忘权”要求服务商删除,隐私保护力度加强。我国于2012 年底出台了《全国人大常委会关于加强网络信息保护的决定》,2013年7月工信部发布《电信和互联网用户个人信息保护规定》,在立法上前进了一步,但与其他国家相比,我国对网络个人隐私信息的安全保护处于起步或者比较低的水平,无法适应大数据日益发展和网民对个人信息安全保护的需求不断增长的实际需求。

三是大数据人才短缺瓶颈突出。数据分析师是今年人才市场上最热门的职位之一,但国内这方面的人才缺口还比较大。据报道,仅广东地区的数据分析人才缺口就达百万,而全国电子商务领域的数据分析人才需求缺口将达300万以上。也有人预计,未来两年内中国专用数据分析人员预计缺口在1400万。既精通数据分析又懂业务的复合型人才更是踏破铁鞋无觅处。今年以来,国内很多高校开始培养大数据专门人才,清华大学、复旦大学、西安交大、浙江大学等高校也先后设立数据科学研究机构,开设大数据专业。但短期内,解决企业人才短缺阵痛,更多还要依靠企业内部跨部门培养。

【2014年“大数据”大事记】

2月28日,广东省政府印发《广东省经济和信息化委员会主要职责内设机构和人员编制规定》,设立广东省经济和信息化委员会,下设广东省大数据管理局。广东成为全国第一个设立大数据专门机构省份;

3月5日,国务院总理李克强在《政府工作报告》中提出,“设立新兴产业创业创新平台,在新一代移动通信、集成电路、大数据、先进制造、新能源、新材料等方面赶超先进,引领未来产业发展”,大数据首次写入政府工作报告;

6月19日,中关村大数据交易产业联盟发布《中关村数海大数据交易平台规则》( 征求意见稿),这是国内第一份数据交易规范;

10月10日,新一代分布式计算框架Apache Spark 在DaytonaGraySort 基准测试中, 打破了由Apache Hadoop 保持的记录。Hadoop 需要用2100节点在72 分钟内完成对100TB 数据的排序运算,而这次测试中Spark 只用了206个节点,并在23分钟内完成。

猜你喜欢
大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索