释放大数据的能量

2016-02-14 19:16黎建辉
中国教育网络 2016年4期
关键词:海量数据中心能量



释放大数据的能量

3月,谷歌AlphaGo与韩国围棋国手李世石的“人机世纪大战”,刷爆全球舆论圈。

说到底,AlphaGo获胜,在于拥有人类历史高手海量的棋局和不断试错改进的自我学习能力。大数据+深度学习,造就了AlphaGo的胜利。

海量数据的汇聚,促成了大数据时代的到来,然而,问题普遍存在,那些希望通过海量数据总结和发现科学的规律,或者是刻画用户画像的设想,遭遇了诸多挑战。

随着高校信息化的发展,积累了二十余年的各类数据,当我们面对庞大的校务数据,希望藉以了解学校师生教学和生活行为的发展趋势时,数据隐私保护、数据质量、数据分析技术以及数据应用服务等的问题,均接踵而来。

在数据开放政策与机制相对缺失的当下,数据的供需矛盾也显得尤其突出。数据只有开放,并按需汇聚起来,才能成为大数据,才能刻画并总结出科学的规律,但如何开放大数据资源,在人们对数据“淘金”的期望越来越高的当下,将数据当做宝贝,秘而不宣,使得数据供与需之间,存在壁垒。

虽然大数据催生了科研的第四范式——数据密集型科学,但“大数据在计算机中,科研的人在科学中”,却还是全球性的难题,要破解这样的困局,需要从机制体制上进行整体规划。高校数据中心或者即将到来的科学大数据库建设中,需要解决数据管理及评价机制的问题。

首先,评价体系需要适应新的情况进行相应的变革。很多应用学科只将计算机技术单纯作为一种载体,或者是简单的处理工具,因而从事计算科学的研究人员,也常常被视为科研辅助人员,其科研成果并不能得到认定,认识上的局限性使得学科交叉越来越困难。

第二,数据的规范管理。目前关于数据的标准规范虽然形成于2010年前后,但其中关于数据归属、数据版权等焦点问题,并未有清晰的界定,这对于数据的生产者及数据的使用者,都构成了风险。

目前国际上非常关注的“数据出版”,可以是一个新模式的探索。数据出版首先明确了数据的知识产权,清晰界定数据的拥有权,但并不妨碍其使用权;第二,注明来源;第三,数据拥有一个标识,可以提供使用者随时访问到需要的数据。如此,既可以让数据的开放共享更规范,也可以让科研人员更愿意开放数据,供需的矛盾或能得以化解。

大数据带来机遇,也带来许多挑战,需要我们条分缕析,因时应势,破解束缚,才能释放出大数据无穷的能量。

中国科学院计算机网络信息中心科学数据中心主任

CODATA中国委员会秘书长黎建辉

猜你喜欢
海量数据中心能量
酒泉云计算大数据中心
一种傅里叶域海量数据高速谱聚类方法
浅析数据中心空调节能发展趋势
能量之源
关于建立“格萨尔文献数据中心”的初步构想
海量快递垃圾正在“围城”——“绿色快递”势在必行
诗无邪传递正能量
一个图形所蕴含的“海量”巧题
一种海量卫星导航轨迹点地图匹配方法
基于云计算的交通运输数据中心实现与应用