释放大数据的能量
3月,谷歌AlphaGo与韩国围棋国手李世石的“人机世纪大战”,刷爆全球舆论圈。
说到底,AlphaGo获胜,在于拥有人类历史高手海量的棋局和不断试错改进的自我学习能力。大数据+深度学习,造就了AlphaGo的胜利。
海量数据的汇聚,促成了大数据时代的到来,然而,问题普遍存在,那些希望通过海量数据总结和发现科学的规律,或者是刻画用户画像的设想,遭遇了诸多挑战。
随着高校信息化的发展,积累了二十余年的各类数据,当我们面对庞大的校务数据,希望藉以了解学校师生教学和生活行为的发展趋势时,数据隐私保护、数据质量、数据分析技术以及数据应用服务等的问题,均接踵而来。
在数据开放政策与机制相对缺失的当下,数据的供需矛盾也显得尤其突出。数据只有开放,并按需汇聚起来,才能成为大数据,才能刻画并总结出科学的规律,但如何开放大数据资源,在人们对数据“淘金”的期望越来越高的当下,将数据当做宝贝,秘而不宣,使得数据供与需之间,存在壁垒。
虽然大数据催生了科研的第四范式——数据密集型科学,但“大数据在计算机中,科研的人在科学中”,却还是全球性的难题,要破解这样的困局,需要从机制体制上进行整体规划。高校数据中心或者即将到来的科学大数据库建设中,需要解决数据管理及评价机制的问题。
首先,评价体系需要适应新的情况进行相应的变革。很多应用学科只将计算机技术单纯作为一种载体,或者是简单的处理工具,因而从事计算科学的研究人员,也常常被视为科研辅助人员,其科研成果并不能得到认定,认识上的局限性使得学科交叉越来越困难。
第二,数据的规范管理。目前关于数据的标准规范虽然形成于2010年前后,但其中关于数据归属、数据版权等焦点问题,并未有清晰的界定,这对于数据的生产者及数据的使用者,都构成了风险。
目前国际上非常关注的“数据出版”,可以是一个新模式的探索。数据出版首先明确了数据的知识产权,清晰界定数据的拥有权,但并不妨碍其使用权;第二,注明来源;第三,数据拥有一个标识,可以提供使用者随时访问到需要的数据。如此,既可以让数据的开放共享更规范,也可以让科研人员更愿意开放数据,供需的矛盾或能得以化解。
大数据带来机遇,也带来许多挑战,需要我们条分缕析,因时应势,破解束缚,才能释放出大数据无穷的能量。
中国科学院计算机网络信息中心科学数据中心主任
CODATA中国委员会秘书长黎建辉