刘卓军
数据是原料,信息是产品,而真正能体现出价值的还得是信息。“数据”堪称为元词,甚至《辞海》中都没有关于它的明确词条。对于“信息”,《辞海》则将其解释成“泛指消息和信号的具体内容和意义”。尽管如此,并不阻碍人们愉快地认为,数据是用于表示客观事物的未经加工的原始素材,它是对事实、事物、系统的观察或观测到的结果,形式上具有多样性。从人们的生活实践和社会实践来看,数据和信息不可分离,数据是信息的载体和表达,信息是数据的内涵,是经过加工了的数据,是数据处理的结果。这种认识和理解与信息论奠基人香农指出的“信息是用来消除随机不确定性”的本质并不抵触。
事实上,对于感兴趣的事实、事物乃至系统,如果获取的信息多,对其在认识上的不确定性或模糊性就会少。不难理解,人们对系统的关注和兴趣,根本的目的是要认识它、适应它、溶入它、“控制”它,乃至最终利用它并与其和谐相处。这其中当然需要智慧。差不多可以这样认为,历史发展到今天,人类获取智能所遵循的就是一条从数据(data)到信息(information)到常识(knowledge)到认识(insight)到智慧(wisdom)的演变路径。而人工智能的终极发展,这个路径也极具价值。
处在信息时代、信息技术高度发展而且还在快速发展的历史节点上,已经容不得不从大数据、云计算和物联网这三个维度和角度来审视信息社会的发展进程和状态了。根据全球最具权威的IT研究与咨询公司高德纳(Gartner)建立的IT概念及潜在项目演变的成熟度变化曲线模型,即便到今天,大数据、云计算和物联网也还没有进入到成熟、稳固、全面发展的状态。这从另一个方面也预示着,信息社会的发展不久将会进入更加激动人心的阶段。
正是因为数据与信息的紧密关联,大数据才在社会的各个层面受到特别的关注和更大的重视。数往知来,获取数据不是目的,提取信息才是所求,甚至这也仅仅是个过渡性的追求,更大的期盼是获得更多的知识以提升具有更高智能的智慧。
数据的大量产出是信息技术和信息社会快速发展的必然结果。笔者在1990年代早期赴美国的大学从事研究期间就领略到美国教授和IT工程师的一种察觉:“计算机磁盘空间永远也不够大。”根据全球著名的管理咨询公司麦肯锡(McKinsey)2011发布的关于大数据的报告,到2007年的时候,全球一年所生成的全部数据第一次超过了全世界全部存储器所能容纳的程度。这意味着一些数据如过眼烟云般随生随灭了。如今,存储器集成度在提升价格在下降,以GB和TB为单位的数据盘和存储器已经非常普遍,尽管全球的数据存储能力得到明显加强,但却要“水涨船高”地面对全球每天生成的高达2.5EB字节之巨量的数据,这大体上相当于1万个美国国会图书馆全部藏书的数字化之规模。显然,数据价值评估与数据冗余去除及数据噪音去除已经成为一个首当其冲的问题,因为数据越多,从中提取出有用的信息就越困难。撇开抽样而利用全数据空间是一个诱人而没有技术和方法支撑的想法。“啤酒和尿布”的关联故事很难在更大范围更宽领域重现,而且即使这个关联关系本身的发现也需要数据之外的工具和技术。
数据价值挖掘的好,首先数据要存放的好,数据的干净程度要高。不论是大数据还是小数据,从数据走向信息才是王道。在纪念信息论奠基人香农诞辰100年的今天,我们更应从信息的角度来审视数据及相关的概念延展:0级信息是数据,1级信息是信息本身,2级信息是常识,3级信息是认识,4级信息是智慧。本质上,数据总是产生自一个系统,系统的日益复杂性自然导致了数据呈现出的复杂性,而攻克复杂性问题将是科学、技术、工程领域必须长期面对的挑战。为了实现大数据的健康发展,需要从数据采集和存储的一开始就要尤其关注数据和信息的融合。只有这样,大数据才能发挥出更大的价值!
注:2016年4月30日是信息论奠基人香农诞辰100周年的纪念日。