大数据不仅仅是大量的数据,也不仅仅是一些公司为了推销产品而强调的异构数据或者非结构化数据,而是具有了以往数据中难以具备的多维度和完备性等特点,更重要的是它是一种新的思维方式、一种新的方法论。现在大数据炙手可热的原因不仅是各行各业都可以通过对数据的分析极大地提升自身的业务,更重要的是它将带来机器智能的全面革命,并且最终改变世界的产业格局和社会生活。从数据驱动的时代开始,计算机领域的科学家和工程师已经意识到,让机器具有所谓的智能需要,走一条和人的认知方法完全不同的道路,这就是发挥计算机在计算和存储方面的特长,利用大数据的完备性,发现人难以发现的规律,得到传统方式无法得到的结果,从而在某些方面超越人的智力。
概括起来,如今从学术界到工业界都意识到,实现机器智能需要 3 个支柱——摩尔定律、大数据、数学模型。摩尔定律的作用是保证计算机的计算能力和存储能力能够适应解决复杂智能问题的需求;大数据的多维度和完备性特点是保证智能性问题能够找到答案的关键;数学模型则是将现实生活中的问题转化成计算的桥梁。
实现大数据的应用和机器智能涉及很多关键技术,涵盖了计算机科学、电机工程、通信、应用数学和认知科学等许多方面。
数据的收集是关键
大数据离不开数据,而数据的收集非常关键。与传统的利用采样收集数据不同,大数据需要全面地、在无意间收集各种可能有用的数据。强调“无意间”是因为有时可以收集的数据会变形,不具有统计意义,关于央视收视率调查的例子就说明了这个道理。虽然收集大量的数据并不难,但是收集全面却不容易。在 Silver 所做的美国大选预测的例子中,准确性来自于数据的全面性。下面用 Google 产品中另外一个例子来说明收集完备的数据和大量的数据在难度上的区别。统计语言模型是语音识别、机器翻译甚至输入法的基础,而训练一个好的统计语言模型需要大量的数据。过去为了保证训练数据具有代表性,通常是从各种来源的文本数据中抽样,凑足即可。这样得到的模型是针对所有人的,当然对于用词非常怪异的人(小概率事件)来讲,通用的模型就未必合适。在大数据时代,有可能为每一个用户量身定做一个语言模型,这就要收集每一个用户完备的输入数据,要做到这一点而不涉及用户的隐私就有相当大的难度。
在大数据时代,拥有数据就等于拥有了财富。2014 年初,Google 以 32 亿美元的天价收购几乎没有什么收入的智能空调控制器公司 Nest,这不是为了给家庭省一点电,而是通过 Nest 的产品收集人们在家活动的数据,而这些数据采用传统的数据采集方法是得不到的。
数据的存储面临挑战
摩尔定律使存储成本成倍下降,但是当大数据出现后,数据量增长的速度可能超过摩尔定律增长的速度。例如,Google 眼镜可能将人一辈子看到的事情全部记录下来,如果这件事做成了,会彻底改变人们对世界,甚至对自己人生的了解。但是,将这些视频(包括音频)数据都存下来不是一件容易的事情。对于拥有和使用大数据的公司,存储数据的数据中心就成了未来业务的关键点。如果这个点出了故障,如何保证业务的正常运行就是一个挑战。另外,在很多时候数据的存储不仅仅是成本问题。处于保护隐私的考虑,很多与用户相关的数据还不能集中存储,而是需要存在每一个人的智能终端上,这也给数据的存储和使用带来了挑战。
对于互联网的网页数据、公司运营的日志数据、用户使用互联网习惯的数据,虽然其数据量大,但是颗粒度都很小,因此它们的表示(描述)、检索和随机访问并不是大问题。但是,对于富媒体数据(如视频),要想随机访问其中一个画面就不是一件容易的事情。还有很多比网络富媒体颗粒度大得多的数据,例如很多和医疗相关的数据,一个基本单元就几百兆甚至更多。目前,检索一个词组是件容易的事情,但是检索一段基因就不容易。除了医疗,很多行业(如半导体设计、飞机设计制造)的数据量都很大。
过去,各个领域甚至各个公司会有自己的数据格式,它们只在自己的领域使用自己的数据。但是,到了大数据时代,希望通过数据之间的相关性尤其是大数据多维度的特性,找到各种事务之间的关联。如果能够将每一个用户的饮食习惯收集起来,通过可穿戴式设备了解他们的生活习惯,然后再与他们的医疗数据甚至是基因数据联系起来,就能研究出不同人、不同生活习惯下各种疾病的发病可能性,并且可以建议他们改进饮食习惯,预防疾病。这个前景看起来很美好,但是要实现它就必须先解决数据的表示、检索和随机访问等问题。显然,对于世界上各种各样的大数据,无法用一个统一的格式来描述,但是需要一些标准的格式,以便于相互交换数据和使用数据。数据表示的另一个挑战来自于数据保密和对隐私的诉求。很多时候,希望使用大数据的人,既能得到想要的统计规律,又无法看到数据的内容。
学会从沙子里淘金
使用大数据,相当于在一堆沙子中淘金,不经过处理的原始数据给不出新知识,大数据能产生的效益在很大程度上取决于使用和挖掘数据的水平。在 Google,至少有四成的工程师每天在处理数据。大数据不同于过去为了某个特定目的获取或者产生的数据,在结构和格式上比较规范,大数据的原始数据常常是杂乱无章的,因此从沙子里淘金的本领是使用大数据的必要条件。虽然问题的答案存在于网页之中,但是答案的内容通常是零碎地分布在不同网页里,对网页的结构、内容进行分析就成为了使用大数据的先决条件。而对于文本大数据来说,自然语言理解技术是使用它们的前提。从纷杂的数据中获取有用的信息,通常只是使用大数据实现机器智能的第一步,而接下来关键的一步就是机器学习。对于同样的数据、同样的算法,采用不同深度的机器学习方法得到的结果不同。Google 的Jeff Dean 等人采用大规模并行的人工神经网络,对语音识别的参数重新训练,将识别的错误率降低了 15%(相对值)。对于机器翻译,效果同样显著。这说明机器学习的重要性。
安全性和隐私性的维护
大数据由于数据量大而且完备,一旦丢失,损失将是巨大的,而一旦被盗取,后果更是不可想象。因此,大数据的安全性是 IT 领域新的挑战。
大数据的完备性可以带来很多好处,例如很多原本针对一个群体的产品和服务可以做到针对每一个人,但是同时也会带来隐私的忧患。对隐私的保护不是仅在法律层面,而是指如何通過技术手段,使得在使用大数据时既能够发挥它的功效,还能够维护个人的隐私。
大数据使机器智能水平超过人成为可能
目前,机器智能做得最好的领域都有一个共同的特点,就是找到了把实际问题变成计算的数学模型和智能算法。为了让计算机发挥更大的作用,变得更加智能,需要在数学模型研究上进行更大的投入,而这需要一个漫长的技术积累,很难在一夜之间有突破,因此除了长期坚持研究,别无他法。
机器智能曾经是无数代人的梦想。在 1946 年人类制造出第一台电子计算机以后,这个梦想似乎离人们非常近了,但是直到上个世纪末,机器的智能水平还比较低。
主要有两个原因:一是很多技术条件还不具备,机器智能的发展在整体上还处于早期阶段;二是人们习惯于按照人的思维方式去要求机器,并且让机器模拟人,导致走了很多弯路。但是,人类最终认识到计算机实现智能和人采用的方法是完全不同的。经过半个多世纪的摸索,人类找到了采用适合机器特长的发展机器智能的方式。由于人类的智能水平在过去的几千年里没有太大的变化,但是机器的智能水平却可以随着摩尔定律呈指数增长,因此在某个时间点,一定会出现机器在智能上超过人类的可能性,如今人们可能就处在这个转折点,而这一切在很大程度上是因为有了大数据。