大数据的未来
大数据应用所带来的价值已经让我们为之兴奋,不过,这并不是大数据应用所爆发出来的最大能量。
事实上,目前我们所看到的大数据应用,更多的是对历史数据和一些消费者行为数据进行分析,这样固然能够帮助企业在管理、运营以及营销方面得到提升,但大数据应用的更大价值,并没有得到完全的体现。
“大数据应用的最大价值有两个方向,一是机器学习;二是实时洞察。”文思海辉技术有限公司CIO龚培元说。
在龚培元看来,通过机器学习,利用大数据分析,可以帮助人类做更多的预测。事实上,在很多时候,机器学习和人工智能是紧密相连的。对于人工智能,多年来科学家一直在进行这方面的研究,而如今,海量的数据和计算能力,有可能会驱使机器学习和人工智能得到突破。
在这方面,IBM沃森计算机是一个典型的例子。沃森之所以能够在智力竞赛中击败两名人类选手,机器学习技术在其中起到了很大的作用。
对于沃森的学习能力,IBM专家介绍说,在沃森参赛之前,它会从历史数据中进行学习。比如,如果它回答错了一个往期节目上的问题,它会从中学习到一些信息。而在参赛之时,它主要依赖以前学习的结果,但也进行一些简单的在线学习。例如,它可以从已经被其它选手回答的同一类型问题中归纳出一些特点,指导其回答这类问题。因此可以说,沃森具备了初步的自我学习和完善的能力。不过,IBM专家也表示,目前沃森的学习还是有指导的,完全的自学习能力还有待进一步研究和开发。
即便如此,沃森所展示出的机器学习技术,已经令我们有了更大的想象空间:如果将其和传统行业的海量数据相结合,会给企业的业务带来怎样的改变?
无独有偶,最近几年,微软公司也一直致力于机器学习技术的研究,并在2014年9月,推出了机器学习服务平台Azure ML。事实上,目前微软公司已经利用机器学习技术,和大数据相结合,来解决一些实际问题。例如,如何更准确地了解我们生活环境的空气质量。实际上,不同地点的空气质量差异很大,而且其成因也十分复杂—交通流量及土地使用情况等都会对其产生影响。目前人们只能借助监测站才能准确判断某个地点的空气质量,然而监测站却并非随处可见。为了应对这一挑战,微软根据现有监测站所提供的空气质量数据以及城市里的其他多种数据来源,运用数据挖掘和机器学习技术,对大数据加以充分利用,并在监测信息和对应结果之间建立一个隐式映射,从而可以实时推断出包含细颗粒物信息的城市空气质量数据。这样,就能根据预测结果做出更明智且更有利于健康的决策,例如何时何地最适合户外运动,或者何时应戴上口罩或关上窗户等。
当前的大数据分析模式分为“离线处理”和“实时处理”两种类型。离线分析可以对业务数据和想要分析的数据样本进行恰当的分离,只针对分离后的数据样本进行建模分析,这种分析模式的优势在于,可以对数据做较复杂的业务处理,但显然无法第一时间把握到市场的发展趋势。实时分析则顾名思义,就是针对正在进行的业务数据进行即时的处理与分析,显然,这种分析模式能够最大限度地随时了解业务状况的变化趋势。事实上,对于希望从大数据中发掘商业机会的企业来说,数据的价值有着明显的时效性,针对业务数据的分析越及时越充分,分析结果就能够更灵敏和更直接地反馈问题。这也是龚培元为什么认为“实时洞察”是大数据未来发展方向的重要原因。
实际上,对于实时洞察,目前包括SAP、IBM等国际IT厂商都十分关注,并且推出了相关的平台和技术。
IBM全球高级副总裁、软件信息与分析部全球总经理Bob Picciano最近还提出了“快数据”的概念。“我们实时收集各处传感器中正在移动的数据,它可能来自于医疗器械、飞机的引擎,或者是开采页岩气或石化产品的钻头。关键是我们能够对其进行实时分析,获取实时洞察,以此助力于实时决策。‘快数据’意味着我们需要进行实时分析,及时了解正在发生的情况,通过相关性分析占据先机或是规避风险。”Bob Picciano说。