本刊记者 | 张鹏
在刚刚过去的2013年,以电商和互联网企业为代表的IT先驱们不断试水大数据业务,电信、金融以及保险等传统行业也对大数据的发展前景予以充分肯定并积极布局;另一方面,那些从事数据库、信息管理、数据分析与挖掘的IT服务提供商们不断从旁摇旗呐喊,致使大数据保持了高频率的媒体曝光度;甚至在资本市场中,那些具备大数据潜能的IT企业也被评为“绩优股”,相关的技术收购和企业兼并也在紧锣密鼓地进行中。
不难看出,继云计算在ICT领域大行其道之后,“大数据”接棒成为下一个炙手可热的关键词。许多未能在云计算“炒作期”内声名鹊起的企业都试图加入大数据行列,希望借此掀开下一轮的行业风潮,但问题是,大数据真的来了吗?
答案似乎是令人失望的,无论从大数据的用户需求、开放数据源、技术手段、商业模式还是法律法规方面来看,距离真正的商用都有很长一段路要走。而这段必经的过渡期并不会因大数据所蕴藏的巨大能量而缩短,相反的,大数据的“落地之旅”还要等到业界对大数据的“热炒”褪去,才会真正开始。
这一点在Gartner给出的大数据炒作周期模型(Hype Cycle for Big Data)中得到了充分印证。Gartner认为,所有的新兴技术概念都要经历“概念孕育期—泡沫炒作期—泡沫幻灭期—应用发展期—成熟生产期”,大数据也不例外。而目前,大数据正处于“泡沫炒作期”且该趋势还会继续攀升,相比之下,云计算已经度过了炒作期的最高峰,进入到“泡沫幻灭期”的下坡阶段。
Gartner研究总监曾劭清告诉《通信世界》记者:“大数据只有进入‘泡沫幻灭期’后,才会真正面对来自市场、用户、技术以及应用等方面的现实挑战。而目前,那些‘大数据’的积极参与者们必须要面对技术未成熟、数据难统一、应用粗放式以及法律未健全等一系列的待解难题。”
对于大数据的理解,业界往往存在两种误区,其一认为大数据即当下与日俱增的网络流量,基于互联网/移动互联网业务和数量的不断攀升,每时每刻都在产生PB级的内容信息和网络信令,但其实,这仅是“大数据”的一部分。
那些人与物、物与物的网络互联和信息交替为“大数据”奠定了数据基础,业界对于大数据的不断重视更多的是源于物联网的发展。基于传感网、物联网、社交网络、视频语音智能搜索系统产生了大量的商业模式和运营体系,相应的移动设备、追踪器、射频传感等器件产品也开始大量涌现,由此可能引发出的信息量将不可估计。
另一类误解是,大数据的技术核心在于数据库和分析挖掘工具,其实不然。所谓大数据,是涵盖了处理时效(Velocity)、数据格式(Variety)与数据量(Volume)三大类内容,因此所需的技术也非单一,而是多种前沿技术的综合体。除了处理常规的结构化数据,企业还需要对那些大量的非结构化数据进行捕捉、收集、清洗、挖掘和分享等。
为此,Gartner罗列了近50种相关技术,如基于Hadoop的SQL接口编程、面向电子商务的大数据分析能力等等,这些技术距离成熟可能还需要2到5年甚至10年的时间,而他们的成熟与否将直接决定大数据何时才能走出过渡阶段。
“庆幸的是,我们已看到一些关键技术的成熟和部署速度在不断加快,比如文本分析(Text Analytics)、内存中分析(In-Memory Analytics)、智能电子装置(Intelligent Electronic Devices)、社交媒体监测(Social Media Monitors)、语音识别技术(Speech Recognition)等。这些技术的成熟将有效支撑大数据从前端采集到后端分析的完整技术链条。”曾劭清总监这样表示。
技术是大数据的实现手段,而数据源则是根本基础。按照中国工程院院士邬贺铨的话说,大数据强调的不是数据而是挖掘,我国需要尽快制定“信息保护法”和“信息公开法”,既要鼓励面向群体而且服务社会的数据挖掘,又要防止针对个体侵犯隐私的行为,提倡数据共享又要防止数据被滥用。
事实也是如此,数据的公开化与合法化对于大数据产业生态起着至关重要的作用。在美国,由于政府、公共、民生等行业早已将数据开放化,不仅数据免费而且软件代码也开放源代码,这使得大数据的应用创新层出不穷。
FlyOnTime.us就是一家“让数据说话”的企业。该网站将历史航班延误时间的数据、美国联邦公司航空管理局的机场信息以及美国国家海洋和大气管理局的以往气象报告和国家气象服务的实时状态联合起来,由此可以很准确地判断出恶劣环境下某一特定机场的航班延迟情况,用户实现了航班的实时查询、延迟判断以及在平台上进行交互和反馈。
但在中国,数据公开化和合法化还存在着太多挑战。在合规性方面,我国至今尚没有形成国家层面的有关数据共享的法律,只有相关的条文、法规以及章程和意见作为支撑。各部门、各行业的数据相互独立。
类似淘宝、京东这类电商企业的BI营销和内容推送等多是基于互联网用户过往的交易信息和浏览记录,而这种粗放式的数据分析与挖掘方式虽然可以针对个体进行营销,但由于无法了解更深入的用户信息(比如用户的个人信息、收入水平、位置信息、喜爱偏好等),对于促进再次消费的能力还很有限。
而一个完整的用户信息图谱起码需要三方力量的配合,首先是银行提供的个人信息、薪资水平、消费能力等,其次是运营商提供的家庭成员信息、位置信息以及定位服务,最后是电商平台的消费记录、搜索浏览记录等。但现阶段,银行、电信运营商以及电商还无法实现用户数据的共享。
中国需要制定大数据发展战略,尽管标准和产业格局尚未形成,但这是我国实现跨越发展的机会所在。切忌一哄而起,在目的不明的情况下就大兴数据中心,到处搞‘数据房地产’。
中国工程院院士 邬贺铨
不过在互联网领域,包括淘宝、阿里巴巴、京东、亚马逊等知名电商已经在数据应用方面做出了不小的成果。淘宝架构师毛波对此表示,每年的“双十一”都是一次挑战,面对每分钟数亿次的交易量,淘宝需要提前进行数据分析并做好各种应对高并发性的预案。“在这方面,虽然Hadoop的实时分析并不占优势,但可用做之前的预测准备,对往年情况如用户消费习惯、搜索习惯、浏览习惯等数据进行分析,作为当天数据分析的基础。”
IT服务商们也打响了有关“大数据”的暗战。IBM、SAP、Oracle以及Teradata等传统的从事数据库、数据仓库以及分析工具的IT服务商们不断强化自身在大数据领域的技术能力,对于一些创新技术的企业收购也在进行当中。而类似浪潮、HP、DELL等IT硬件厂商也在迎合大数据的市场需求,推出面向数据分析的硬件方案以及相关分析平台。据了解,联想希望借助大数据完成自身“由硬及软”的完美蜕变,其自主研发的大数据分析平台正在公司内部试用,2014年有望面世。
在金融、电力、航空等行业领域内,传统的信息和数据的获取渠道正在扩大,基于用户的社交信息、电子商务以及移动终端上所产生的非结构化数据也被收集过来,由此构建更为完整的用户全景视图。比如,花旗银行在向用户推荐金融产品时会基于“全景”数据进行分析,当储户为孩子开办了信用卡,银行则推荐给用户“成长学习”类的理财基金,而当某储户有了装修计划后,该银行也会立即推荐适合的分期式贷款业务。
在电信领域,三家运营商很早就开始了数据分析实践,不过很大程度上这种分析都是为了内部优化。比如通过收集网管系统中各地区的信号强弱质量和用户掉话率,可以分析出各个细分地区的无线网络信号的覆盖情况,进而对移动网络的性能和指标进行微调,优化网络覆盖能力。与此同时,运营商鼓励内部创新,一些省公司基于自身数据平台建立BI系统、客户挽留系统等,对于保持用户满意度和增强用户粘性起到了一定的促进作用。
而在海外运营商看来,大数据也可以赚钱。在2012年,西班牙电信Telefonica创立了独立业务单元Telefonica Dynamic Insights,以合法化的方式在英国向政府机关、零售商等出售收集到经过整理的匿名统计性的用户信息。比如英国伦敦郊区新开了一家大型购物中心,西班牙电信通过移动网络收集到活跃在购物中心附近的用户群体,通过分析他们的个人信息(如性别、年龄、居住地址以及家庭成员等)得出该购物中心的主流消费群的年龄、收入、家庭结构以及喜爱偏好等信息,用以更好地促进卖家进行针对性营销。然而,Telefonica短期内并不会将该业务在德国开展,因为德国有一些全球最严格的数据保护法案。
当然,这些被出售的信息都是统计性的,并非针对个体成员,西班牙电信早在用户进行业务办理时,就通过或优惠或赠送的方式获得了用户公开自身数据的许可。