本刊记者 闫城榛
记者:您认为大数据指的是什么方面的数据?是不是就是用户的行为数据?还是其他方面的数据?您认为目前哪些才是真正大数据的掌握者?为什么?
倪院士:在大数据出现之前,数据挖掘方法已在很多企业中应用并取得了很好的效果。那时,数据挖掘的对象主要是企业数据库的数据,这些数据往往是在企业运营中形成的,一般用关系数据库存储,是所谓的结构化数据。现在我们所说的大数据,范围要宽得多,主要是社会日常运作和各种服务中实时产生的数字数据,如在线搜索、新闻、博客、微博等社交媒体、移动电话和短信、热线电话、电子商务交易、遥感遥测数据……。这类数据大多是所谓的非结构化数据(文本、语音、图像、视频等等),其中很多是用户的行为数据,而运营商、服务提供商等等在运营中掌握了大量数据,因此他们在大数据方面具有良好的资源条件。
记者:大数据的应用已渗透到各个行业,因此大数据的研究一定要依托于某一特定领域和特定行业。相较于其他行业,大数据应用在商业领域走在了前端,您认为为什么会出现这种现象?真正将大数据应用起来需要满足哪些条件?
倪院士:如上所述,因为数据挖掘在大数据出现之前早已在商业领域得到应用,所以大数据应用在这个领域走在前端是理所当然的。不过,随着大数据的发展,它在非商业领域的应用也发展很快。例如现在政府部门很重视舆情分析,这就是大数据在社会领域中的应用。在这个领域,真正要将大数据应用起来,首先是需要打破部门的界线,达到数据的最大程度的共享;然后是发展大数据分析方法,挖掘出隐藏在大数据中的规律;最后还需要分析者的正确解释和判断,从中获得能反映真实情况的结论。
记者:媒体行业作为文化产业的重要组成部分之一,正经历着转型与升级的阵痛期。身处大数据时代,对拥有大量新闻报道内容数据,同时相对缺乏用户行为数据的传统媒体而言,是福是祸?对此您怎么看?如何能够让传统媒体补上用户行为数据这一短板?
倪院士:现在,传统媒体正受到网络媒体、社交媒体的挑战,有的办不下去了,余下的也面临转型升级的问题。不过传统媒体不会就此消失,它仍然有它的价值。一般说来,前者具有权威性、普适化的优势,后者具有实时性、个性化的优势,两者将会共存下去。如何使两者互相融合,取长补短,这是需要探索的新问题。
记者:“棱镜门”事件的爆发让人们更加意识到大数据所面临着的隐私和数据安全的问题。大数据想要做到创造价值最大化还需解决哪些困难?如何解决?
倪院士:“棱镜门”事件表明数据安全的重要性。由于大量采用进口软硬件,中国缺乏保障网络空间安全的能力,因此今后特别要重视使网络系统、信息系统采用自主可控的国产软硬件。如果说,早些时候,我国大量采用进口装备是不得已的话,那么,今天继续这样做,那就是观念问题。实际上,国产软硬件大多已达到实用水平,正是因为华为、中兴产品的性价比超过了思科,美国政府才不得不以安全为由,帮助思科将华为、中兴赶出美国市场。那为什么思科等美国公司在中国市场上却能压倒中国公司呢?这主要是崇洋迷外的观念以及外国跨国公司的公关所致,中国只有突出信息安全,才能改变这种状况。
除了从技术方面保障数据安全外,还需要着手制订保护隐私权的法规和建立相应的机制,使大数据的应用不致带来不良的副作用。
倪光南院士在中国新闻技术工作者联合会2013年学术年会主题报告
编辑整理 闫城榛
今天我所发表的观点仅供参考。
首先,“大数据”的概念在今年可谓炙手可热。但是,从历史上来看,这种基于数据的应用在过去数据挖掘和商业智能等方面已经有了很多成功的案例。
我在这里举两个大家耳熟能详的例子。
20世纪90年代沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,并非我们主观印象中那样,以为这两种物品毫无关联。这样,他们在尿布货柜附近放置了啤酒,结果销量大幅上升。
无独有偶,美国第二大超市Target为了抓住含金量很高的一个顾客群体——孕妇,通过数据挖掘建立了一个模型,选出了25种典型商品的消费数据构建了“怀孕预测指数”,由此,它能在很小的误差范围内预测到顾客的怀孕情况,从而能早早地把孕妇优惠广告夹杂在其他一大堆与怀孕不相关的商品广告中发出去,有效地招揽了孕妇顾客群。这种优惠广告间接地令一个蒙在鼓里的父亲意外发现他高中生的女儿怀孕了,一时轰动全美。
为什么我们今天重视“大数据”呢?原因是,大数据自出现以来经历了非常大的发展.。虽然商业智能在数据的应用方面已经发挥了一些作用、产生了一些成果,但是现在我们所说的“大数据”与之相比,还是有质的提高。
对此,我将商业智能和大数据从四个方面进行了对比。第一是数据量的大小,我们现在衡量数据已经不以TB作为等级,而至少是PB,而且我认为肯定还会持续提高。据Gartener分析,我们数据的年增长幅度为60%左右,所以我们认为这个标准是与日俱增的。第二,过去我们所说的数据更多的是结构化的数据,而现在主要为非结构化信息,如文本、图形、音频、视频、遥感遥测信息……,而且是实时信息,而不是陈旧的历史数据库中的内容。第三,我们数据的来源已经不是单纯的企业交易用的数据,而主要是社会日常运作和各种服务中实时产生的数字数据,如在线搜索、新闻、博客、微博等社交媒体、移动电话和短信、热线、电子商务交易、遥感遥测数据……。第四,大数据的应用领域已经由自然科学范畴扩展至社会科学范畴,如经济学和社会学应用、政治政策应用等。
如我刚刚所说,大数据指的不是数据库中的历史数据,而是实时数据,通常指的是几小时、几天、几星期这种尺度范围。我要强调的,大数据实时性的时间尺度是和场景有关的,这种实时性容许我们建立一种反馈过程,如果我们制定政策,就能够通过分析大数据随时得到反馈,所以这种实时数据对于我们政策的制定和通过反馈检验政策具有很好的效果。
换句话说,大数据的“实时”性并不意味着真正的实时,而往往是近似的“实时”:在一个相对短、相对新的时间里产生并可资利用;在一个与场景有关的短时期里,即能容许作出响应,并判定效果的一个时间段里(即容许产生一个反馈过程)产生并可资利用。
目前大家对于大数据的研究一般认为它是一种新的科学研究范式(方法)。
科学研究范式(paradigm)的发展过程,最早是实验型科研(Experimental Science),这已有几千年的历史了,后来发展到理论型科研(Theoretical Science),这也有数百年的历史了。近几十年,随着计算机技术的发展,发展到计算型科研(Computational Science)。我们可以运用计算机技术进行仿真、模拟,补充了我们过去实验方法的不足。比如,核武器的试验、航天飞行器的性能试验等等,不需要真的去做实验,而只需要在计算机上面模拟就行了。现在则推进到第四范式——以大数据为基础的数据密集型科研(Dataintensive Science)(见图1)。也就是说,大数据给了我们一种新的科学研究方法,因为模拟法仍然需要理论指导,比如要有航天飞行器的运动方程、天气预报的数学模型等。但是大数据没有任何的理论指导,没有任何的方程或模型,人们希望通过大数据的分析找出新的规律来。当然,这种新的科学研究方法是否能像实验科学、理论科学和计算机仿真科学一样为人类的科学研究发挥作用,仍需实践和时间来证明。
大数据本身有一个生态系统(见图2),从数据的来源来看,可能来自于个人、公共部门和私人部门。数据进来以后需要进行共享作为数据源,最后人们运用各式各样的方法对数据进行挖掘和分析以便对人类的应用进行指导,比如对突发事件更快的跟踪和响应、对危机性质和变化的更好了解、对需要服务地区的准确定位、对供求关系的预测能力等等。
典型的大数据处理流程包括:数据的获取和记录、数据的清洁/抽取/标注、数据的整合/聚类/表达、数据的分析/建模和数据解释等5个阶段。在处理的过程中,异构性、规模、即时性、复杂性和隐私权等问题是大数据想要创造价值所需解决的困难。
图1 (来源:潘柱廷,《攻击大数据》)
图2 (图片来源:http://www3.weforum.org/docs/WEF_TC_MFS_BigDataBigImpact_Briefing_2012.pdf )
图3
图4
我们现在讲大数据往往和云计算联系在一起,譬如前不久召开的云计算大会,50%以上的题目将云计算与大数据结合了起来。如果说大数据是一座蕴含巨大价值的矿藏,云计算则可以被看作是采矿作业的得力工具;而且,云计算也是为了解决大数据等“大”问题而发展起来的技术,没有大数据的需求,云计算的功用也将得不到完全发挥。因此,大数据与云计算是相辅相成的。
对于大数据而言,云计算的意义不仅在于通过相关技术解决各种具体问题,还在于通过云计算构建一种通用、高效和可靠的大数据支撑平台,掌握以数据流为中心的系统集成思想,在大数据应用层面探索更广阔的内涵。
为了更好地利用大数据的价值,我们需要用一种新的思路来考虑支撑整个数据处理过程的体系架构,即把分层的思路从单一系统的架构中延展到整个平台范围,将整个数据处理平台按照分层的思路统一规划设计,依据系统不同组件的物理和逻辑特性在系统范围内分层。
图3是一个基于大数据应用的云计算架构,我们可以看到很多层次。在应用层中有很多大数据方面的应用,它可以从云计算中获取各种服务。
在大数据应用的各种技术中,可视化是一种非常重要的技术。比如,我们想要评估每个国家的因特网产业发展状况,我们用图表很难清楚地表现世界上众多国家和地区,但用可视化技术就能一目了然。
对大数据最重要的是分析数据找出规律。所以,我们需要运用很多分析方法将大数据中的规律提取出来,从中找出关联性,发现异常,尤为重要。
很多时候,从新的数字数据源提供的数据中发现的关联性会正确地反映传统的官方统计,从而能提供更便宜、更快的、近似的预测。
许多新数据源的价值不仅在于它的规模和速度,还在于它所包含信息的丰富性。在许多情况下,大数据不仅是官方统计数据的代替或作为它的近似,而且能对它进行补充,增加深度和细节。
定性的社会媒体信息越多,越有助于描绘出一个关于事件的全貌,便于做出快速响应。这里,大数据的规模、速度和数据本性的组合具有很大的价值。
发现相关性只是手段,重要目的是利用相关性以及其他手段来发现人类社会活动的异常,帮助制订正确的反应策略。
举个例子,“Google登革热趋势”利用搜索数据近乎实时地估计登革热在全球的传播情况。图5中橙色线条代表实际病例数量,蓝色线条代表谷歌中关于登革热病案的搜索,我们可以直观地看到其中的关联性。卫生部门发布报表常常需要花费大量时间将全国医院、诊所的病例搜集起来,这个过程往往需要花费十天半个月。但是,当知道这两者之间的关联性之后,人们就可以通过搜索情况来及时判断、预测,究竟这个传染病是需要加强控制还是可以暂时放松。这样,大数据可以用于指导人们对于传染病的防御。如图4所示。
上述事例告诉我们。大数据对于社会政策的制定具有不可小觑的作用。
美国总统奥巴马清楚知道他所身处的已经不是那个“电视机总统”的时代。奥巴马竞选活动经理Jim Messina曾说过:“我们要用数据去衡量这场竞选活动中的每一件事情。”譬如选民的倾向,奥巴马要知道他的演讲要对谁讲、讲什么问题。
他的芝加哥竞选总部还任命Rayid Ghani为“首席科学家”,此人是埃森哲技术实验室的分析性研究带头人,新的大数据库能让竞选团队筹集到比他们曾预料到的更多的资金。
美国总统的选举过程表明,华盛顿那些基于直觉与经验决策的竞选人士的优势在急剧下降,取而代之的是数量分析专家与电脑程序员的工作,一位官员说:“在政治领域,大数据的时代已经到来。”
和其他国家一样,中国对大数据也予以高度关注。以南京为例,我们简单介绍一下我国基于大数据的智慧城市应用实例。
智慧南京中心综合运行管理平台(一期)是江苏省邮电规划设计院联合南京市发改委、南京市信息中心探索智慧城市建设的阶段性成果。他们在基于大数据的智慧城市应用方面,例如在智能交通、公共安全、城市管理、应急系统等方面都取得了一些成绩。
出租车辆状态“可视化”智能分析:运用大数据挖掘技术,对全市出租车的实时运行状态进行分析、实时跟踪,可以获得出租车的实时区域上下客热点分布图,为出租车运营服务管理提供支撑。
公交数据智能分析:运用大数据挖掘技术、物联网技术,可以实时获得某路公交车的日平均运营状态热点分布图,得到不同时段、站间车内客流分布,为公交区间、班次优化提供支撑。
通过数据监测人流异常变化:通过大数据数据挖掘推演城市人流变化情况,可监测热点区域人群密度异常变化情况,为城市管理者提供预警信息。
基于智能交通大数据挖掘的全城“电子围栏”:通过智能交通系统建立覆盖全城的柔性“电子围栏”,可动态实时监测车辆运行轨迹,为城管部门管理渣土车、危化品车辆、交通部门管理违章、限行车辆,公安案件侦破等提供有力支撑。
智能交通大数据挖掘典型应用——套牌车分析:套牌车是城市安全的一大隐患,借助交通大数据挖掘分析,可以方便实时监测城市道路套牌车。
实时路况分析:通过实时交通大数据挖掘,可精确反应实时交通路况,为百姓出行提供指导,有效疏导交通拥堵,大大减小社会出行成本。
城市道路总体服务水平分析:通过大数据挖掘技术,可以分析各类因素(如道路占挖、恶劣天气等)对交通的影响,为城市管理提供有力支撑。
应急协同系统(如图5):一旦发生污染类事故,应急协同系统可以结合气象数据、人口数据、住房数据及城市其他资源数据,对可能影响区域的大小、人员数量进行推测,为应急事件处置提供决策支撑。
2012年10月17日15时许,南京市应天大街赛虹桥高架上发生一起枪击案,一辆奥迪车在行驶过程中被一辆轿车逼停,车上下来3名男子持非制式霰弹枪向奥迪车车窗连开3枪,后3人驾车逃离现场。警方通过目击者提供的嫌疑车辆模糊特征,运用智慧南京中心的案件协作侦破功能,根据案发时段及案发地区的数百条过车流水信息迅速锁定车牌号为苏ATD130的车辆为嫌疑车辆。通过套牌车智能分析功能,警方将套牌别克车从海量信息中筛选出来,从而明确别克车为嫌疑人使用的车辆。在明确了嫌疑车辆后,案件协作侦破功能绘制出了案发前该嫌疑车辆的行驶轨迹,连同相关视频信息一并提交给警方。最终协助警方仅用10小时侦破该案。
图5 (由江苏省邮电规划设计院提供)
大数据在社会科学领域具有重大的作用,比如说城市管理。非常重要的一点是可以利用大数据对各种事件、趋势进行提前预测,比如说灾情的情况、抢险的效果、还有对政策的反馈等等。
早期预警:早期检测居民使用数字设备和服务中的异常可以在时间上快速响应危机;
实时感知:大数据可以描绘一幅关于现实情况的很细粒度的且及时的表述,它有助于制定行动计划和政策;
实时反馈:大数据具有实时监测居民的能力,使其可用来了解在哪里政策和行动计划发生问题并可作出必要的调整。
应当指出:实时的大数据信息不能代替政府决策时传统应用的定量的统计证据,但如正确理解的话,它可以表明哪里需要做进一步的调查,或者哪里需要作出立即的响应,而这是其他手段无法做到的。
应用大数据面临若干挑战;一方面关系到数据本身,包括它的获取、共享和消除对隐私的顾虑。另一方面关系到对它的分析结果的解读。
隐私是最敏感的问题,涉及观念上、法律上以及技术上的问题。按照ITU的定义:隐私权是个人控制或影响关于他们自身的信息是否披露的权利。我们必须警惕新技术的兴起可能会对它造成损害并应设置必要的防护。当前,很多运营商和服务商积累了海量的用户数据,你的账号、你的地址、你的购物习惯甚至你在浏览某条新闻所花费的时间等等,悉数掌握在他们手中。这些数据如何被正确、安全的使用,是需要我们持续关注、探讨的一项重要话题。
大数据应用对新的数据源进行分析方面提出的挑战有:如何使数据得到合适的描述即对数据进行摘要;如何通过演绎,解释数据或使数据变得有意义;如何定义和检测数据的异常,等等。
在此我们还需要注意数据分析解读不当可能造成误导,有时表面的相关不一定表明存在真正的因果关系。
Google Correlate是谷歌发布的一项数据挖掘工具,它允许用户上传自己的数据系列到服务器并整理出各种类型的图像,再配合互联网搜索结果整合出趋势。有人利用Google Correlate发现,人的增重和出租公寓具有相关关系(见图6)。可是很明显,这种相关性更多的是一种巧合。这种时候需要利用人的经验、智慧对大数据的分析结果进行判断,在这里,有经验的分析家是十分重要的。见图6所示。
图6
当今世界进入大数据时代是一客观趋势,数据成为宝贵的资产,能否充分利用大数据关系到一个系统的智慧,一个企业的前途,一个机构的效率,一项决策的成败。
市场研究公司IDC预测的2013年九大科技发展趋势,其中第七个趋势就是“大数据将发展壮大”。IDC认为,“就如2012年移动设备和云计算成为了每家公司的必需品那样,大数据将在2013年被每一个人所使用。”IDC表示,大数据市场的年增长率将达到40%,2012年该市场的规模约为50亿美元,到2013年规模为100亿美元,到2017年规模将达到530亿美元。
另一家著名的咨询公司麦肯锡的全球研究所也认为,大数据是下一个创新、竞争和生产力提高的前沿。
可以预见,会有越来越多的人关注大数据、运用大数据,希望我今天的发言可以对在座的媒体朋友给出一些参考,谢谢大家!■