张 诚,何先刚
(重庆邮电大学 期刊社,重庆市 400065)
“大数据”理念与媒体转型发展*
张诚,何先刚
(重庆邮电大学 期刊社,重庆市 400065)
摘要:“大数据”是时下的热门话题。本文概要介绍了“大数据”的概念、特性及产生的背景;通过典型案例论述了“大数据”的创新理念和带给传媒业的启示;分析了“大数据”发展态势,并提出传媒转型发展中应注意的问题。
关键词:大数据;理念创新;媒体;转型
一、“大数据”的定义及作用
我们知道,互联网技术的出现改变了企业经营、政府运作以及人们生活的方式。现在又一种新的、具有同样巨大变革能力的技术产生了,那就是“大数据”。大数据(big data),或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到撷取、管理、处理并整理成为人类所能解读的数据。
“大数据”首先是指数据体量(volumes)大,其数据集一般在10 TB(1 TB=1 024 GB)规模左右,在实际应用中,许多媒体和企业的数据库结合在一起,已可以形成PB(1 PB=1 024 TB)级的数据量;其次是指数据类别(variety)多,数据来自多种数据源,数据种类和格式丰富,冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据;第三是数据处理速度(Velocity)快,在数据量非常庞大的情况下,也能够做到数据的实时处理,通常在秒级时间范围内给出分析结果,这个速度要求是大数据处理技术和传统的数据挖掘技术最大的区别。最后一个特点是价值(Value)大。指大数据非凡的洞察力和价值,能够将数据提炼为知识,将知识转化为决策。
“大数据”术语最早源于apache org的开源项目Nutch,那时表征的是批量处理或分析所需要的大量数据集。谷歌GoogleFile System(GFS)和MapReduce的发布后,大数据不再仅用来描述大量的数据,还引入了数据的获取、管理和处理技术,形成了今天的被人们广泛接受的概念。 关于“大数据时代已经到来”的提法是由麦肯锡公司最早提出,他们在相关研究报告中指出:“数据已经渗透到每一个行业和业务领域,逐渐成为重要的生产因素,人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”。该报告发布后,大数据成为了传媒业的热门话题,世界各国政府给予了极大关注。[1]
大数据具有非凡的意义和价值。(1)它的意义不仅仅是人与人、人与物之间的通信联络和数据交换的信息载体,还可以通过计算机处理和分析,获得从少量数据中无法获取的东西,得出客观准确的结论,帮助政府、企业和个人做出正确决策。(2)大数据的作用不光是指通过算法对数据进行分析,揭示历史规律和未来发展趋势,通过它,人们能更方便地让机器像人一样通过自我学习,不断提高发现问题和解决问题的能力,这也标志着人类社会智能时代到来。(3)大数据的价值除了指“淘宝网”通过对用户上网行为轨迹的跟踪,获取用户的兴趣爱好而展开精准商品推荐,它更多的是向人们提供各种各样的优质服务,使人们的生活质量得到极大的提高。这些服务大到谷歌利用搜索数据预测禽流感的发展趋势,配合医疗部门取得了一场流行病阻击战的胜利;小到城市规划局利用百年来积累的城市下水系统资料预测问题井盖,替纳税人省下了一大笔支出。(4)大数据的战略意义还可以从奥巴马政府对大数据的作为和认识中凸显。2012年3月22日,奥巴马决定向“大数据”行业注资2亿美元促进其发展,在随后的会议上,将“大数据”定义为“未来的新石油”,认为:“一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来对数据的占有和控制甚至将成为继陆权、海权、空权之外另一个国家核心资产”。[2]
二、“大数据”理念创新
利用大数据实现人们所需的价值,要求人们改变对数据的传统思维习惯。首先,要淡化对因果关系的热衷,转向对相关关系的关注;其次,减少对样本数据的应用,尽量采用海量或全部数据;第三,接受数据的混杂性,放弃追求数据的精确性。
(一)更好——不是因果关系,而是相关关系
因果关系是人们认识世界与解释事物发展变化的一种方式,它告诉我们:只有找出某一事物或现象的原因,才能认识其本质规律并提出解决问题的方法。许多仁人志士习惯于跋涉在这条拥挤的“因果”路上,然而抵达目的并非只此独路一条,通过事物间存在的相关性,人们踏进真理殿堂的路甚至更为便捷、宽广。
一个事物总存在一个(多个)与自己有关联的事物,当关联事物发生变化时,自己也会发生变化,这种事物间的关联称为相关关系。人与人之间有同事关系、朋友关系;单位之间有上下级关系,合作关系等。如果您想会见不认识的张三,找到您相识的李四(张三的同事)便可达其目的,这便借助了同事关系。这种相关有正相关、负相关和奇异相关,在数学上以函数y=f(x)(或y=f(x,y,z))表示,当自变量x变化时,因变量也会发生变化。大数据思维提倡者认为, 应对大数据, 没必要运用因果律, 只要从杂乱无章的数据丛林中寻找出数据的相关性即可。
一个典型的例子是亚马逊网络书店。亚马逊为了扩大书籍销量,根据 “宣传做得好,书就卖得好”的因果律,聘请了20多名书评家组成一个团队,他们写书评、介绍新书、挑选特色书在网站主页宣传。他们的宣传、推广使得书籍销量大幅提升,成为亚马逊销售的一大亮点和核心竞争力。不久,亚马逊进行了另一个实验,使用大数据分析法,从网站多年收集的海量用户数据中发现了诸如某个客户购买了什么书籍,关注了什么书,哪些是关注而又没购买的书等数据,然后让计算机提出个性化的新书推荐方案。结果发现,通过计算机系统推荐的书的销量,比起专家团队推荐的要高出100倍,于是,他们解散了专家团队。亚马逊的这套计算机推荐系统只是梳理出了一些有趣的相关关系,也即“是什么”(客户购买了什么书,关注了什么书),而不是去追求“为什么”(为何购买,为何关注)。正是“关注”与“购买”间的相关关系帮助亚马逊获得了成功。
现实生活中,人们常常热衷于用因果律思考问题,认为因果联系浅显明了、容易寻找。其实不然,即使用数学这种直接的方法,也很难轻易证明“因”与“果”之间的必然联系,而相关关系的实验证明不仅耗资少,费时也少。借助相关关系,我们不仅可获得分析问题和解决问题的新视角,而且这些视角都很清晰明了,更容易寻找到问题的解决方法。在大数据环境下,知道“是什么”就足够了,没有必要知道“为什么”。
(二)更佳——不是随机样本,而是全体数据
抽样分析在数据分析的历史长河中已统治了许多朝代,这是因为收集、储存和分析数据的技术不够好,无法对大量数据进行整体分析处理,只能从大量数据中随机采样,进行样本分析。为了让分析变得简单,并适应已有工具的能力,人们常常会把数据量缩减到最少。事实上,在许多情况下,这种以部分代表整体的做法并不科学。
一名期刊研究人员,在全国近万家期刊社中,通过电话采访了三十多家刊社,得到样本期刊已签署版权协议的百分率,据此说明全国期刊签署协议的状况。这种数据抽样分析方式生成的结果,给人的感觉就像把一张数码照片或者一首数码歌曲抽取一些点或片段构成一个小的部分来展现播放——你能欣赏这样一首抽样的歌吗?弱水三千, 若只研究一瓢水的内容, 显然不能把握全部。
大数据时代是摒弃随机抽样,而采用海量或全部数据做分析的时代。在这个时代,高性能数据技术的发展和普及,使我们能够对整体数据进行分析处理,所得到的结果更精确,更符合客观现实。
华尔街“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一,就是利用电脑程序收集和分析全球3.4亿个微博账户的留言,实时判断民众对股市的情感倾向。方法是将留言表现出的看涨(跌)的情感程度划分成几级:如自信、期待、焦虑和绝望等,并赋予相应的分数。根据计算机打分结果,霍廷再决定如何处理手中的股票。霍廷的判断法很简单:当打分结果高时,即绝大多数人看涨,那就买入;当分数低时,即大家的焦虑情绪上升,普遍看跌时,那就抛售。这一招收效显著——当年第一季度,霍廷的公司获得了可观的收益率。[3]保罗·霍廷之所以成功,最为核心的因素,不是因为他的数学建模合理,也不是因为他的数据处理技术先进,而是因为他所分析的数据特别大——全球3.4亿个微博账户的留言。没有这个大数据,保罗·霍廷即使有更好的数学模型,更先进的计算技术,仍摆脱不了和其他散民一样,靠运气吃饭。这个例子告诉我们:随着“大数据”的进一步发展,在不久的将来,那种“只赚不赔”的股市神话将演绎为真实的商业故事。
面对大数据,人类社会曾沿袭多年的数据理念和行为方式将遭受巨大的冲击,人们推崇的抽样分析或将告别喧嚣的昨天,步入孤独冷落的明天。而未来,“大数据”将以气势恢宏的能量扮演着摧古拉朽、推进发展的重要角色。
(三)更优——不是精确性,而是混杂性
模拟时代及其以前,一方面,由于数据收集的有限性,细微的数据错误会被放大,进而影响全局;另一方面,由于计算技术的时代性,在数据分析之前,通常需要先将数据进行清洗和标准化,做成有结构的数据,以适应机器的处理需要。所以在数据统计分析中,数据必须精确。但是,只有5%的数据是结构化且能适用于传统数据库的,如果人们的观念和习惯不转变,那么95%的非结构和半结构化的数据,包括办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等都不能被利用。随着网络技术的发展,在不断涌现的新情况里,人们逐渐发现允许不精确的出现已经不是一个缺点而是一个新的优点,甚至是一个价值亮点。少许的混乱或错误不会冲淡主题,就像一本小说,出现少量的错漏并不影响人们的阅读和理解一样,体量庞大的数据也不会因少量的混乱而失去价值。反而,因放松了容错的标准,人们掌握的数据也就更庞大。如此一来,就不是大量数据优于少量数据那么简单了,而是大量数据创造了更多更好的结果。
美国劳工统计局每月都要公布消费物价指数(CPI),这是用来测试通货膨胀率的。要获得CPI指数,政府每年要花费两亿五千万美元去雇用很多人向全美90个城市的商店、办公室打电话,发传真甚至登门拜访。反馈回来的各类商品价格数据达80 000种,包括瓜果的价格、行车的票价等。这些人工收集的数据是精确的也是有序的,但是整理、计算出CPI并公布会有几周的滞后。2008年的金融危机表明,这个滞后是致命的。麻省理工学院的两位经济学家对此提出了一个大数据方案,即接受更混乱的数据。他们通过一个软件在互联网上收集数据,每天可以收集到50万种商品的价格。这些数据很混乱,也有不少的数据是错误的,但是把大数据和好的分析法相结合,这个项目在2008年9月雷曼兄弟破产之后马上就发现了通货紧缩趋势,然而那些依赖官方数据的人直到11月份才知道这个情况。
执迷于精确性是数据缺乏时代和模拟时代的产物。大数据时代,需要我们抛弃对有条理和纯净数据的偏爱,转而接受杂乱无章。只有接受不精确性,您才能跨进一个从未涉足的更大更精彩的世界,否则您将永远被拒之门外。
三、“大数据”带给传媒的启示
目前,传统媒体正处于重要的数字化转型期,如何转,大家都还处于迷茫之中。大数据是传媒业数字化转型的一个加强版,它作为一种世界观和一种战略理念,为踌躇中的传媒带来启迪并指明方向,实现媒体从传统的运营方式转型为高效的数字化出版。
(一)转变思维,确立数据为“王”
传媒转型发展中,有过技术为王、渠道为王、内容为王之争。“大数据”时代,由于数据在价值属性上有了根本性改变,数据已成为政治、经济及个人生活中的关键资源和重要资本。在中国,传媒正处于转型时期,数据的收集分析对于媒体的发展极为重要,不但可以帮助媒体了解自己的经营状况、又可以掌握市场发展趋势,更能帮助媒体制定转型策略。因此,在大数据时代,媒体要有强烈的数据意识,要善于挖掘数据、分析数据和使用数据,养成数据为王的观念。只有抓住了数据,才能在下一波的社会竞争中脱颖而出。
(二)拓展视野,做类型丰富的大媒体
数据的规模和类型决定着数据价值的大小。数据规模越大,事物的整体特征越明确,产生的价值也就越大;数据类型越丰富,相关关系就越清晰,事物的本质就更容易揭示。“大数据”时代特别要求数据的全面和类型尽可能丰富。数据的丰富既要在广度又要在深度上体现,媒体要有自己的采编队伍、原创新闻和原创评论;还要建立一个自己的网站——一个互动的、社交化的、拥有广泛人气,能够收集、整理和处理用户数据的数字化平台;而且要依靠训练有素的编辑记者写出廓清谣言、求真求证的深度文章。媒体要杜绝“小农意识”,不能养成在一小块地上自耕自作,无协作、无交换、无发展的思维习惯,而要站在数据产业的高度分析现状,思考未来,使自身成长为数据规模庞大、类型丰富的“大媒体”。[4]
(三)建设数据库,实施平台化战略
当今是一个媒介融合的大时代,在数字化技术的推波助澜下,媒介的融合不断深化拓展,呈现出数据生产、数据传播、数据应用等相关产业“你中有我,我中有你”的大融合格局。在此格局下,一种更具包容性,能提供多种数据类型的“平台模式”已成为最具竞争力的发展模式。因此,在“大数据”趋势下,转型中的传媒企业要加快数据库建设,在平台化战略中抢占高地,促进生产方式、产品属性的华丽转身。书报刊媒体作为信息业的前沿,拥有先天数据优势,通过数字化和平台化战略,纸媒的劣势可转化为优势,优势又会带来大价值。除了利用已有的历史数据外,更要建立自己的数据收集、挖掘、处理、展示和应用平台,只有这样,传统媒体才能在“大数据时代”焕发新生,获得大发展。
(四)用好数据,提升媒体影响力
大数据时代,既要用事实说话,也要用数据说话。 数据爆炸时代,用户需要更准确分析、更深层解读和更明晰呈现的数据新闻。媒体可以通过自己的数据挖掘平台,从海量数据中发现新闻线索,以直观和可视化的数据图表方式呈现给广大用户,满足他们对知识的渴求,进而提升媒体影响力。例如,英国《卫报》对于2011年8月伦敦骚乱所策划制作的“解读骚乱”专题,收集了Twitter上发布的250多万条与骚乱有关的数据,从中分析和挖掘出骚乱真相。他们的做法是:把七个广为传播的谣言用七张照片排放在一张表上,点击一张照片即可进入该谣言的动态传播过程图。《卫报》网站正是以大规模的数据分析,加上简洁、直观和明了的图表及视屏,跳出人云亦云的困境,提供了更深度、更专业的新闻报道,也使自己获得了极大的社会影响力。
(五)服务用户,开展精准传播
大数据时代,新闻传播将更有针对性、更精准,传播将更有效果。传统媒体上网之后,积累了大量的用户数据,可通过网民点击、搜索、查阅的行为轨迹掌握网民兴趣偏好,实施精准传播。这种受众数据化,已经广泛应用于个性化新闻订制和一对一的广告投放。 例如,Facebook 的大数据产品——“时间线”(Timeline), 它是供用户自我记录生活故事的应用。Facebook 通过这些历史数据,能够掌握用户的喜好,进而有针对性地投放广告,获得了丰厚的收益。
(六)培养人才,掌握大数据技术
大数据时代需要传媒人具备发现规律、洞察本质、数学建模和数据分析的能力,但是,传媒业的专业工程师虽然擅长数据处理分析技术,对国情、社会、政治、经济的了解却并非强项;而编辑记者同人与社会打交道,对事物有独特的观察力,却对大数据技术了解不多,基本的算法及数据分析方法更是知之甚少。因此,传媒业要发展,需要避己之弱,补足自身发展的短板。媒体需着力培养大数据时代的媒体专家,让编辑记者了解大数据,懂得用大数据技术分析解剖社会问题,同时也要让专业工程师熟悉社会、了解社会,增强政治辨识能力。拥有这样一批“全才”,传媒业才有更大的发展潜力。[5]
四、几点思考
(一)大数据是一个过程
在初级阶段,大数据应用与传统数据应用并存,不存在谁取代谁 ,而且,作为一个新生事物,大数据还需要经过一段较长的时间才能壮大起来,在目前情况下不宜盲目地、一窝蜂地上大数据项目。
(二)大数据是一种思维方式
即使今天没有大数据,人们还是可以比较客观、全面地测量世界。对于转型的媒体而言,要有“从现在做起”的世界观和未雨绸缪、决战未来的战略。微信在设计之初就着力数据收集,并纳入基础框架,这是意识和实力的体现,也是成功的必然。
(三)价值不是大数据专享的属性,小数据照样有价值
从数据中发现价值由来已久,但有一点毋庸置疑,那就是传统的数据分析法适应不了大数据的发展。大数据的功劳在于唤醒大家的意识和觉悟,使之融入新时代,迎接“大数据”。
(四)数据安全是一个挑战
网络高科技公司通过分析用户行为数据,可以精准判断用户的喜好乃至性格,不知不觉间我们也暴露了大量个人隐私。大数据时代“既令人激动又让人恐惧。拥有海量数据的公司们甚至要比你还要了解你自己,它们能预测你接下来可能做什么”,曾经的谷歌全球副总裁、大中华区总裁李开复如是说。“没人在窃听你的电话”这是总统奥巴马向美国公民的保证,但是只要有拨打电话的记录,什么私密对话都有了。要便利还是要隐私?这真的是一个问题。
总之,对于转型的媒体企业而言,既不能夸大,也不能缩小大数据的作用,要理性地分析自己,规划自己,决策自己,才能在未来的大数据浪潮中立于不败之地。
[参考文献]
[1] 钟瑛,张恒山.大数据的缘起、冲击及其应对[J].现代传播,2013(7):104-109.
[2] 汤景泰.大数据时代的传媒转型:观念与策略[J].新闻与写作,2013,9(5).
[3] 余建斌.侃大数据:人人都有洞察力[N].人民日报,2013-07-05.
[4] 甘沙.大数据不是“灵丹妙药”[N].科技日报,2013-11-13.
[5] 官建文,刘扬,刘振兴.大数据时代对于传媒业意味着什么[J].新闻战线,2013(2) :18-22.
(责任编校:朱德东)
Big Data Idea and Media Transition Development
ZHANG Cheng, HE Xian-gang
(EditorialOffice,ChongqingUniversityofPostsandTelecommunications,Chongqing400065,China)
Abstract:Big Data is a hot topic at present. This paper introduces the concept, character and producing background of Big Data, discusses the innovative idea of Big Data and its enlightenment on media, analyzes its development tendency and proposes the issues in media transition development.
Key words:Big Data; idea innovation; media; transition
中图分类号:G21
文献标志码:A
文章编号:1672- 0598(2016)01- 0104- 05
[作者简介]张诚(1958—),男,重庆人;重庆邮电大学期刊社编审,主要从事数字出版、新媒体研究。何先刚(1969—),男,四川大竹人;重庆邮电大学期刊社编审,主要从事系统评价、新媒体、信息管理、数学等研究。
[基金项目]教育部科技发展中心(2013120)“基于网络出版的电子期刊评价指标体系及评价机制研究”
[收稿日期]*2015-10-21
doi:12.3969/j.issn.1672- 0598.2016.01.017