陈尼佳
摘要:分析了大数据时代对出版业的挑战:第一,出版业需将“数字化”进行到底;第二,出版业需明白谁掌握了数据;第三,大数据挑战出版机构对数据的采集、挖掘、分析与整合能力;第四,大数据将考验出版业数据分析、数据管理体系。进而分析了大数据时代的数字出版发展趋势:第一,和互联网、大数据产业的融合;第二,数字出版产业链整合;第三,出版商将逐渐向信息和知識服务商转变;第四,数字出版向“数据”出版转变。
关键词:大数据;出版业;数字出版;发展趋势
中图分类号:F2文献标识码:A文章编号:16723198(2015)17001202
1大数据概述
1.1大数据的定义
维基百科上对大数据的解释是被广泛提及的一种解释:“大数据是无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。”根据人们的通常的认知,信息是数据的载体,所以在大数据的实际运用当中,人们的最终目的就是利用大数据进行更完美的决策。因此,大数据可以在政府政策制订、社会舆情监测、商业营销等领域的决策得以广泛运用。
1.2大数据的特征
通常情况下,大数据的特点可以被归纳为4个V。即数量大(Volume Big)、类型多样(Variable Type)、实现快速(Velocity Fast)和价值高但密度低(Value High and Low Density)。
一是数据体量巨大(Volume)。目前,人类生产的所有印刷材料的数据量是200PB(1PB=210TB)、全人类说过的所有的话的数据量大约达到了5EB(1EB=210PB),一台典型的个人计算机硬盘的容量为TB量级,而一些大企业的数据量已经接近EB量级。
二是数据类型繁多(Variety)。这些多样化的数据被分为结构化数据和非结构化数据两种。以文本为主的这类便于储存的数据是结构化数据,其余像网络日志、音频、视频、图片等则被归为结构化数据。这些年,相比于结构化数据而言,非结构化数据越来越多。这样多类型的数据将对数据处理能力提出更加严格和高要求的挑战。
三是价值密度低(Value)。往往数据总量的高低与价值密度的高低是不成正比反而成反比的。以一部1个小时的视频为例,在连续不断的1个小时的监控中,对我们有用的数据可能仅仅有几秒。如何在这个种类繁杂、数量庞大的数据中迅速的提取对于自己有用的信息是一个亟待解决的问题。
四是处理速度快(Velocity)。处理速度快是大数据有区别于传统数据挖掘的最显著的特征之一。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB。在如此庞大的数据量面前,是否能迅速的处理这些海量的数据的效率关乎到企业的生命。
1.3大数据时代的来临
毋庸置疑,我们正处在一个大数据的时代。大数据已经逐渐成为人们现代生活当中不可缺少的社会基础建设的一部分。大数据时代的经济学、政治学、社会学和许多科学门类都会发生巨大甚至是本质上的变化和发展,进而影响人类的价值体系、知识体系和生活方式。
多个领域都在积极的运用大数据来进行决策。在制造行业中,企业通过收集网上的众多数据来进行大数据分析,了解客户的实际需求和掌握市场动向,就可以做出合理有效的决策来对库存量和采购进行科学的管理和决策,有效的减少了因盲目进货而导致的损失。而在商业上,国外的一些超市通过定位系统对顾客的手机和购物推车进行定位获得商场内顾客在各处的停留时间,然后再利用视频监视系统对监控图像进行分析来了解顾客的购物行为,进而优化商场的布局和货物的排列,提高销售利润。大数据也被利用在政府决策上,比如分析本地近几十年的天气数据,将气温、降水量、土壤情况和每年农作物产量做成图表,就可以大概估计出农产品生产趋势,政府就可以根据分析和预测做出行之有效的预防措施、农业政策等。
比如,洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。Google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。麻省理工学院利用手机定位数据和交通数据建立城市规划。梅西百货根据需求和库存的情况,该公司基于SAS的系统对多达7300万种货品进行实时调价。
大数据影响了我们的生活和熟悉的行业,因此出版产业必然也会其他产业一样受到大数据技术发展带来的挑战和发展。
2大数据应用给出版业带来的挑战
2.1出版业需将“数字化”进行到底
目前,出版业还处在传统出版向数字化转型的阶段,也就是说传统出版业数字化转型还尚未完成,又即将迎来“大数据时代”。但数字化仅仅是大数据的一个前提和基础,数字化不等于大数据。要想进行大数据分析,必须先将不同形式的复杂数据处理成为计算机可以计算、处理的数字数据。所以,要迎接出版行业“大数据时代”的来临,就必须加快传统出版业向数字化转型。
2.2出版业必须明白是谁在掌握着数据
在大数据时代,数据成为宝贵的财富,然而如果要利用大数据,出版业应该搞明白的事情是谁拥有着大数据。必须要取得搜索引擎(如百度)、社交网站、网络小说网站、电子书阅读器公司等拥有着与出版行业相关联的数据的公司或组织的授权,合理合法的取得所需数据,然后才可以进行数据分析,获得使用价值。但是因为数据作为一种资产而言其本身的价值是难以具体衡量的,因此在取得这些数据的过程中可能会面临的多重的挑战和困难,这种多方博弈可能会有着更多的不确定性。而某些在出版产业链上已经实现纵向一体化的公司可能会出于自身利益考虑或其他原因,不向出版社提供数据使用权。例如,拥有电子阅读器Kindle的亚马逊就没有把用户数据信息卖给出版社或作者。
2.3大数据挑战出版机构对数据的采集、挖掘、分析与整合能力
出版行業获得的信息和知识可以用于两个方面,一是可以用来传递给公众,二是可以用于出版机构本身的预测、策划等环节。数据仅仅是一种符号,只有经过解释、处理和分析的数据具有意义,成为信息。而知识是人类对客观世界的认知成果,是从信息里提炼、加工出来的。因此想要获得更加完善的信息和知识,大数据时代将考验出版机构对于数据的采集、挖掘、分析和整合的能力。
2.4大数据将考验出版业自身数据分析、数据管理体系
对于微观出版组织而言,大数据时代不仅考验着出版机构是否有能力收集有效数据,优化分析方法,也考验着出版机构是否可以更好的将大数据嵌入到版权购买、产品营销和用户沟通等多方面的出版运作流程中,使之真正成为一种经营资产和管理要素。对于政府管理与公共服务体系建设层面而言,出版业能否将行业内的数据管理工作全面覆盖,能否完善数据监测、管理系统,能否健全数据信息公开制度、使数据信息更加透明、科学、全面、合法也是挑战之一。
3大数据背景下数字出版的发展趋势
3.1数字出版和互联网的融合
数字出版是建立在计算机、通讯、网络、存储、显示等高新技术基础上,融合并超越了传统出版内容而发展起来的新兴出版产业,数字出版的前提是数字化,而大数据的本质是更加广泛、深入的数字化,以及全社会范围内的数据互联互通。大数据时代的“从数字化到数据化”——深度信息化转型任务:从内容数字化到内容数据化、从数字化阅读到阅读数据化、从数字化服务到服务数据化、从管理信息化到管理数据化后将繁杂数据转化为计算机可以分析的数据,从而使得数字出版利用互联网获得大量数据,再通过大数据技术分析这些技术从而获得长远发展得以实现。所以数字出版发展的第一个趋势就是和互联网的融合。
3.2数字出版产业链整合
随着大数据及时的发展原先制约着数字出版产业链整合的一些问题,比如说数字出版产业链中内容提供方具有版权优势、技术提供方具有技术优势、网络服务方具有渠道优势,但是数字出版产业链缺乏整体统一的信息协作平台导致信息不能共享等问题将会逐步解决。大数据技术建立的“信息共享”将使得信息的共享得以实现。大数据技术让数字出版产业有能力去整合优质资源、顺应时间、内容“碎片化”趋势,可以分析读者或消费者的个性化需求,并且做到“定制”这些数字内容产品、服务和信息。使得数字出版走向内容、技术以及终端无缝对接才能准确的适应潮流,从而促进了数字出版产业的产业链整合。
3.3在大数据时代,出版商将逐渐向信息和知识服务商转变
受到大数据的影响,数字出版无论从生产模式还是内容上都会有所改变。在生产模式方面,数字出版将改变以往的以书、文献等为基本单位的生产方式,转而形成以知识、信息为基本单位的单位的细致分析数据化的生产模式。而在内容上,数字出版可以通过对于数据的分析而详细、深入的了解到读者的需求,将已有的知识与信息和读者所需要的知识与信息紧密结合起来。作者可以知道读者需求,与读者直接交流。大数据将推动整个数字出版产业向信息和知识服务商逐渐转变。
3.4数字出版向“数据”出版转变
大数据可以有效帮助出版社解决很多问题,为读者提供更为专业的服务。很多时候,出版者并不是研究人员,所以在面对内容中很多需要专业知识来解答的问题时,往往是难以确定,甚至不知所措。但是如果出版机构具备分析大量用于数据的能力,在数据的收集、整理和分析处理上的能力有所提升,大数据就可以帮助这个在传统出版方式下出版者和作者没办法解决的难题。因为这个方法需要通过大数据将海量资料提供给人们作为研究的素材,为深入的研究提供工具,详细的做法是,出版者利用大数据进行二次研究。比如建立统计数据库,并且研究如何将它做成大数据产品,为特定的问题设定特定的数据指标,以求找到问题的答案。因此在大数据时代,数字出版向“数据”出版转变也是一种趋势。
参考文献
[1]孙玉玲.大数据时代数字出版产业的发展趋势[J].出版发行研究,2010,(4).
[2]维克多·迈尔-舍恩伯格.大数据时代[M].杭州.浙江人民出版社,2010.
[3]李彪,陈璐瑶.大数据时代传统出版业的对策和路径选择研究[J].出版广角,2013,(23).
[4]吴赟.产业重构时代的出版与阅读——大数据背景下出版业应深度思考的五个关键命题[J].出版广角,2013,(23).
[5]王凌.论大数据技术的应用对出版业的影响[J].编辑之友,2013,(4).
[6]王凌.论大数据时代媒体业发展趋势[J].中国出版,2014,(1).