罗健(甘肃省科学技术情报研究所,甘肃兰州730000)
浅析“大数据”背景下的出版变革
罗健
(甘肃省科学技术情报研究所,甘肃兰州730000)
摘要:大数据时代已经来临,大量化、多样性、快速化、大价值这四大特点赋予了“大数据”无与伦比的研究价值。新的数据环境必然对出版工作带来巨大影响,出版企业获取市场信息的途径、营销工作的重心、营销广告的模式都将发生变化,基于“大数据”的出版业也必将加速其科学化的进程。
关键词:大数据;出版变革;知识服务
当今时代,伴随着网络技术的发展,数据已如一股洪流注入了世界经济的各个领域,“大数据”已成为新的时代主题词。“大数据”被喻为“未来的新石油”,它即将或已经在各个领域产生巨大影响。当前,大数据已渗透到社会各个行业和业务领域,逐渐成为重要的生产要素,对整个社会产生巨大影响。2013年新闻出版总署1号文件的主题就是“科技与出版融合”,其中包括出版的信息化建设和数字出版两个方面[1]。大数据时代下的出版行业将紧紧契合1号文件精神,开展基于大数据的出版技术、出版流程、出版理念、出版市场变革,出版行业将呈现崭新模式。
随着物联网、云计算、电子商务等技术的深入发展,互联网上数以亿记的用户时刻在产生着巨量的交互数据,移动终端、无线传感器、RFID等设备无所不在,这些设备每分每秒都在产生数据,金融、交通、通信等行业的数据量很大而且与日俱增,其实,全球的信息量以每年至少59%的速度剧烈激增,据互联网数据中心IDC预测,到2020年世界上的数据存储总量将达到35ZB(相当于35000000PB),是2010年的30倍。而且这些数据不仅包含数字和文字等结构化数据,还包括图片、音频、视频、链接等半结构化数据甚至非结构化数据。根据互联网中心的数据判断,目前非结构化数据占全球数据总量的80%以上[2]。由此可见,人类已经步入大数据时代。
2.1大数据的概念
2011年5月,全球最著名的管理咨询公司麦肯锡(Mckinsey and Company)发布了关于大数据的研究报告《大数据:创新、竞争和生产力的下一个前沿领域》,在报告中提出了大数据的概念,他认为大数据是指无法在一定时间内用传统数据库软件工具对其内容进行抓取、管理和处理的数据集合。
2.2大数据的特点
关于大数据的特点,相关学者提出过很多种说法,比较具有代表性的是2001年Gartner研究副总裁DougLaney最早提出的“3V”模型(即数量大Volume、速度大Velocity和种类多Variety)。之后,好多学者还在3V的基础上增加了第四个特征,但关于第四个“V”的说法也很多,IBM认为大数据应该还具有真实性(即Veracity),而IDC认为应该具有价值性(即Value),相较于传统数据,大数据的价值呈现出稀疏性的特点。如今,业内人士已经将大数据的特点扩展到了11个V,包括可见性、有效性等,但各行业比较认可的说法还是“4V”模型特征[3]。
1.2.1数据量大
截至目前,人类生产的所有印刷材料的数据总量是200PB(1PB=210TB),而历史上全人类说过的话的数据总量约是5EB(1EB=210PB),据IDC预测,到2020年世界上的数据存储总量将达到35ZB(相当于35000000PB),相当于2010年的30倍。当前,典型个人PC硬盘的容量为TB级,而一些大企业的数据量已经接近EB两级。由此可见,大数据时代的数据体积的巨大的。
1.2.2数据种类多
大数据时代的数据除了文本、数字等结构化数据外,更多的是图像、视频、音频、链接、地理位置信息等半结构化甚至于非结构化的数据,如此种类繁多的资源也激发了大学生移动学习的动机,但是面对如此繁多的数据种类和复杂的数据结构,需要的是更强大的数据处理能力[4]。
1.2.3数据处理速度快
数据处理速度快是大数据区别于传统数据挖掘的最显著特征。从种类繁多、体积巨大、结构复杂的海量数据中挖掘出有价值的信息,势必需要极大的数据处理速度。对于通信、银行等企业来说,在海量的数据中,数据处理的效率高低关乎着企业的生命线,为了帮助用户了解正在发生或者预测即将发生的情况,要求按需提供交互式、实时的数据分析。
1.2.4数据价值密度低
数据的价值密度与数据总量成反比,数据的总量越大,其价值密度越低。一部1h的视频,在连续不间断的监控中,有用数据可能仅有1~2s。如此海量的数据,其有价值的信息其实是有限的,目前大数据背景下亟待解决的难题将是如何利用强大的算法快速的完成价值的“提纯”。
大数据时代,数据即是“宝藏”。出版行业产生的海量数据可以创造无法估量的价值。如何利用好这些数据对出版行业有着重要的意义。大数据技术的发展给传统出版模式带来革命性的改变,通过对出版市场预测、分析、策划以及营销等活动的展开,利用大数据技术强化数据采集、分析和整合能力,是出版行业新的盈利增长点和核心竞争力之所在[5]。
3.1大数据促进精准营销
随着Web2.0概念的普及和发展,用户数据已成为一种新兴的网络信息资源创作与组织模式[6]。在网络上,用户行为不断被记录、不断聚集,而传统出版机构不擅研究用户的行为,便显得殊为可惜。
大数据背景下,通过对用户生成内容及其相互关系的深度挖掘和应用,可以探索用户需求,充分了解用户的个体、群体特征,分析其阅读兴趣,也能进一步获得作品内容特征、发布频率和阅读、传播状况等规律,从而制定有针对性的产品组合和营销策略,从本质提高最终购买率,实现精准营销。
3.2大数据驱动出版运营
传统出版行业往往从选题策划开始出版运营,而市场需求是进行图书选题策划的基础和先导。传统模式是通过采取个别访问、参加学术会议、座谈会或小范围开展问卷调查等方式了解分析市场需求,但这种方式成本高、效率低,数据量有限、时效性差、缺乏全面性和典型性,很难真正把握市场需求。
大数据背景下的出版行业,可以借力大数据开展选题策划,驱动出版运营。通过分析与自身出版方向相关的数据,以及其他相关出版机构的出书品种、数量和市场占有率等数据,较为科学准确地把握市场潜在需求和发展趋势,优化选题策略。另外,大数据还可结合云平台,贯通用户数据和运营数据,在出版各个环节中,全流程实施大数据监控,及时开展大数据分析,揭示海量数据中隐藏的宝贵信息,促进出版流程优化,有效引导出版运营。
3.3大数据构建知识服务
随着移动终端的兴起和人们生活节奏的加快,数字内容消费领域存在着日益“碎片化”的趋势,静态图书的知识服务方式受到了严重挑战,阅读内容和消费时间的“碎片化”是一种不可避免的发展趋势。
大数据时代,出版行业将顺应“碎片化”趋势,改变传统以书、文献等为单位的粗放型生产模式,转而形成以知识要素为单位的数据化生产模式。出版行业将内容资源碎片化、数据化,在此基础上将其加工成不可切分的知识元,形成网络化的知识元块,然后基于消费者个性化需求,以动态方式排版、重组、出版知识碎片。这种动态碎片化出版方式将大大节约人们的阅读时间,有效提高人们对知识获取和创新的速度,这将成为知识服务的新市场。
参考文献:
[1]大数据背景下创新政府互联网治理[N].光明日报,2013 (3):22-23.
[2]李勇辉.大数据概念辨析及应对措施[J].互联网天地,2014 (1):11-12.
[3]杜明明.大数据的内涵、特点与趋势——关于潘云鹤院士“大数据”观点的分享[J].浙江教育技术,2013(6):58-59.
[4]叶曜坤.畅想大数据时代[R].人民邮电,2013-03-15.
[5]孙玉玲.大数据时代数字出版产业的发展趋势[J].出版发行研究,2013(4):5-6.
[6]刘灿姣,叶翠.基于云计算的出版企业大数据服务研究[J].出版发行研究,2013(11):59-60.
中图分类号:G358