祖成浩
[摘 要] 随着技术的发展,出版的产品形态越来越丰富。文章研究了大数据在出版业上的应用,通过大数据技术分析读者群体的阅读喜好,可以更加有效的确定产品的形态,最大程度的满足读者的期望,在营销和发行环节,利用大数据技术还可以做到精准的营销。
[关键词] 出版;大数据;读者画像
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 19. 033
[中图分类号] F270.7 [文献标识码] A [文章编号] 1673 - 0194(2017)19- 0079- 03
1 国内外出版大数据现状
随着數字出版的快速发展,越来越多的读者开始在数字化的环境中阅读、学习,如使用手机、平板电脑进行看书、学习、分享、互动等。与传统的纸质图书阅读相比,数字化的阅读环境中更容易捕捉和记录阅读和学习的数据,比如某个知识点的点击次数,知识点的分布情况,知识点的分享频度等。
各行各业都在利用大数据技术改善和推动行业变化,如交通、快消、电商等领域应用大数据技术实现信息精准推送,提升信息传达的效率,出版行业也不例外,国外大型出版企业很早就注意到利用大数据技术提升用户体验。美国书呆网利用大数据技术分析读者的阅读爱好、兴趣类别、知识需要,从而向读者精准推荐最感兴趣的图书,改善了图书推荐的用户体验,提升了图书购买的效率。培生公司利用学习平台记录读者在某个知识点的停留时间、点击次数、该知识点相关内容点击情况,运用大数据技术分析读者对知识点的理解和掌握情况,从而为老师和学生总结学习重点和难点,进而推荐更有效的学习工具和学习内容。
我国出版行业也越来越重视大数据的应用,当当网利用每天产生的几千万条数据,重塑创作过程,并为小说改编为影视剧提供大数据支撑。初次之外,当当网通过图书试读收集数据,通过大数据分析预测图书销量,为图书零库存提供数据依据。
2 出版业大数据来源及类型
我国目前每年出版图书品种约40多万种,总印数80多亿册,2015年我国人均阅读纸书4.58本,电子书3.26本。如此多的图书、期刊、论文被10多亿人阅读,在数字化的阅读环境中将产生海量的数据。除了阅读产生的数据外,在图书内容生产过程中、营销过程中、传播过程中也会产生大量的数据。总体而言,这些数据可以分为图书信息数据、作者信息数据、图书营销数据、网络评价数据、阅读行为数据、读者画像数据等。
除了与图书直接相关的数据外,还有更多的与读者阅读有关的数据,如微信阅读、微博阅读、图片浏览、视频浏览等数据,这些数据经过大数据分析后,对于图书选题分析、图书宣传策划、图书营销等都会产生很大的价值。
3 出版业中大数据的运用
在出版行业,库存是每个出版社都面临的需要解决问题,2013年我国图书营收约770亿元,而库存已达800亿元,如此大的库存量说明在图书印量方面存在市场估计的不准确性。如何科学有效的评估市场对图书印量的需求,需要转换思路,加强图书发行环节的销售数量预测,也可以利用大数据加强图书预期销售的评估分析。
图书在选题策划之初,编辑根据以往的经验和自己的市场判断,基本确定了图书的版式设计、纸张选择、封面设计、开本设计、市场宣传设计等,但图书上市之后,往往与图书选题策划时候的评估存在一定的偏差。这种情况下可以利用大数据技术对图书针对的用户群体做针对性的分析,通过用户画像了解用户购买的动因,从而修正和完善图书的设计与内容策划。
每一个编辑都希望自己的图书选题能够与读者的期望、社会的发展相契合,从而做出深受读者喜爱的畅销书或长销书。如何准确的找到特定读者群体关注的热点,以及如何判断这样的热点将会延续多长时间,就成为确定选题的重点。以往大多数来源于编辑的直觉,以及非系统性的数据积累,而通过大数据技术实现对不同领域热点的分析,建立相应的分析模型,评估热度及趋势,将会有助于编辑实现热点选题的判断和筛选。
在内容编纂环节,可以利用大数据技术评估哪些章节读者比较关注,那些章节读者不太关注,从而对图书章节的设置做出调整,对读者比较关注的章节进行重点编纂,在内容呈现形态上选择文字为主,还是文字图片多媒体加上交互为主。
在最终的产品形态上,以往纸质图书或原版原式电子书大多是最终的产品。随着交互技术的发展,以及AR/VR的研发与应用,出版的产品形态越来越丰富,也越来越符合阅读和学习的需要。通过大数据技术分析读者群体的阅读喜好,如阅读终端、阅读环境、阅读时长等,可以更加有效的确定产品的形态,最大程度的满足读者的期望。
在出版物评价方式上,在业内专家评价、营销收据评价之外,还可以利用大数据技术对图书的市场效应、社会效应进行分析和评估,进而做出科学合理完整的图书画像,丰富图书评价的内涵。
在营销和发行环节,利用大数据技术可以做到精准的营销。首先通过大数据技术确定用户画像,如用户年龄分布、学历分布、地域分布、喜好分布、购买力分布、获取信息途径分布等等,依据用户画像确定图书营销方案,从而达到最有效和精准的营销。
4 出版业大数据技术解决方案
出版业大数据技术解决方案由元数据采集、数据处理、数据分析与挖掘、业务应用四部分组成。其技术架构图如图1所示。
4.1 元数据采集
元数据采集主要实现网络信息的采集,如微博、微信数据的采集,特定网站栏目和频道数据的采集,特定论坛频道的数据采集,以及电商平台数据的采集等。元数据采集一般需要根据业务的应用范围设定相应的数据源,并根据数据源制定数据采集模板。
4.2 数据处理
数据处理是对采集到的元数据进行去重、去噪、结构化等处理。一般情况下,不同的数据源存在数据重复或数据部分重复,因此需要对数据进行去重处理,以提高数据的有效性。另外还需要对数据进行去噪处理,有些数据是垃圾数据或无效数据,因此需要建立相应的算法和模型,对垃圾数据进行甄别,并进行剔除。去重去噪后的数据按照数据类别进行存储和管理,并按照一定的规则自动设定相应的数据标签。
4.3 数据分析与挖掘
对于已经清晰过的数据,运用语义分析技术、情感分析技术等进行数据分析和挖掘,并根据业务场景的需要建立数据分析和挖掘模型,运用不同的算法对数据进行计算,并利用可视化技术对数据结果进行图形化的呈现。
4.4 业务应用
数据分析和挖掘的结果可以面向不同的人员和角色提供服务,也可以按照选题优化、内容设计、产品形态设计、产品营销等应用场景提供服务。
5 结 语
出版业大数据的应用目前还处在探索阶段,随着大数据技术的不断发展,出版业应用的需求越来越清晰,以及对出版业应用的宣发和模型不断优化,大数据技术将会在出版业发挥越来越大的作用。
主要参考文献
[1]毛文思.大数据与出版业[J].出版参考,2014(2).
[2]李兵,漆咏德.大数据时代出版企业的商业模式构建[J].出版发行研究,2013(8):37-40.
[3]周煜.大数据时代出版行业发展趋势分析[J].中国出版,2014(7):19-22.
[4]石佳靓.大数据:出版产业的机遇与实践[J].中国出版,2014(11):44-47.endprint