出版大数据解析

2021-12-03 23:24刘元生
北京印刷学院学报 2021年7期
关键词:出版业数字化数字

刘元生

(安徽新闻出版职业技术学院新闻传播系,合肥 230601)

信息技术的发展催生了海量数据,数据来源的渠道不仅包括网络内容,还包括社交媒体。而将海量数据快速加以归纳、计算和分析,得出商业价值高的信息,这就是大数据。大数据技术将会是出版业下一个前沿技术竞争力的主要应用。

一、从传统出版到数字出版

科技的发展从来不以人的意志为转移。网络传播和数字技术给全球出版业带来了新业态与新格局,告别“铅与火”、迎来“光与电”的传统出版业已经迈入了数字全媒体出版时代。数字出版是将传统出版内容通过计算机、网络与多媒体、存储与显示以及传播技术,使其出版过程及产品形态数字化,融合并超越了传统出版。伴随移动互联网的兴起,移动出版实现了传统出版在数字生产和移动传播方面的突破,将数字出版的内容通过智能移动设备和移动网络进行传播,成为数字出版的一种潮流。而在社会自媒体的强力推动下,电子自出版平台的蓬勃兴起,使自出版挑战传统出版规则,开始独领风骚,甚至可能颠覆传统出版业。

总之,通过互联网、移动网络以及社交媒体、云计算发展的数字形式出版,因其产品内容的数字化、产品形态的数字化、生产流程的数字化、产品传播的数字化以及阅读与学习形式的数字化,使其成为出版业大数据采集的重要来源和参考依据。

二、从小数据到大数据

传统出版行业的数据来源于选题数量、印刷数量、发行数量、重印数量和销售数量等。而数字出版需要借助计算机或终端设备将所有的出版内容信息都转换成0和1的代码,不仅包括数字化出版内容、数字化编辑过程、数字化复制扫描,还包括数字化发行销售以及数字阅读消费化等,所有这些数字化的信息均存储于光、磁介质中。比如,以文字为起点的阅读,在数字技术的支撑下,一本纯文字小说书的数据、带有图片的相关学习资料,甚至一段带有声音、视频、动画等多媒体作品的读物,所占空间都不算大。因此,传统数字出版产品形态的典型特点是“小数据”生产与制作。

知识的碎片化、读者的兴趣点以及丰富多彩的阅读体验是数字出版带给读者的直接感受。阅读内容和兴趣的深度挖掘、知识的重新发现与内容组织,乃至阅读信息本身的智能型分析与匹配、数据关系的智能服务等,正是出版业所要解决与处理的大数据。大数据具有“4V”特征,即Volume Big(数据容量大)、Variable Type(数据类型多)、Velocity Fast(数据处理速度快)以及Value High(数据价值高)。

三、出版业大数据的来源

互联网由Web2.0发展到Web3.0,互联网上的大数据主要有基于用户消费的数据、基于用户行为的数据、基于地理位置的数据和基于社交网络的数据等。大数据生成主要来自PGC(专业生成内容)、UGC(用户生成内容)、OGC(职业生产内容)和DGC(设备生成内容)。出版业的大数据主要来自企业管理数据、作者的写作过程数据、发表的作品内容数据、读者的阅读行为习惯数据以及其他衍生数据。其中,企业管理数据主要包括出版系统、发行管理系统以及作者管理系统数据,如生产记录、财务记录、管理记录、资源统计等;过程数据主要包括作者的选题、思维过程以及对作品的修改记录等;发表的作品内容包括用户发表的网络文学,博客、微博、QQ、微信等实时交流的内容;读者的行为数据指用户围绕作品而执行浏览、点击、阅读、搜索、购买行为等;阅读的衍生数据主要是对作品的评价、阅读交流以及后期分享等。

大数据从数据结构上主要分为:结构化数据(数据结构字段含义确定、清晰)、半结构化数据(具有一定结构,但语义不够确定)和非结构化数据(杂乱无章、很难按照一个概念去进行抽取、无规律性)。出版领域的结构化数据通过关系数据库来存储,主要包括出版社的ERP、财务系统、作者、读者、书籍等作品的基础信息。半结构数据主要通过关系数据库或半结构原生数据库来存储,包括邮件、报表、出版的内容、版式的设计以及相关的元数据等文件。非结构数据通常使用关系数据库中的特定数据类型或文件夹进行存储,主要包括音频、视频、图像、动画等文件。

四、出版大数据的应用

大数据不仅是一种资源,也是一种生产工具。利用大数据进行数据分析,可以判断出版业的发展趋势,进而进行商业业态的创新和商业价值的开发。

不同来源、不同结构的大数据经过提取、整合、分析、解释、理解、挖掘处理等操作,对于出版业将会产生巨大的影响。处理分析挖掘后的大数据应用主要体现在以下几个方面:

(一)数据预测用户:智能预测与精准推送

智能预测是大数据应用的重要功能之一。出版商可以通过对用户浏览记录、支付记录、消费者评论、评价等海量用户行为数据的挖掘和分析,准确把握受众的兴趣,并将当前热点话题作为可选择的内容主题,取权威数字,以焦点人物和流行人物为作者候选人,准确定位目标受众群体,细分个性化市场,估计市场容量,准确传递内容,提醒用户路过的商店是否有相应的产品正在促销,以此击中畅销书的“金矿”。例如,经典神剧《纸牌屋》在这方面就成功演绎了大数据的神话,出品方兼播放平台Netflix在搜集用户3000万条播放记录、300万次的主题搜索、400万条评论的大数据中,选择人气最高的大卫·芬奇和著名影星凯文·斯派西担任该剧的导演和主演,一个季度就使得美国市场新增用户达到3342万,收入增长了500%。

(二)数据推动内容:个性化内容与需求定制

美国沃尔玛“啤酒与尿布”购物篮分析法就是对超市一年多原始交易的数据进行详细分析,总结得出,美国的年轻妈妈们总会让爸爸在下班后去购买婴儿尿布,而爸爸选择尿布后总是附带上自己喜爱的啤酒。因此,超市就干脆将啤酒与尿布捆绑在一起销售,并获得了很好的销售业绩,“啤酒与尿布”也因此成为营销界的一个神话。出版机构的大数据,不仅可以用于选题策划,还可以根据大数据分析的结果进行内容的个性定制。在数字阅读时代,出版业可以凭借大数据技术精准捕获用户的浏览和消费行为,包括何时、何地、看了哪些书等信息。读者的阅读偏好和浏览趋势是出版业必须获取的重要资源,再加上大数据分析技术来有效把握读者的需求,并以自己的专业能力影响、引导读者的兴趣,凝聚他们的创意、提炼他们的思想,出版者就可以将个性化的内容推送给特定用户,实现真正的个性定制和按需出版。

(三)数据推动产品:个性体验与互动

未来,大众化的数字产品都可以归结为一种“游戏”。数字出版物在全媒体时代是丰富多彩的,包括图片、音效、音乐和动画。最典型的例子就是可穿戴电子产品的开发,其可以通过指尖滑动、眼睛旋转或手臂摆动来获得信息和无与伦比的乐趣。并且一旦经历之后,就会想把这些信息分享给大家。关注、交流和分享,会引发人们更多的互动内容,引导信息和知识的自我生成和自我组织。出版者通过数字内容智能分析工具对数字内容阅读平台进行智能分析,可以实时挖掘受众最为真实的在线消费体验和阅读需求,从而对数字出版的效果给予科学的评估。例如,中国太平洋保险在国内首次推出“大数据客户体验”报告,并在每年的国际消费者权益日深度推行大数据客户体验报告,旨在反映客户体验的痛点,接受客户和公众的监督。

(四)数据推动服务:提供内容转变为提供服务

大数据不仅改变了人们的阅读习惯和阅读方式,也改变了用户的预期。最明显的特点是,网民与消费者之间的界限正在逐渐消失,他们更希望企业能够了解他们,了解他们的偏好和需求,并与他们保持个性化的联系。作为内容提供商的主体,出版者必须完成从内容提供商到服务提供商的定位转换,这就意味着出版者需重新认识和定位数字出版,不再将发展数字出版仅仅停留在数字化内容的建设上,而是开始从消费服务的模式来建构内容产业,让个性化、精准化的智能服务成为现实。

猜你喜欢
出版业数字化数字
家纺业亟待数字化赋能
试析新媒体时代传统出版业编辑的应对方法
论经济学数字化的必要性
高中数学“一对一”数字化学习实践探索
高中数学“一对一”数字化学习实践探索
市场经济中的司各特:文学出版业与历史小说的兴起
答数字
数字看G20
出版业的新趋势与高校出版社专业发展的思考
成双成对