大数据思维与出版高质量发展的路径选择

2018-10-12 08:38何军民
出版科学 2018年5期
关键词:出版业发展路径高质量发展

何军民

[摘 要] 分析出版人大数据思维中存在的诸如其真实性不容置疑等认识误区,深入调查研究出版行业内容生产、印刷复制和产品营销等主要环节的大数据实践并理性评估其实际成效,从统一数据交换标准和建设全行业基础数据服务平台等方面为出版人履行把握导向、服务大局、推动高质量发展的崇高使命寻找突破方向。

[关键词] 大数据 出版业 高质量发展 发展路径

[中图分类号] G237 [文献标识码] A [文章编号] 1009-5853 (2018) 05-0082-05

[Abstract] Analyze the wrong ideas such as the truth of big data is unquestionable when publishers use big data technology. Deeply investigate, study and evaluate the practice of big data of the main links of modern publishing industry. Make huge breakthroughs from following aspects such as formulating a unified data exchange standard to provide good service for publishers fulfilling the noble mission of grasping the guidance, working hard for the overall situation and promoting high-quality development.

[Key words] Big data Publishing industry High-quality development Development path

1 引 言

1980年,未来学大师、社会思想家阿尔文·托夫勒在《第三次浪潮》中提及“大数据”一词,并将其称为“第三次浪潮的华彩乐章”。2001年,全球信息技术(Information Technology, IT)研究與顾问咨询公司美国高德纳公司(Gartner)从数据容量、数据类型和处理速度3个方面对“大数据”进行了概念界定。2012年,美国奥巴马政府颁布《大数据研究和发展计划》,把发展大数据上升到国家战略的高度。自此以来,大数据已经成为各行各业最津津乐道的热门话题之一[1]。具体到出版业,其应用呈现出两个面向:一方面是从业者大多对大数据持开放甚至欢迎态度,但是对大数据的概念、类型、利用路径以及发展方向不甚了了;另一方面,学界从大数据出版的内涵与实践、大数据给出版产业带来的机遇与挑战、大数据时代的出版创新、出版业大数据的困境与破解等多个方面对大数据与出版业的关系进行了比较深入的研究,但是却没有针对出版业偏重应用的根本特征提出具有较强可行性的盈利模式。本文试图结合大数据思维的基本概念,从高质量发展的角度研究大数据在出版行业的应用,为当前形势下出版业的路径转型做出具有一定借鉴意义的探索。

2 大数据思维界定和出版界主要误区

大数据本来是一个IT行业术语,其核心是“大”。国内多位学者对“大数据”这个概念进行了界定,其重点都在于对“大”这个特征的强调。例如王凌认为:“从字面意义上来看,大数据指规模化的海量数据。实际上是指大小超出了典型数据库软件的采集、储存、管理和分析能力的数据集”[2]。李燕荭认为:“大数据是指以多元形式,自许多来源搜集而来的庞大数据组,往往具有实时性”[3]。张军认为,大数据“指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产”[4]。由此可见,这个“大”,不是指普通意义上信息的日积月累,而是指在互联网时代由于信息快速、大范围、高频率使用而短时间甚至瞬间产生的体量上的巨大。根据以上界定,研究人员一般认为大数据的特征可以用四个“V”来概括:一是“Volume Big”,即数据量大,计算能力要求高;二是“Variable Type”,即数据类型多样和来源众多;三是“Velocity Fast”,即数据处理速度要求快、实时;四是“Value High”,即商业价值高[5]。大数据的基本概念及其主要特征启示我们,前互联网时代由于数据规模偏小、数据之间关系难以追踪且不得不以局部样本代表整体事物分析客观情势而导致的出版决策缺乏足够数据支撑的不足,有望在大数据时代得以改善。正如姚春青所言:“大数据中的单个数据可能不精确,但足够多的数据完全可以弥补这一不足,运用简单算法处理大量数据所得到的结果通常比运用复杂算法处理少量数据更准确”[6]。

然而,对于大数据的相关问题,尤其是关于大数据的功能和使用,出版界在认识和实践上还存在不少误区。这直接制约了大数据在出版行业的使用效果。概括起来,出版界关于大数据的主要误区有三种。

第一种常见的误区是认为利用大数据技术采集到的所有数据的真实性都不容怀疑。以阅读行为数据分析为例,在前互联网时代,我们主要靠面对面采访等直接方式收集这方面的数据,数据的准确性来源于采访对象的量大面广,但是相对于庞大的读者群来说,采访对象的数量始终是有限的,因此其数据精度始终不高。在大数据时代的语境下,出版界人士很容易走向数据崇拜的误区,即认为通过大数据工具收集到的信息全部经过数字追踪,因而都是真实准确的。实际上,“当下社会公众的阅读需求呈现分众化、个性化、动态化特点,公众在选择阅读对象和实施阅读行为时,会受到各种外部因素的干扰,或附带较多的非理性的情感因素,甚至具有一定的盲目性,因此,一部分公众对自身真实的阅读需求未必有明确的体认”[7]。

第二种常见的误区是认为大数据将直接推动传统出版进入科学化时代。在前互联网时代,传统出版流程通常由编辑发起,从信息搜集开始,到编辑方案制订、作者人选确定、编辑加工直到营销计划实施,主要凭借的是逻辑推理和经验总结。在强调数据化支撑的互联网时代,这种主要凭借经验和主观推理的出版模式日益遭受业内外人士的质疑。由于通过大数据技术所获取的信息能够做到有据可查,无疑从根本上避免了前大数据时代数据获取方式偏重主观印象、样本代表性不强等弊端,因而使得研究者很容易直接将行业转型升级的希望完全寄托在大数据利用上,进而认为大数据可以实现出版业决策的完全科学化。实际上,“今日的出版业依然是一个强调内容积累、文化语境、知识传承的行业,很难做到完全以用户为中心决定内容资源配置,一切由数据说了算的定制生产模式一时难以取得主导地位”[8]。在某种意义上,由于出版业固有的强调内容积累、文化语境、知识传承的特征,大数据在相当长的时间内只能作为从业者主观决策的辅助手段,而从业者对大数据的掌控能力和使用理念将决定大数据功能和作用发挥的水平。

第三种常见的误区是认为出版业本质上是个数据密集的行业,面对大数据时代的到来,从业人士只要做好技术和组织架构升级等业务性工作,就可以在新的大数据时代如鱼得水。实际上,前大数据时代和大数据时代的区别,既不是单纯的技术是否先进的差别,也不是单纯的组织架构是否完善的差别,而是发展理念和认识观念上的根本差别。在前大数据时代,包括科技感很强的数字出版领域,所有出版产品实际上是信息海洋的一个个“信息孤岛”,“它们无法被集成和参与运算;而实现了大数据出版之后,这些信息孤岛就被海底的大陆架所连接,虽然其呈现方式可以是一本本书籍,但其内在结构却是一个可被分析的大数据库”,因为大数据时代的信息是“通过光学识别软件将书本中的内容转化为计算机可以检索和运算的信息”[9]。面对这样的数据形态,出版从业人员仅仅做好技术和组织架构升级的工作是远远不能适应大数据时代要求的,业界人士应该从根本上改变对行业属性的认识,即从过去把出版业视为纯粹的传播业转变为在大数据时代把出版业转变为高层次服务业,进而围绕这个新的行业定位重构产业生态,推动行业升级转型。

3 出版行业大数据实践及其成效评估

鉴于国内出版业对于大数据技术的基本概念和发展方向存在上述误区,梳理并评估当前出版行业的相关实践,对于业界人士理清大数据思维的实质并实现出版业在大数据时代的有效突破,具有很强的参考价值。从相关学者的研究成果看,出版行业的大数据实践,集中在内容生产、印刷复制和市场营销三个方面。

3.1 内容生产方面的大数据应用

内容生产领域的大数据应用,主要体现在各个出版门类的选题策划环节。其次,在改进书稿编辑过程方面,出版界也有一定探索。

国外出版企业在内容生产领域的大数据应用方面已经进行了颇有成效的尝试。全球知名的儿童图书和多媒体软件出版和发行商学乐公司(Scholastic Inc.),其《39条线索》系列丛书就是运用大数据于内容创意阶段的成功实践。该出版社利用大数据技术发掘读者最喜爱的线索和人物,进而据此进行内容策划[10]。美国的奈飞公司(Netflix)利用大数据分析海量用户信息,不仅仅对于哪位受众喜欢什么方面的内容等初级信息了如指掌,而且可以精确到受众诸如“看到哪个演员出场会跳过不看”等非常具体的行为,这无疑为出版选题策划提供了非常明确的参考[11]。

相对而言,国内企业在应用大数据技术进行出版选题策划方面起步稍晚。在这方面,表现比较突出的是京东和当当。“京东出版”在深度挖掘1000万用户需求的基础上,和出版社合作推出了第一本新书——贝克汉姆的自传《大卫·贝克汉姆》以及《麦迪在路上》摄影书,并实现了按需出版。当当网主导策划了《皮皮鲁送你100条命儿童安全百科》等图书,市场反响很好[12]。此外,北京磨铁图书有限公司在其众筹出版活动中通过用户投票方式选出用户支持度高的内容资源,进而确定图书目标读者,在確保项目精准定位上积累了经验[13]。

相较于选题创意领域,编辑加工过程中的大数据应用还是初步的,目前并没有取得大范围成功,也没有足够多可供复制的经验。已有算得上成功的经验,典型的例子是谷歌图书。据悉,谷歌在其扫描的纸质图书制成的电子书的基础上,结合其他内容,辅以特定学科、特定作者、特定历史时期、特定语言等参数,允许人工智能将作者输入的内容和在某种程度上与相关文学作品进行对比,快速提升了人工智能的学习效果[14]。可以预见,这项技术可以帮助编辑人员在完善书稿的过程中利用相关大数据成果更好地进行比对以做出取舍。

这些典型案例传达出一些颇具共性的信息:这些企业都拥有“海量”数据,都拥有超强的数据分析能力和成熟的大数据挖掘理论指导,而且大多联合出版企业进行内容创意开发,或者其本身就是知名出版企业。而大多数传统出版企业虽然拥有丰富的创意经验和内容把控能力,作者资源也比较充足,但是却鲜有利用大数据技术和思维于内容创意领域的尝试。笔者认为,导致这种情况出现的主要原因在于:由于短时间内难以建成大规模、一体化的出版大数据中心,各个出版企业所拥有的数据难以有效衔接和沟通,传统出版企业数据的产生、获取、存储以及重复利用都是分别进行的,难以集中形成“海量”数据,因而难以在大数据所要求的“大”的量级上有效发挥功能。

3.2 印刷复制方面的大数据应用

从1990年代我国出版业引进市场化机制以来,随着年度出书品种的逐渐增加,图书库存逐年增加一直是困扰出版界的一个严重问题。综合各方面情况分析,导致图书库存居高不下的主要原因在于图书销售行业实行寄销制以后,新华书店等经销商不再向出版社报送“征订数”,而图书编辑又无法拥有准确的读者购买意愿数据,所以最终报印数字一般是编辑参考同类书销售情况进行预估。这就导致实际销售与报印数之间有较大误差,久而久之自然就形成大量库存。按理说,引进大数据技术之后,图书报印这种以前主要由经验决定的环节可以获得足够的数据支撑;但事实上,即便引进了大数据,相对于需要报印的图书品种来说,大数据所提供的信息无论多么充分,都是一种基于同类书以往销售情况、作者知名度、图书主题在市场上受欢迎程度等要素所做出的预估,而读者的最终购买行为受到多种因素的微妙影响。因此,这种预估永远不可能非常精确。如果把决策依据仅仅寄托在大数据所提供的信息上,库存还是难以根除。这恐怕是大数据技术虽然最有可能为图书报印这种最需要数据支撑的环节提供支持而实际上应用非常有限的主要原因。

虽然大数据技术在图书印刷复制环节的应用上鲜有成功案例,但是印刷复制企业却有利用大数据获得意外成功的实践,其最典型者就是雅昌集团。雅昌集团利用其创立的雅昌艺术网,迈出了从传统印刷业向新型文化公司转型的第一步。该网站通过年复一年、日复一日的漫长积累,形成了人类历史上空前的“艺术品数据库”,从而实质性地拓展了雅昌集团的业务范围[15]。雅昌集团这种凭借主业上的大数据优势拓展业务领域、多元发展的模式,有望成为印刷复制企业大数据应用未来的主要方向。

3.3 市场营销方面的大数据应用

从目前资料来看,出版业大数据应用最多的还是在市场营销方面。无论是大众出版业、教育出版业、学术与专业出版业、新闻传播业以及新型出版业,都有值得肯定的成功实践。具体来说,这方面的大数据应用,大致又有四种情形。

第一种情形是利用大数据技术分析用户的个人偏好、影响群体等方面特征,然后根据分析结果有针对性地推送内容产品。企鹅集团2012年和社交数据分析站点PeerIndex公司合作推出畅销书《神没有男人》后,在营销过程中就精细分析了主流社交媒体不同领域意见领袖的相关信息,然后利用他们的影响力进行精准营销,取得了很好效果。一些拥有丰富教育内容资源的出版集团,如世界排名首位的培生教育利用大數据进行精准营销,在个性化教学方案和智能学习平台搭建方面做出了有效探索。网易新闻建立了自己的Hadoop、Spark、Storm计算平台和缓存集群、搜索集群、消息队列、NoSQL软件等,实现了对用户信息和访问轨迹的多维度搜索,从而实现了内容的智能化精准推送[16]。

第二种情形是利用大数据技术整合内容并分析受众需求,然后通过整合过的内容平台有针对性地进行广告投放。美国《芝加哥论坛报》根据大数据分析结果明确了内容整合方向,据此对报纸内容进行改造,然后基于受众需求和兴趣进行网络广告推广,走出了持续四年的破产保护,开始盈利。2012年,《中国国家地理》杂志根据用户的媒体使用习惯确定广告投放渠道,并根据用户忠诚度对用户进行分类,据此确定广告投放频率和力度,其精准、灵活的广告方式为企业带来了更高收入[17]。

第三种情形是利用大数据技术分析用户阅读爱好和购买记录等个人倾向性特征,根据分析结果为用户提供精准的商品推荐服务。苹果公司于2014年收购了图书分析服务商书灯(BookLamp)后,利用自然语言分析技术分析不同读者阅读爱好和购买记录数据,为读者定制“图书基因组计划”推荐方案,从而为读者搜索和购买图书提供精准的营销服务。京东商城推出的“2012年京东数聚会”深度分析用户购物行为,发现了诸如50%用户在购买《淡定的人生不寂寞》的同时将《百年孤独》收入囊中等大数据分析结果,从而为其捆绑销售和商品关联推荐提供了很好的数据基础[18]。

第四种是利用大数据技术分析用户的使用习惯和内容需求,收集反馈信息,不断提升用户满意度,强化用户黏性。世界著名学术出版企业施普林格自然集团(SpringerNature)的SpringerLink平台每年记录2.25亿次资源下载详细信息,对每个包月用户的具体访问、阅读行为等信息都进行大数据分析。中国知网根据对其年均20多亿次检索次数和近10亿次下载量等庞大数据资源的抓取和分析,为用户提供专业文献资源服务、科研分析服务、用户使用跟踪服务以及行业知识服务,还通过检索帮助用户找出并研究热点。这些企业利用大数据技术分析搜集到的反馈信息,并利用对反馈信息的分析改进各自的产品和服务,从而大幅度提升了用户的满意度,强化了自身的盈利能力[19]。

4 大数据助力出版高质量发展的路径展望

习近平总书记在十九大报告中指出:“我国经济已由高速增长阶段转向高质量发展阶段,正处在转变发展方式、优化经济结构、转换增长动力的攻关期。必须坚持质量第一、效益优先,以供给侧结构性改革为主线,推动经济发展质量变革、效率变革、动力变革。”[20]出版业作为文化产业的重要组成部分,自然也必须由高速增长阶段转向高质量发展阶段,也就必须以供给侧结构性改革为主线。笔者认为,鉴于行业现实及存在的突出问题,出版业应该紧紧抓住供给侧结构性改革这条主线,深入贯彻大数据思维,从以下4条路径推动出版高质量发展迅速取得突破。

第一,着眼于全行业整体范围,统一在线出版信息交换标准,建设统一的全国出版基础数据服务平台。如前所述,当前出版业在数据利用上的突出问题是所有出版产品实际上是无法被集成和参与运算的一个个“信息孤岛”。因此之故,关系出版业整体质量的选题策划、印刷复制和产品营销诸多环节的决策行为难以精准应对,从而导致出版业供给侧质量难以有效满足市场需求。图书出版业库存居高不下就是其突出表征。从微观角度看,不同出版企业其书名、标题、主题、出版者、日期、类型、格式、标识符、来源等描述出版物相关信息的数据均不存在计算机可理解、可沟通、可交流的统一标准;从宏观角度看,全国范围内也不存在一个涵盖编辑、营销、用户行为等出版重要环节的全行业一体化全国出版基础数据服务平台。这两方面的不足,决定了出版在行业数据呈几何级增长的态势情况下,个体出版企业的微观决策和主管部门的宏观决策都无法建立在行业大数据的基础上且两种决策难以协同创新,因此其精准性和前大数据时代的决策行为难以有本质差别。在我国由出版大国向出版强国迈进的过程中,主管部门和行业协会必须充分发挥管理、组织和协调功能,制定科学可行的行业信息和数据交换标准,同时建立面向全体出版企业的全国出版基础数据服务平台,让全行业出版数据告别散兵游勇的“信息孤岛”状态,真正发挥大数据的“大”功能,为出版供给侧质量提升发挥基础性数据支撑作用。

第二,充分考虑出版行业特性,普及大数据思维必需的相关理论和知识技能,打造一支熟练掌握大数据思维和基本技能的人才队伍。从根本上说,出版的专业特性就在于它的内容和知识密集性,而内容和知识的密集乃至对密集内容和知识的有效利用都离不开人,尤其是掌握生产动力的编辑人员。在这种情况下,要想充分发挥大数据的功能和利用大数据的价值,就必须拥有一支大数据人才队伍。从目前情况看,面对大数据技术短期内快速发展和相关研究不够深入的现实,大部分出版从业人员对大数据相关理论知识和技能尚处于一知半解甚至懵懵懂懂的状态:毫无保留欢迎者有之,根深蒂固抗拒者亦不少,而最缺乏的恰恰是深入的调查研究和精准地把握应用。按照高质量发展的要求,我们只有具备了必要的大数据相关理论知识和技能,才可能充分挖掘大数据的价值并利用挖掘结果为观和宏观出版决策服务。

第三,出于积累并复制经验的实际需要,在大数据知识和技能普及过程中,出版企业要选择一些重点项目进行“人—数”协同创新,积累行业大数据应用的必要经验。专业出版人员要在一些重大融合出版项目中有意识加大大数据应用的比重,利用大数据技术科学分析数据构成,找出重复出版较多的内容领域,根据用户需求和购买偏好列出负面清单,引导编辑人员在将来的选题策划中有意识地避免涉及负面清单所列领域;找出图书出版涉及较少而读者需求比较强烈的内容领域,超前谋划,引导阅读方向。通过重点项目积累大数据应用的相关经验以后,编辑人员可以在一般项目上复制重点项目的经验,从而整体上提升供给侧产品质量,更好地满足人民群众的美好生活需要。

第四,牢记把握导向、服务大局的崇高使命,正确认识大数据技术的长处和不足,提升出版决策的社会效益和经济效益水平。从前述有关大数据应用的案例分析可以看出,尽管大数据技术相对于前大数据时代来说可以分析更多甚至是所有行业数据,但对于尚未成型和尚未投入实际使用的产品和服务而言,大数据所发挥的作用始终是预测,而其结果无论多么准确,终究不能和实际情况完全符合。实际上,由于“数据本身价值密度低等特点,使得探讨如何在海量的数据中挖掘更多价值成为一个永恒的话题”[21]。编辑的主观能动作用在出版这种十分注重内容谋划的行业中的使用限度就尤其值得重視。笔者认为,从根本意义上说,大数据技术和思维只能成为出版人主观决策的一种辅助,而不能成为其决策行为的主宰。无论是针对一个个具体出版项目的微观决策,还是针对整个行业发展的宏观决策,出版人都应该有利用大数据的主导思想,并在这种主导思想的指引下理性对待大数据技术。尤其是我国出版业,肩负把握导向、服务大局的崇高使命,出版人更不能唯大数据分析结果马首是瞻,一味迎合大数据分析结果体现的读者趣味,尤其不能迎合少数读者的低级趣味,而应该在大数据价值挖掘和分析的基础上,按照社会主义核心价值观的要求,坚持以人民为中心的创作导向和出版方向,把社会效益放在首位,实现社会效益和经济效益相统一。

5 结 语

总的来看,大数据既是一种信息现状,也是一种技术手段,还是一种思维方向。对于这种新生事物,我们一方面要保持开放态度,认识到它对开阔思维领域的重要意义;另一方面也要谨防业界人士成为新技术和新理论的奴隶,要对其进行理性调查研究和深入分析。我们要清醒认识到,大数据的主要功能在于对比和预测,而对比和预测从根本上说是一种对多数人偏好的认可乃至迎合。但很多时候,大多数人的趣味和偏好并不高尚,甚至存在这样那样的问题。所以,出版人要正确认识大数据思维和技术的误区,客观分析大数据应用的典型案例,发挥主观导向作用,做好服务大局的工作,秉承社会效益为先的思想用好大数据思维,让大数据技术更好地为当前的出版高质量发展服务。

注 释

[1]徐立萍. 出版业大数据研究的困境与破解[J].出版发行研究,2017(6):40-43

[2][5][11]王凌.论大数据技术的应用对出版业的影响[J].编辑之友,2014(4):21-23

[3]李燕荭.大数据时代的出版创新研究[J].传播力研究,2017(2):75-80

[4]张军.大数据时代的出版创新[J].科技与出版,2015(6):101-103

[6]姚春青.把握大数据思维的特点规律[N].中国国防报,2016-05-26

[7][8]吴赟,崔波,施勇勤,杨海平.大数据出版若干问题探析[J]. 编辑之友,2016(8):12-18

[9]张振宇,周莉.“大数据出版”的理念、方法及发展路径[J].出版发行研究,2015(1):14-17

[10]孙晓敏.浅谈大数据在图书出版中的应用 [J].中国编辑,2017(5):54-58

[12][13][16][17][18][19][21]陆利坤,游新东.大数据技术在出版行业中的应用研究[J].出版科学,2017(6):89-95

[14][美]马克· J. H ·弗雷茨.大数据出版 [J].出版科学,2017(1):5-17

[15]石佳靓.大数据:出版产业的机遇与实践 [J].中国出版,2014(5)上:44-47

[20]习近平.决胜全面建成小康社会,夺取新时代中国特色社会主义伟大胜利:在中国共产党第十九次全国代表大会上的讲话 [M].北京:人民出版社,2017:30

(收稿日期:2018-03-02)

猜你喜欢
出版业发展路径高质量发展
以按需出版为抓手,推动出版业数字化转型
中国经济改革“高质量发展”是关键词
开启新时代民航强国建设新征程
我国经济怎样实现“高质量发展”
保定市特色文化创意产业园区建设研究
基于SWOT分析的西安现代物流业发展路径研究
AR与VR技术在儿童出版业中的应用
民间艺术作品著作权保护的困境与出路
对出版业供给侧改革的思考
南宋出版业考述