梁莹
目前大数据技术还处于起步阶段,无论是软件技术、硬件技术都还不完善,但是大数据分析的前景广阔。因此,出版企业必须仔细分析、认真应对,找准大数据应用的切入点,从而实现大数据分析对出版活动的指导作用。
有人说“得数据者得天下”,海量的数据充斥在社会生活的方方面面。近年来,数据量呈现一种爆发式增长的趋势。随着互联网、物联网、云计算等技术的发展,传统的数据库已无法应付庞大的信息量,云存储、云计算的出现使得大数据分析变成一种可能。在大数据时代,出版业只有跟紧时代的步伐,认真理解大数据、采集大数据、分析大数据,才能使大数据为我所用。
一、大数据分析的定义
大数据分析(Big Data Analytics,简称BDA)包括对大数据的采集、恢复、存储、管理、挖掘等技术,然后通过分发、知识共享等手段最终实现对决策的支持,其实就是通过定量分析等方法从海量数据中提取出价值,来揭示一种规律或趋势。
大数据分析包括几个方面:可视化分析、数据挖掘算法、预测性分析能力、语义引擎、数据质量和数据管理等,其中可视化分析结果最为直观。
二、大数据分析在出版中的应用
1.出版业中有哪些大数据可以利用
首先我们要明白出版中涉及哪些大数据,可以进行怎样的应用。出版单位的ERP等数据库是结构化数据库,它们会提供各种各样的企业有效数据,虽然它们在整个大数据家族中所占的比例比较小。互联网上产生的大规模非结构化数据,比如日志、图片等,这些数据多而杂,但是加以分析却可以对出版社在策划、营销、客服等方面的决策提供有力的指导。
美国的创业公司Hiptype开发了一套电子书阅读分析工具,能够提供与电子书有关的丰富数据。它不仅能统计电子书的试读和购买次数,还能绘制出“读者图谱”,包括用户的年龄、收入和地理位置等。此外,它还能告诉出版商读者在看完免费章节后是否进行购买,有多少读者看完了整本书,以及读者平均看了多少页,读者最喜欢从哪个章节开始看,又在哪个章节半途而废,等等。
2.大数据在出版中应用的几个方面
通过采集、分析、解读大数据,为读者提供分众化服务和体验将成为新时代出版业竞争的焦点。由于大数据分析具有及时、迅速、分析高度智能等特点,因此我们势必要厘清大数据分析如何应用在出版的各个环节。
(1)选题策划阶段
我们做选题策划,很多时候都是听取一些发行人员的建议,或者直接发放调查问卷,根据问卷样本来做决策,但是这样常常会产生偏差。那么如果对了解或以前使用过相关产品的客户数据进行分析,就可以实现精准策划。比如对一些社交网站平台(如微博、微信)和电商平台(如当当网)提供的用户大数据进行分析,如用户的性别、年龄、职业、爱好、地理位置等个人信息以及用户的浏览记录、收藏记录、购买记录、评价记录等记录信息,从这些信息中可以筛选一些关注度高的话题作为备选选题,筛选出较为活跃的有话语权的人物作为作者,通过分析用户的个人信息确定目标读者,从而实现精准策划。
如盛大文学网站运作就运用了数据分析的方法,网站根据小说作者的知名度、小说的点击率、读者对小说的反馈来评定这本小说的畅销程度,结合市场上已出版的此类型小说的销售数据来决定是否要将这本小说出版发行,或做成纸质版、电子版等,比如桐华的《步步惊心》就是网络小说畅销后,再推出纸质版。
再比如美国学乐出版社的全球畅销书《39条线索》,这一小说的选题是建立在其在线游戏基础上的。出版社通过建立在线游戏追踪最吸引人的线索和角色,以此为构思基础创作了《39条线索》系列小说。
(2) 编辑出版阶段
很多出版社都有ERP系统(即Enterprise Resource Planning,企业资源计划系统),ERP系统应用在出版中,一般含有编辑管理系统、印制管理系统、发行管理系统、财务管理系统等。在这些系统里会有一些生产记录、财务记录、管理记录以及一些资源的汇总统计。这个数据库对于实时监控图书的稿酬、销售、印次、印数和库存等提供了精准的数据,这些数据分析有助于编辑对图书销售状况的掌握和运营成本的管理,以此及时调整策略,增加收入。
凤凰出版传媒集团的“零距离编校系统”是一个网上在线编辑平台,省去了排版公司这一环节,直接由印刷厂和编辑联系,进行稿件的版式制作等印前业务。 在这个平台上会产生诸如编辑对稿件的修改记录、编辑与专家的沟通记录、封面的设计修改记录等一系列数据,通过对这些数据进行分析,可以得出哪位作者的文稿错误率较高,哪些错误出现的频率高,编辑对哪些知识区域有盲点等,这些数据分析结果会给编辑提供最好的解决建议,从而使编辑可以有针对性地应对。
(3)营销阶段
在营销阶段,可以利用大数据分析实现精准营销,根据大数据分析的结果预测群体行为和个体偏好。比如在选题策划阶段提到的对目标读者群的定位,在营销阶段,就可以针对这些目标读者投放广告和试读产品,从而增加销售的可能性。
出版社的官网如果加以利用可以收集到很多数据,比如用户注册信息、用户行为记录、用户需求信息等。除官网外,出版社也会和一些电商平台合作,比如当当网、淘宝网等,电商可以为出版社提供数据分析结果,诸如目标用户的特征信息及构成等,有利于出版社了解产品在市场上的认知程度及客户构成。比如当当网会根据用户浏览、购买偏好等向用户推荐相关产品;淘宝网也有“淘宝指数”服务,用可视化图表的方式告诉客户其某具体时间段内的消费行为、消费偏好以及何时达到消费的最高峰等。淘宝还会根据客户的时间偏好、消费偏好等在合适的时间为其推荐合适的产品。
在一些社交网络平台上,诸如微博,出版单位会针对一些目标客户投放图书的节选、音频、视频文件,或举行针对性的促销活动,既可以吸引读者消费,提高销售收入,也可以为顾客提供更优越的产品和购物体验,增加客户的忠实度。如磨铁图书就会定期在微博上向其目标客户投送一些新书预告,甚至让读者参与到封面设计中来,增强与读者的互动。
大数据分析还可以根据读者的差异提供个性化定制服务。个性化定制需要有强大的数据作为基础,这就需要个性化定制服务平台能够与各种终端、社交网络、电商平台和大数据分析平台实现无缝对接,从而能够在这一链条上实现对读者消费行为、体验和需求的实时了解和跟踪。比如Coliloquy在“Kindle主动型内容开发者计划”的支持下所开展的个性化定制服务。Coliloquy出版的电子书允许读者根据自己的喜好来设计人物角色和情节线索,这里的作家可以为同一个场景写多个视角,或给每本书写作多重情节,他们也可以让自己的读者投票决定故事的走向和结果。
(4)售后管理阶段
大数据分析还可以帮助出版单位进行售后管理,比如用户满意度调查研究等,对用户的购买记录、评价记录进行分析,可以为售后服务提供决策,及时改进策略,增加客户黏性。而且通过对客户的大数据进行分析,可以分析出图书销售规律,等等。通过售后管理还可以为选题策划提供帮助,通过销售数据分析何种选题、何种品类的市场份额更大,对于出版商调整出版品种结构具有指导意义。
北京开卷信息技术有限公司已与多家出版社合作,定期向出版社提供开卷数据。比如提供各条产品线的数据监测及市场预测,还会根据数据分析目前我国图书市场的整体环境、图书市场的畅销趋向、图书销售的一般规律,并针对某出版社的主要产品线分析其图书市场的竞争格局等。
三、大数据分析在出版中应用需注意的问题
1.传统出版还未成功转型为数字出版
真正实现对大数据分析的应用必须建立在完全数字出版的基础上,但是目前很多传统出版单位还没有将数字出版进行到底,既没有借助技术公司的力量来发展出版,自己也没有对数字出版进行有效的投入。维克托在《大数据时代》一书中也提到了出版社数字化的问题:“出版社没有看到数据化的需求,也意识不到书籍的数据化的潜力。”
2.数据的有效性和真实性怎样实现
大数据虽然拥有的数据比较多,但是数据也很杂乱,数据中会掺杂进去一些虚假信息。这就很有可能会带来规律的丧失,增加大数据分析的难度,或者得出错误的结论。大数据分析是一个工具,可以帮助我们分析和预测,但是我们不能过分依赖大数据,因为并不是所有的数据都是可靠的。因此真正做出解决方案还需要在数据分析的基础上综合考量完成。
3.分析哪些方面、如何分析,还需要论证
大数据分析过程中需要对数据从多方面考虑,比如数据是否容易获得,能获得的比例,有很多公共数据并非都能获得;是否有明确的数据分析思路,分析哪些层面、哪些因素才是最主要的;进行数据分析的模型是否科学,提取的分析属性是否到位,如果没有提炼到数据的关键属性,精准分析也就无从谈起;基于数据分析所得出的结论是否独到并且确实有用,只有确实有用的结论才能切实指导决策,否则都是空谈。以上这些方面一环扣一环,任何一环出错得出的结论就可能是错的,从而影响最后的决策。
四、大数据分析在出版中的展望
数字出版的领头羊——励得·爱思唯尔集团,将开发数字决策工具作为其未来十年转型新方向,其开发的大数据技术HPCC(高性能计算集成)能够对大约3000万篇论文和3亿条引用数据进行分析,并在瞬间得出分析结果。该项大数据分析技术整合了科研论文、引用信息、专利和其他的独特内容集合,对科研机构的绩效进行分析,并为学术机构的领导人提供决策服务。励得·爱思唯尔集团首席战略官白可珊认为:“未来专业出版的方向就是整合我们的优质内容,将这些内容数字化,然后通过技术进行分析,为专业人士提供解决方案和重要见解。” 诚然,励得·爱思唯尔集团的业务已经成功地从以纸质出版为主转型为以数字出版为主,其不仅拥有出版的核心内容,也拥有绝大多数出版社所缺少的技术。
大数据分析既给我们带来了挑战,也带来了希望,尽管多数出版商与科技公司比起来“技”不如人,但是出版商作为内容把关人这一地位依然稳固。通过数据分析,我们有可能发现新的规律、创造新的价值。一般来说,把决策建立在数据分析的基础上,通过量化分析而不是仅凭直觉和经验,将使决策更为科学。当然,大数据自身还存在信息安全性、隐私暴露等问题,大数据分析高度依赖于用户的规模和技术,这对于出版企业来说,都是相对欠缺的。由于技术的短板,国内的出版企业要凭自身实力获得完整的大数据目前来说还存在一些困难。大数据还需要一个高效的存储平台来实现数据的可视化、预测分析等,而出版社目前主要是依赖互联网技术企业提供数据分析的平台,很难建立自己的平台。随着时间的推移,对爆炸型增长的数据量想要实现精准的分析,还需要硬件设施的不断更新和分析技术的更加成熟,没有进行有效分析的数据可以说是无序的,无用的。目前大数据技术还处于起步阶段,无论是软件技术、硬件技术都还不完善,但是大数据分析的未来前景广阔。因此,出版企业要想利用好大数据,就必须仔细分析、认真应对,找准大数据应用的切入点,从而实现大数据分析对出版活动的指导作用。
[1]维克托·迈尔-舍恩伯格, 肯尼思·库克.大数据时代[M]. 浙江:浙江人民出版社, 2013:5.
[2] 张春磊,杨小牛.大数据分析(BDA)及其在情报领域的应用[J]. 中国电子科学研究院学报,2013(2):18-22.
[3] 彦飞. Hiptype:让出版商更懂读者的大数据分析工具[EB/OL]. http://tech.sina.com.cn/i/csj/2012-08-07/10177476268.shtml, 2012-08-07/2014-06-09 .
[4]秦雯.大数据提升数字出版运营效率[EB/OL]. http://cbfx.chuban.cc/jt/rdjj/2012wznh/zlt/201212/t20121208_133637.html, 2012-12-08/2014-06-09.
[5] 刘鲲翔,杜丽娟,丁雪.大数据技术在数字出版中的应用前景展望[J]. 出版发行研究, 2013(4):9-11.
[6] 繁星.“大数据”思维影响图书出版[N]. 社科新书目,2014-03-31.
[7] 孙玉玲.大数据时代数字出版产业的发展趋势[J]. 出版发行研究, 2013(4):5-8.
[8] Coliloquy:读者和作者互动 换个方式讲故事[EB/OL]. http://www.techweb.com.cn/news/2012-01-19/1143543.shtml, 2012-01-19/2014-06-09.
[9] 白可珊. 爱思唯尔未来十年转型新方向 开发数字决策工具[N]. 中国出版传媒商报, 2014-09-01.
(作者单位:江苏凤凰教育出版社, 南京大学信息管理学院)