《全国新书目》杂志有限责任公司 发挥出版数据资源禀赋 打造全产业链多元精准服务

2025-02-21 00:00:00何思源
全国新书目 2025年1期
关键词:书目选题图书

出版,凝结着人类的思想和智慧,集聚了人类的发明创造和社会实践活动的经验与成果,反映了社会生活的各个侧面。“一部出版史,实际上也就是一部人类的文明史。”随着科技的飞速发展,以互联网为核心的新一轮科技和产业革命蓬勃兴起,不断给人们的生产方式和生活方式带来革命性变化,出版行业自然也面临了前所未有的变革与挑战。如何才能更好地应对数据流量的爆炸式增长?如何在未来的竞争中赢得主动权?怎样才能让数据说话从而延伸价值链?这意味着出版行业必须更好地利用大数据为客户提供服务、降低成本、提高效率,并对目前已经积累下来的大数据以更加智能的方法加以利用,为行业的更大发展奠定坚实基础。

《全国新书目》杂志有限责任公司(以下简称“新书目公司”)是中国国家版本馆全资设立的国有企业,虽创立于2012年,却萌芽于1951年创刊的《全国新书目》杂志。2019年以后,按照馆领导的指示,新书目公司进行了战略转型,依托中国国家版本馆的海量出版数据资源,建设版本资源大数据生态服务体系,秉承合作共赢理念,通过与出版单位、图书馆、科研院所合作,致力于发展成为国内外出版行业综合性的大数据服务提供者。在采访中,新书目公司副总经理马驰分享了新书目公司在出版物数据资源方面具有的突出优势,在出版大数据应用的探索和实践中对长期存在的痛点进行的总结和思考,新书目公司针对出版行业核心诉求开发的服务平台和多元化产品矩阵,以及未来新书目公司的重点发展方向。

《全国新书目》:对于新书目公司,很多行业同人的第一印象可能是《全国新书目》和《中国新书(英文)》两本杂志的承办单位。2019年之后,新书目公司进行了战略转型,作为技术和产品业务线的主要负责人,想请您具体介绍一下新书目公司的转型方向和目前的发展情况。

马驰:新书目公司的战略转型立足于中国国家版本馆丰富的数据资源,特别是出版物数据资源,以构建出版大数据生态体系作为主营战略方向。目前,我们已经形成了数据销售、数据平台运营、软件产品研发、文创开发等多元化的经营服务模式。

《全国新书目》:在出版物数据资源方面,新书目公司具有哪些突出的优势呢?

马驰:我们依托国家版本数据中心独有的出版物标识数据资源,整合图书出版产业链上下游的数据资源,涵盖了图书在版编目(CIP)、中国国家版本馆馆藏、市场销量、图书馆借阅量、获奖信息、作者库、编辑库、封面信息等数据,覆盖了图书出版上下游的产业链。

我们的核心是全国全量的书目数据,主要分为四个方面:一是书号数据,包括2009年以来图书和音像电子出版书号的申报信息,共计630多万条,涵盖图书信息、编辑信息、作者信息、印刷信息等字段项,字段信息非常完备,数据覆盖特别全面,对印刷、版权等领域的同人来说具有较高的分析意义。二是CIP数据,涵盖2000年以来全品类图书的印前信息,包括图书基本信息、作者信息、印刷信息等,同样共计630多万条,其中中图分类、主题词和内容提要由专业人员进行审核修订,具有完善的数据更新修改机制。这项数据也是我国行业内全量图书信息获取的重要来源。三是中国国家版本馆馆藏编目数据,这是1949年至今根据出版物实物样本采集的著录信息,类型包括图书、期刊、报纸、音像制品、电子出版物、连环画等,共计970多万条,是新中国出版物样本信息的完整描述。四是融合书目库,这个数据库融合了各数据库中有价值、有特色的字段信息,同时在一定程度上解决了印前部分字段不准、馆藏信息延迟等问题,目前我们提供的数据服务和打造的数据平台主要是基于融合书目库开展建设的。

同时,我们组织数据团队不断开发特色专题数据库。比如作者库,通过机器自动比对和人工标引判定相结合的方式,目前已经积累了150多万条作者信息,形成了建国以来较为完善的作者库和作者出版库;还有超过13万条信息的编辑库,以及包括34类奖项、基金、重点规划数据的图书出版单位社会效益数据库等等。

《全国新书目》:除了依托国家版本数据中心的独有出版物数据资源之外,新书目公司还拥有哪些外部优势资源?

马驰:新书目公司一直在积极与各方展开合作,投入大量成本开展各种特色数据库的建设。比如在销量数据方面,我们与天猫、江苏新华、内蒙古新华、广州新华等达成了战略合作,其他新华集团、电商等销量信息我们也在持续地对接中,目前采集到的销量数据约占行业总规模的1/2,对于行业统计分析来说非常具有参考价值。再如,我们与一些公共图书馆、互联网网借平台合作,获取了大量图书借阅数据,在图书推荐、书单等产品中已经进行了应用。此外,我们与电商平台展开深入合作,获取了图书的封面图片、链接、编辑推荐、内容简介、作者简介、目录信息等信息,极大丰富了我们图书的信息资源。

《全国新书目》:在对出版大数据应用的探索和实践中,从您的角度来看,发现了哪些行业内长期存在的、希望能引发行业同人关注和思考的问题?

马驰:在多年的工作和研究过程中我们确实积累了一些经验,对大数据和人工智能在出版行业的应用也有了一些认识,很乐于跟大家交流分享,如果有不对的地方也请大家批评指正。

首先是数据方面。一是目前数据的来源相当复杂,中国国家版本馆书目数据、销售数据、读者数据、图书馆阅数据、电商宣传数据等数量众多,相互割裂,数据结合的难度较大;二是数据规范不统一,从选题申报、销售宣传到入藏阅读,没有相应的贯穿全环节的标准规范;三是数据质量控制不佳,各渠道的数据质量参差不齐,对数据融合、统计和分析造成了一定阻碍;四是数据合作渠道不畅,作者、编辑、发行、销售、图书馆手握分散的出版相关数据资源,区域壁垒难以打破;五是对数据的保护措施不完善,关于数据权属确定、数据权利利用、数据内容和数据库的著作权保护等方面的政策仍需进一步完善。

其次是选题方面。我们认为对选题的论证应该兼具专业性、社会效益考量和数据支撑,但现实情况是出版单位经常以销量数据和社会热点话题作为选题的重要参考,这样做容易导致同质化严重,背离了知识传播的初衷,我们更应该从出版数据中寻找可以另辟蹊径的选题方向。

再次是发行方面。目前对于起印量的数据支撑不足,没有来自读者的数据作为参考,而且发行渠道很多,随之而来的是店铺上架工作量大。同时,新书推广依赖网红博主、私域流量、短视频营销等,成本较高。

《全国新书目》:针对这些行业的长期痛点,新书目公司开展了哪些工作呢?

马驰:为了更好地提供书目服务、图书推荐、出版资讯、选题服务以及行业服务等,我们建设了国家版本数据中心平台(以下简称“PDC平台”)和全国新书目平台。它们的底层数据来源于中国国家版本馆的业务系统,还有电商、零售、图书馆以及互联网信息,通过出版大数据管理平台进行统一采集、分类、清洗、融合,形成了具有特色的图书评级、出版热点、作者库、书目库等专题数据库。

其中,PDC平台是国家新闻出版署出版物查询官方网站,由新书目公司负责运营,融合对接出版发行产业链上下游数据近7亿条,为社会各界提供面向社会开放公益检索的数据总量超过3000万条,并且基于多维度的图书出版发行产业链上下游数据资源,面向不同的用户群体打造了选题策划、机构竞争力分析、知识热点分析等多款产品服务。目前拥有个人注册用户120余万,机构用户1000余家,日均点击量10余万次,

全国新书目平台则是以更加灵活的方式,整合行业资讯、新书发布、图书检索、智能荐书等功能的综合性服务平台,目前是很多图书馆、书店,以及图书出版相关单位的常用工具型网站。

它的主要功能包括以下几个方面:

一是面向出版单位和科研院所的社会关注服务和选题发现服务,主要是通过对数据的深入分析挖掘,分析出版热点,为编辑或科研人员提供一些选题灵感和思路。

二是面向出版单位的选题策划服务。这款产品能够从定价分布、开本分布、装帧分布等设计元素角度,出版社销量、渠道销量分布、书龄销量分布等市场集中度角度,渠道规模、TOP样本、选题趋势、中图分类、市场分类等市场规模角度,进行深度分析,并结合销量、作者、全量出版信息这些维度,为编辑人员提供选题分析和选题报告服务;同时,产品会利用平台的数据优势,对同类产品的预估首印量、申报首印量等情况进行分析。

三是面向出版单位的机构竞争力分析,从图书基本信息对比、图书销售情况对比、图书排行情况对比等出版图书的竞争力,销售情况对比、销售渠道对比等对标竞争对手的竞争力,CIP申请总量对比、CIP月申请总量对比、图书月销售总量对比等在特定图书分类下的竞争力等多个维度出发,为出版单位提效增质提供有力的数据依据。

除了这些重点打造的产品,我们拥有的丰富出版数据资源还可以支撑正版图书信息校验、作者溯源、行业数据报告等服务。比如,电商平台的商家在上线图书的同时,电商平台会同时来我们平台获取一条数据信息,与商家上传的信息进行比对,来保证图书信息的准确性。

《全国新书目》:除了面向出版单位以外,出版数据资源还有哪些应用方向?作为读者的话,在PDC平台和全国新书目平台能够获得哪些服务?

马驰:在阅读方面,我们的感受是目前学科类图书的推荐依据比较少,不少优质图书被埋没了,还有就是当没有特定需求时,图书数量太多,对于普通读者来说选书比较困难。为此,我们打造了面向公众的智慧图书推荐服务,基于我们图书信息维度丰富的优势,针对年龄、性别、学历层次、职业、地理位置等多种多样的属性,一方面基于高质量数据集的聚类分析为公众提供模糊需求的发散推荐,另一方面基于专业出版语料库的大模型训练,为公众提供智能的精准推荐。未来在这个产品的发展方向上,我们会继续探索利用人工智能语义理解和分析能力,满足读者更加精准的图书推荐需求。

同时,新书目公司面向特定用户提供定制化书单服务。我们有专门的专业编辑,每周会根据社会热点、重要事件等内容发布特色书单,在“全国新书目”公众号和全国新书目平台上进行发布;在将机器根据图书主题、作者情况、销量情况、读者反馈、获奖情况、借阅情况等维度智能推荐的书单提供给图书馆、高校科研院所、政府机关等专业机构时,也会由专业编辑对这些书单进行审核和把关。

我们还为图书馆(馆配商)打造了智慧采选产品,综合图书销量、获奖情况、借阅情况、读者推荐、馆藏情况等因素,再加上采购预算、来源渠道、采购偏好等特色维度,根据各个图书馆的需求一键生成优质采购书单,希望能在深刻理解读者阅读需求、深入挖掘背后潜在逻辑关系的基础上,帮助图书馆用有限的经费购买读者急需的书。

《全国新书目》:未来新书目公司还有哪些重点发展方向?

马驰:我们一方面要利用我们的数据资源优势助力AI应用,另一方面要拥抱AI,利用好AI技术。其中,助力AI主要是针对AI存在的可靠性、严谨性和安全性等问题。目前行业中普遍采用的是数据增强或者检索增强(RAG)方法,用来提高AI生成内容的质量和准确性。我们积累的大数据资源是非常优质的语料,可以作为AI训练语料库和AI内容生成的知识库,进一步提升大模型内容生成的准确性。利用AI指的是利用AI技术对我们现有的产品进行优化改造,如选题发现、选题策划、图书推荐等,借助AI的认知理解能力、灵活交互的特性,综合考量多维度因素,极大地提升数据推荐、统计分析的便捷化、个性化、再优化能力。

未来,希望我们能够更加充分地挖掘国家版本数据资源的价值,充分利用出版物大数据,做更多的探索和实践,为包括出版行业在内的各个行业赋能。

猜你喜欢
书目选题图书
推荐书目《初春之城》
都市人(2022年3期)2022-04-27 00:44:57
图书推荐
南风(2020年22期)2020-09-15 07:47:08
本刊诚征“独唱团”选题
时代邮刊(2019年24期)2019-12-17 11:49:30
谈诗词的选题
中华诗词(2019年1期)2019-08-23 08:24:24
本刊诚征“独唱团”选题
时代邮刊(2019年16期)2019-07-30 08:02:06
本刊诚征“独唱团”选题
时代邮刊(2019年18期)2019-07-29 08:49:12
欢迎来到图书借阅角
班里有个图书角
本刊邮购书目
《全国新书目》2009年1月荐书榜
全国新书目(2009年1期)2009-04-13 06:58:24