◎文/戴颖
图书在版编目(Cataloguing in Publication,简称CIP)数据是在图书出版过程中编制,并印制在图书上的书目数据。我国的CIP数据由中国版本图书馆集中编制发放。经过20年的推广和积累,CIP数据已经形成一个数量庞大的书目数据库,是当前大数据时代浪潮下一项难得的书目数据资源。除了作为出版物重要标识之一,CIP数据在研究领域也有很大的发挥空间。本文通过CIP数据与其他书目数据的比较,总结CIP数据的特点和优势,并探讨如何进一步发挥其在出版研究领域的重要价值。
申报CIP数据是出版流程中的必备环节。全国近600家出版社的绝大部分图书出版物在出版前都必须向中国版本图书馆申报CIP数据。这决定了CIP能够取得最新、最全面的图书出版信息,并在此基础上加工生成书目数据信息。
按照出版流程,出版社在申领书号后,临出版前才能申报CIP数据。申报时需填报图书的“书名与责任者项”“版本及出版项”“载体形态项”“丛书项”“其它附注内容项”“标准书号项”“内容提要项”等7大项内容。制作完成的CIP数据返回后,出版单位还要对数据内容进行检查核实,如果数据内容有变动,需提出修订申请。这样的流程决定了CIP数据的信息来源真实可信,并且有相当高的准确度。
CIP数据的制作主要包括图书信息著录和文献标引两方面内容。图书信息著录是按一定的著录规则规范图书信息的过程。文献标引是通过对文献的分析、描述,将文献的内容特征和某些外表特征转换成特定的文献标识的文献处理工程。文献标引的过程,是基于图书内容的主题分析过程。文献标引依据的叙词表和分类法,是依据信息资源内容特征和客观知识来进行逻辑组织的信息资源组织工具。标引结果生成的文献标识——主题词和分类号,是CIP数据最重要的内容组成。因此,CIP数据是与图书内容高度相关,且能客观系统反映图书内容的书目数据。
上述特征决定了CIP数据是一种可以深入加工利用的书目数据资源。通过和其他几种相似数据资源的对比,CIP数据作为各类研究数据源的优势显而易见。
图书出版前需通过书号实名申领系统向ISBN中心申请书号及对应条码。该系统在书名、责任者等关键信息上的填报要求和CIP数据的书源管理系统大致相同,且同样要求出版社填报的信息完整、真实、准确。因此书号数据在及时、全面、真实、准确性上和CIP数据大致相当。
但是CIP数据与图书内容的相关性比书号数据要完整科学。在图书内容表达上有很高的专业度,更加适用于研究工作。
以开卷公司“标准书目网”的书目数据为例。开卷公司是国内图书产业市场信息和咨询服务第一提供商,建立了全球最大规模的中文图书市场零售数据连续跟踪监测系统。其书目数据来源于全国3400多家实体书店、250多家电商销售平台及近200家网络书店。
与开卷书目数据相比,CIP数据来自图书出版前,在时间上更超前。这是书店数据无法超越的优势。CIP数据信息来自于出版社填报,而开卷数据来源于成书,所以在信息准确性上CIP数据稍弱。但对于跟内容相关的项目,开卷书目数据的图书分类大致只相当于中图法二级目录的程度,相比之下CIP数据的分类号和主题词要更加详细专业。
以国家图书馆书目数据为例。作为一种用CNMARC(中国机读目录)格式编制的馆藏书目数据,其专业性和CIP数据相当。但其收录书目范围仅限于馆藏,显然没有CIP数据广。且在书目时间性上,没有CIP数据超前。相比之下,国图数据更加方便于图书馆行业内的各种研究,在出版领域,CIP数据因其数据的及时、全面而更有优势。
当前CIP数据的价值更多地体现在是一种重要的出版物标识,而其在研究领域的利用价值尚未得到充分挖掘。由于本身处于出版流程的一环,又兼具上述特点及优势,CIP数据非常适合作为出版研究的数据源。以下列举的研究方向及分析方法,均为适合CIP数据发挥价值的课题。
CIP数据共有约40项字段内容,其中既有对图书识别特征进行客观描述的著录项目,如书名、作者、版次、出版者、丛书、附注内容、开本、定价、标准书号等,又有可成为检索途径的图书内容主题检索点,即主题词和分类号。其内容的丰富性特别适用于从各种角度进行出版市场全局分析。例如,我们在对某年的出版情况作全局分析时,就可以从以下这几个角度来展开:
出版规模角度:基于CIP数据得到当年的图书出版总量,并和往年同期数据作对比,以此分析出版规模的变化及其原因。
图书内容构成角度:基于CIP数据的图书分类考察当年图书出版内容构成。可以按研究需求考察政治、经济、哲学、文教、文艺、自然科学等大板块内容的构成情况,也可进一步细分各板块内容构成,同时均可跟往年同期数据作对比分析。
出版单位角度:按地区统计分析各省、市、地区当年的总体表现;按出版社统计分析各社当年的总体表现。并可跟板块内容构成相结合,分析各地(或各社)在各板块内容的表现。还可作进一步的横向纵向对比研究。
专题出版研究是与图书内容相关的统计分析研究。首先需要筛选出相关的书目数据。CIP数据的主题词和分类号是经过内容主题分析的结果,是自成体系的客观科学的检索语言,非常有利于进行书目数据筛选。
以基于CIP数据的2018年上半年“中国优秀传统文化”主题出版分析为例。该专题内涵非常丰富,涉及历史地理、文学艺术、自然科学等多个知识门类。按常规办法,可以选定一些关键词对书名、丛书名、内容提要等字段进行检索来选取数据。如果只选定“传统文化”“中华文化”等笼统的关键词,从总数约14万的数据中只能筛选出不到600条数据。此结果和该主题实际出版情况相距甚远。如果按学科门类分别选取关键词,需要几十个关键词才能全面表达主题,工作量非常大。而利用CIP数据的分类号为主线进行筛选,根据主题内容,重点考察B(哲学)、D(政治)、I(文学)、J(艺术)、K(历史)等8个大类下相关的类目,再辅以书名等项的关键词检索,最后得到5500余条数据。这一结果全面准确,具有可信的研究价值。
预测与建议是出版研究的落脚点,对出版行业来说具有更加实际的意义。基于上面所作的全局分析及专题出版研究,都可以给出有针对性的出版方向建议。比如运用全局分析对总体出版规模和局部出版量的统计,图书内容构成的变化等分析结果,给出出版大方向的建议。又比如在“中国优秀传统文化”这一专题出版领域,根据细化分析结果可以向出版单位建议,哪些门类的内容已经呈饱和状态,而哪些门类涉足尚浅,可以深入发挥。鉴于CIP数据的权威性和科学性,此类建议对出版单位来说是很有实际操作价值的。
当前,在版编目数据作为一种优质的书目数据资源这一认知尚未得到业界足够的关注。关于如何进一步发挥其价值,开展综合研究和利用是一个有很大发挥空间的课题。作为一种用文献编目学科知识制作而成的数据,如何在出版业发挥其价值,这也是一个学科融合、行业融合的课题。本文探讨的只是一个点,希望能够带来更多更深层次的思考。