◎文/刘成勇 中国版本图书馆馆长、中央宣传部出版物数据中心主任
印刻着中华文明发展流变的版本以其厚重文化特性及丰富资源属性,历来被我国官方所重视。中国版本图书馆作为新中国成立次年即组建的专司出版物版本征集、典藏、管理的国家机构,数十年来,一以贯之地忠实履行以出版物版本为核心的国家版本资源的整理、发掘、抢救、保护职责,截至2018年底,实物版本资源已达740万种、约1000万册(件),为延续中华文脉、传承中华文明作出了重要贡献。
2018年,伴随党的十九大深化党和国家机构改革东风,中国版本图书馆转隶中央宣传部,副牌更名为“中央宣传部出版物数据中心”。在坚定文化自信建设社会主义文化强国的时代背景和大数据成为国家级发展战略创新变革社会各业的技术背景下,打造社会效益与经济效益“双效俱佳”的国家级权威出版物数据中心亟待破题。
把握政策利好 靶向行业痛点
2015年9月,国务院印发的《促进大数据发展行动纲要》系统部署了我国大数据发展工作,大数据正式成为国家级的发展战略。几年来,大数据从理论研究进入实际应用,从全面总体的指导规划逐步向各大行业、细分领域延伸,公安部、教育部等部委相继出台了关于大数据的发展意见和方案,大数据也日益成为加速融合发展的出版产业参与市场竞争的基础资源与关键要素。产业政策层面,《新闻出版业“十三五”科技发展规划》明确指出,新闻出版业正在成为与科技深度融合发展的关键领域;提出要在“十三五”时期,鼓励开展行业数据深度挖掘,探索建立行业信息数据管理服务平台,搭建覆盖面广、跨产品形态、贯穿产业链的基础数据共享平台。
政策利好背后映衬的是不容乐观的出版产业大数据应用现实状况。从近年国家新闻出版署发布的新闻出版产业分析数据来看,出版业库存暴涨、生产周期长、市场反应迟缓、产能过剩,供需不匹配一定程度上制约着行业的高质量发展。其问题种种,与出版业的大数据建设和应用方面存在诸多薄弱环节相关。
当前,出版行业数据分散在不同市场主体手中,导致主管部门与出版行业主体之间、产业链上下游主体之间信息不畅,信息系统缺乏互联互通,产业链数据尚不能真正融合汇聚、高效共享,强强联合、共享协同差距甚远。从广义上的出版大数据角度看,出版大数据的相关主体尚未厘清角色定位和利益共同点,数据合作模式不清晰,在一定程度上制约了出版大数据资源的开放创新、共享利用和可持续发展。
目前,政府部门对行业的监管手段较落后,对相关统计数据的深度挖掘不够,对管理人员自身经验依赖较大,主观因素偏多;出版单位选题及营销策划、图书馆馆配规划等关键决策虽普遍采用第三方数据支撑,但由于采集的多是与经济效益相关的市场数据,产业链数据不全,统计分析客观性不强,难以实现决策的科学性。各行业领域对出版大数据的应用还处在初级阶段,大量有价值的信息没有得到及时、有效地挖掘和深度开发利用,出版大数据对行业的驱动力明显不足。
出版机构、发行商、图书馆、科研院所、馆配商、数据服务商、电商平台等不同主体占据各自领域优势,手握分散的出版相关数据资源,呈“割据”状态,区域或体制壁垒难以打破。不同主体建设的数据服务平台存在各自的局限性,出版大数据资源无法盘活,整合优势、互利共赢的数据合作模式尚未有成功案例。这不仅造成重复建设和资源浪费,更在一定程度上造成了各方互不信任的困境,已成为制约行业高质量发展的主要瓶颈。
一个基本行业共识是:要从根本上扭转上述痼疾,必须以大数据应用驱动出版业供给侧改革,推动出版产业转型升级,构建行业级、权威可信的出版大数据服务平台。在这一历史进程,中国版本图书馆肩负的出版物数据中心责无旁贷、不可缺位,必须充分发挥独有资源禀赋,抓紧进行以出版物为核心的数字版本资源建设应用,使其与达千万册级别的海量实物版本资源相互呼应、互为补益,既是推动社会主义文化大发展大繁荣的使命所系,也是顺应大数据发展浪潮的应势之举。
版本资源禀赋突出 数据职能不断加强
从信息化建设视角观察,中国版本图书馆出版物数据职能建设发展历经了肇始萌芽期(1950~1992)、积累生发期(1993~2009)、提速发展期(2010~2019)三个阶段,而“三个日趋”主线始终贯穿全程:69年来,中国版本图书馆保藏版本实物资源日趋丰富、数据职能建设手段日趋多样、数字资源建设成果日趋丰厚,成为打造国家级权威出版物数据中心的深厚基础和独有优势。
上世纪50年代,我国出版物数据编制的职能开始向中国版本图书馆集中。1951年8月,《全国新书目》创刊,最初由出版总署图书期刊司编印,10月,《全国新书目》改由出版总署图书馆编辑出版。1956年3月,《全国总书目》出版发行,最初由新华书店总店编辑,1957年12月,《全国总书目》改由版本图书馆编辑。1958年1月,版本图书馆开始编印资料,汇集各类专题目录,全国图书、报纸、期刊出版情况,图书分类统计等,从当时情况看,出版物数据编制和统计职能已成为版本图书馆的一项重要职能和重要业务。
1958年,为了科学管理馆藏出版物,中国版本图书馆进行了两项重大革新:一是对新到样本采用登录号排架;二是对手工填写的“馆藏书目名录(卡片式)改为油印誊写,同时印制多套目录,包括书名目录、分类目录、著者目录、出版者目录、翻译书目录等,从不同角度反映馆藏图书情况,这一办法沿用了40多年。
这一时期,中国版本图书馆在出版物数据职能开发方面进行了两大探索:一是提供书目资政服务。
1958年1月,文化部出版事业管理局将图书、期刊、报纸出版统计报表职能划归版本图书馆。版本图书馆开始编印《图书简报》《出版资料》等内部参考资料,为出版行政管理部门等单位提供出版统计资料。1958年—1989年,先后向文化部、外交部、国家出版事业管理局等部门提供《1957年中央直属报纸、杂志、图书出版统计》《苏联书籍出版统计》《我国翻译出版罗马尼亚图书书目》等资料500余份。二是出版版本资料。
从20世纪70年代起,中国版本图书馆充分利用馆藏资源优势,整理编纂了大量珍贵的版本资料,为传承文化、保护典籍、惠泽后人作出了不凡贡献。1977年,版本图书馆编纂的《鲁迅思想研究资料》出版,1980年先后编纂了《全国少年儿童图书综录(1949—1979)》《古籍目录(1949.10—1976.12)》《1949—1979翻译出版外国古典文学著作目录》等高质量版本资料集。20世纪90年代以来,版本图书馆参与编辑的《中国藏学书目(1949—1991)》《中国藏学书目续编(1992—1995)》和《中国藏学书目三编(1996—2000)》由外文出版社出版。20世纪90年代以来,中国版本图书馆持续加强信息技术力量,有序推进项目建设,先后建成了CIP信息系统、书号实名申领系统、馆藏样本编目系统等,促进了行业信息的共建共享,提升了行业的信息化水平。20世纪90年代初开始组织实施图书在版编目(CIP)国家标准;2000年,图书在版编目(CIP)国家标准实施已覆盖全国所有570余家出版社;图书在版编目(CIP)工作模式从“手工操作”发展到“网络编目”,图书在版编目系统经过三次升级改造后,安全性、稳定性和可扩展性得到了有效提升,数据制作周期从10至15天缩短为1至3天,年核发量达32万条。
2009年1月8日,书号实名申领全面推开,全国579家图书出版单位全部实现通过互联网进入书号实名申领信息系统,进行申领书号、条码的工作。同年5月,图书、音像制品、电子出版物和期刊等出版物的条码制作、发放方式也实现了网络化。
于2008年开始实施的样本资源抢救工程极大提高了馆藏资源的数字化率;实施典藏品资产管理项目,对全部征缴到馆的出版物样本进行资产清理整理登记管理,有效探索了出版物样本管理的方式和工作流程;对征集到馆的175万页图书样本启动数字化扫描工作,使传统的依图书实物编目方式开始逐步向“依图编目”方式转变,从而优化了征集藏管工作的业务流程,提高了数据采集、数据制作速度,提高了样本的安全性和数据的时效性。
除了实物资源,版本图书馆的版本数据资源也在不断优化升级。2008年开始,中国版本图书馆实施了“馆藏出版物样本抢救项目”,数字化转存濒危馆藏出版物样本。该项目累计完成了13万多张宣传画、200多万页连环画、3万多小时音像制品和电子出版物样本及期刊等其他馆藏的数字化转存工作,为馆藏版本的安全保管和数字化转型打下了坚实的基础,也为馆藏出版物的开发利用积累了丰富的资源。
经过近70年的发展,中国版本图书馆已成为我国规模最大、最为完整的新中国版本资源库,保藏图书、报纸、期刊、音像及电子出版物、卷轴、碑帖、拓片、图片、地图、教学挂图、技术标准、盲人读物、挂历、年历、明信片、乐谱、歌片、影印古籍等实体馆藏21类、740 万种、1000万册,其中老宣传画13万种,文物级资源近20万种。
图1 中国版本图书馆1949年—2018年馆藏量趋势图
在海量实物版本资源的基础上,自2010年起,中国版本图书馆数据资源建设迈入快速发展期,当年5月,国家新闻出版总署调整直属单位机构,中国版本图书馆加挂条码中心牌子,原条码中心的书号核发、条码制作等职能划入中国版本图书馆。2017年,中国版本图书馆试点发放网络文学作品标识。2018年中国版本图书馆上线出版社年检数据系统。中国版本图书馆出版物数据方面的职能进一步增强,数据业务涵盖书号核发、条码制作、图书在版编目、网络文学作品标识推广等,形成了一个从印前信息一直到样书管理的完整的工作链和数据链。
自此,中国版本图书馆形成了行业权威、业界独有的五大核心数据资源库——书号实名申领数据库、图书在版编目CIP数据库、馆藏出版物样本数据库、网络文学作品标识数据库和出版社年检数据库。其中目录型数据总计1224.5万条,包括国际标准书号(ISBN)数据244.9万条,图书在版编目(ISBN)数据389.1万条和中国机读目录(CNMARC)数据590.5万条。
中国版本图书馆数据特色鲜明。一是数据品种丰富。从出版物数据类型看,中国版本图书馆对图书、音像、电子出版物、网络文学作品等出版物生产前后多个时点数据进行采集、加工、处理、标引和管理,形成了各具特色的五大数据。二是数据内容多。书号实名申领、图书在版编目数据(CIP)、馆藏出版物样本数据都包含有众多的字段,内容丰富,各有所长。比如图书在版编目数据(CIP)包含52个字段。而书号实名申领、馆藏出版物样本数据较图书在版编目数据(CIP)更为丰富。三是数据关联度强。从样本实物与数据关联看,构建了出版物各类元数据、元数据与实物样本等不同层次的关联关系。四是数据应用广。除向管理部门提供分析报告、扫黄打非和文化执法数据服务外,还应用到出版社选题服务、出版社数据资源建设、图书馆馆藏资源建设等实际工作中。
与此同时,近年来中国版本图书馆立足于五大数据库资源优势,积极开发数据资源,拓展数据服务对象,创新数据服务方式,逐步探索出了一套以政府为依托、以公益为目的、以市场为导向、产学研相结合的出版物数据服务体系。从用户对象来看,持续为北京、上海、新疆等“扫黄打非”一线地区,全国“扫黄办”等文化市场监管和执法部门提供数据查询接口以及指挥系统集成的相关的技术支持;为人民出版社、人民美术出版等出版机构提供书目数据检索、筛选、分析、数字统计、图书数字化转存以及定期数据产品的更新增量服务;为中文在线教育科技发展有限公司、同方知网(北京)技术有限公司、中国国际图书贸易集团有限公司、浙江手机阅读基地、中国高等教育文献保障系统管理中心(CALIS中心)等提供多元化的数据信息产品及服务。从服务方式看,除却按年度以每周为更新周期提供数据信息产品,还加强对出版物数据服务用户的行为、数据用途及需求的分析,提供一次或多次数据定制服务。成功案例包括同同方知网(北京)技术有限公司合作整合出版物信息资源,为终端用户提供知识服务;为国家图书馆提供馆配、联机编目等业务系统的铺底数据;为延安干部管理学院提供相关主题的数据研究分析报告,辅助其开展教学、宣传、展示工作。
构建五大分数据中心 打造智慧数据服务体系
围绕建设国家级权威出版物数据中心这一愿景,以促进出版业供给侧结构性改革、推动出版业高质量发展为目标,中国版本图书馆将本着“从顶层设计、从源头做起,从标准入手”的方针,在内部数据职能建设层面,构建全国出版物标识中心、全国出版物编目中心等五大分数据中心;在用户服务层面,以党和国家管理部门、出版单位、图书馆、馆配发行及数据服务提供商、电商平台、科研院所及知识服务商、社会公众等七类用户为服务对象,打造一体联动的智慧数据服务体系。
全国出版物标识中心
将重点推进ISBN、CN、ISSN、期刊条码的统一管理;拓展标识业务范围,构建标识符关联关系;加强网络文学作品标识工作,实现作品信息、作者信息、权属信息等内容全流程规范管理。全国出版物编目中心
将以出版物元数据资源为牵引和支撑,打通出版产业上下游数据链,融汇聚合多维度数据资源。全国出版物数字资源中心
将以数据建设和平台开发为抓手,完善数字资源的采集、整理、保存、展示工作;以样本资源抢救工程等项目为依托,逐步实现馆藏样本的数字化。全国出版物数据展示发布中心
重在建立基于海量版本内容的分级分类体系和相关标准,完成知识资源规划,以此为依托进行版本知识内容建设和展览展示设计制作,组织实施版本的对外宣传与展示。全国出版物数据管理中心
意在加强对出版物数据管理的顶层设计和统筹布局,发挥数据对出版管理的重要作用,加大选题监控力度,加强数字出版管理、电子出版物和数字版本征缴、总分馆业务管理,为管理决策提供更加科学的依据,不断满足新时代出版管理的要求。面向党和国家管理部门,
出版物数据中心提供重点选题跟踪分析、出版热点分析、违规出版物检测与预警、知识产权侵权溯源,出版舆情监控等出版宏观调控与监管辅助决策服务;提供干部学习读物个性化推荐、阅读数据分析、跟踪评价等终身阅读与管理服务,推动建设基于大数据的学习型组织。面向出版单位,
出版物数据中心将提供选题、立项决策支持;提供珍贵老版本和遗失版本的复制服务;提供馆藏数据,实现定制化历史数据检索和出版物资产盘点;通过对图书市场全局、图书馆馆藏数据、印刷周期的分析,汇集跟踪用户信息及行为大数据,为图书定价、印数决策、营销决策提供支撑。面向海外机构提供出版物元数据,为出版单位“走出去”搭建信息交换平台。面向图书馆,
出版物数据中心将提供全年书目数据,实现对馆配商的信用评价,为图书馆招标采购决策提供数据支撑;为文献采访、文献编目提供基础数据支撑;基于及时全面的CIP数据及馆配数据,通过各领域图书品种数量及占比、各出版社年度新书占比、图书馆馆藏市场排名等统计分析数据,提供图书馆馆配规划辅助决策服务;通过出版物标识数据库与图书馆馆藏数据进行匹配,指导图书馆补藏工作;基于图书在版编目全集数据,按学科方向、图书分布、作者评价等数据进行数据分析,为图书馆馆藏图书质量评估提供客观评价依据。面向电商平台,
出版物数据中心将依托CIP数据为电商平台提供查询统计服务;违规出版物检测与预警、知识产权侵权溯源等服务,帮助电商平台进行图书合规性、合法性监控;提供出版单位全面、及时的新书信息和索引服务;以及通过对市场动态信息的分析,辅助电商平台了解图书热点、产业动态、把握政策导向,为采购图书提供支撑。面向科研院所及知识服务提供商,
出版物数据中心提供完整、准确的专业学科方向的书目索引服务;通过建立作者库、机构库提供文献关联分析、研究和文献互动传播服务;通过权威、完整的CIP数据与论文参考文献数据的关联分析比对,提供学术不端查询服务。面向社会公众,
出版物数据中心将提供数字化、网络化、虚拟化的藏品信息展示和体验服务;利用图书版本资源长期保存成果,开展珍贵散佚版本再版、再开发工作;推荐历史珍贵图书或当代精品图书;提供个性化终身阅读推荐服务。七秩芳华,奋斗始终。在习近平新时代中国特色社会主义思想伟大旗帜指引下,中国版本图书馆将坚定文化自信、增强文化自觉,坚持正本清源、守正创新,全面落实国家大数据战略,加快信息化发展,着力打造政府主导、权威可信的出版物数据中心,助力政府、行业、企业等各领域数据资源开放共享,从出版产业链上中下游进行精确管理,为出版产业高质量发展创新赋能,不断提升版本资源服务党和国家工作大局的能力,推动新时代宣传思想文化工作实现新作为。