洪涛 陈必佳
【摘 要】 知识服务的概念由图书情报与档案领域提出并引入,在融合发展和数字化出版蓬勃发展的大背景下引起了出版学界的热切关注。古籍数字化出版领域的知识服务发展有其专业特点,也随着大众对古籍中承载的中华优秀传统文化内容的需求,逐渐走向大众领域的服务和发展。古联(北京)数字传媒科技有限公司在古籍整理和编辑出版、学术研究、大众爱好者的应用场景下,利用自身在古籍数字化领域的技术积累,不断开发高质量产品,为不同层级的用户提供多层次、立体化的知识服务。
【关 键 词】知识服务;数字出版;古籍数字化;用户场景
【作者单位】洪涛,古联(北京)数字传媒科技有限公司;陈必佳,古联(北京)数字传媒科技有限公司。
【中图分类号】G239.2 【文献标识码】A 【DOI】10.16491/j.cnki.cn45-1216/g2.2022.24.009
我国拥有丰富的古籍资源,古籍作为传统文化的载体被赋予传承和弘扬中华优秀传统文化的重要使命。近年来,在国家政策的大力支持下,古籍数字化技术高速发展,逐渐形成了成熟的产业链,互联网和人工智能技术赋能,让更多的人能够接触到不同形态的古籍数字化产品。在产业发展过程中,古籍数字出版领域积极探索融合发展的各种可能,逐渐从内容生产者转变为知识服务产品的开发者和提供者,形成了面向不同用户群体的知识服务系统。古联(北京)数字传媒科技有限公司(中华书局全资子公司,以下简称古联公司)成立至今,经历7年的摸索,渐次形成了面向古籍出版的编校人员、学术科研领域的师生以及古籍爱好者不同层级用户的知识服务产品体系,平衡专业性和大众化的用户需求,力争在不同使用场景中为用户提供定制化服务。
一、知识服务概念的提出及发展
知识服务的概念最初在图书情报和档案学领域引起了广泛关注度和讨论,学界多引用张晓林对知识服务的阐释: “以信息知识的搜寻、组织、分析、重组的知识和能力为基础,根据用户的环境和问题,融入用户解决问题的过程之中,提供能够有效支持知识应用和知识创新的服务”。[1]知识服务的重要特点之一是以用户为中心,帮助用户从海量信息中精准获取所需知识。
出版界对知识服务一直有所关注,并且很早就认识到知识服务作为信息服务的高级模式,“与数字出版的基本属性完全吻合”,“对数字出版的发展具有重大的战略意义”[2]。然而,知识服务在出版数字化领域引起广泛讨论是在2014年之后。2014年4月,国家新闻出版广电总局、财政部发布《关于推动新闻出版业数字化转型升级的指导意见》,其中首次提到知识服务,提出支持专业出版转型升级模式探索,并重点支持基于知识资源数据库的知识服务平台建设。由此,在数字化转型和技术赋能的背景下,知识服务在专业出版、教育出版和大众出版领域都获得了长足发展。一些有代表性的知识服务产品和平台频频出现在相关文献的案例分析中。以技术服务为主体的数字出版可以说是出版企业从内容生产者到知识服务提供商转变的重要中间环节,但目前大部分涉及传统出版企业和知识服务产业的研究都集中于产业的路径探索,忽略了知识服务产品的现状,更缺乏对用户场景的描述分析[3]。
二、古籍专业出版领域知识服务的发展特点
传统出版社在从内容出版商向知识服务商转型的过程中,应保持自身优势,将编辑能力转换为产品思维能力,促使原有生产流程向互联网思维转换[4]。专业出版在知识服务领域率先开启了对产品思维的探索。在古籍数字出版知识服务的初级阶段,随着古籍数字化工作的深入开展,诞生了一大批古籍数据库,具有检索功能的数据库取代了传统的目录检索方式,大大提高了用户使用古籍文本查找资料的效率。围绕特定主题开发的古籍专题数据库、知识库、知识工具等产品,则更好地发挥了为用户提供个性化服务的作用,让用户能够利用数字化工具更有针对性地提炼其所需知识,这是专业知识服务逐步发展成熟的体现。
知识服务离不开“互动性”,除了通过技术手段分析用户行为,教育、出版、科技、媒介四大产业融合产生的新空间也形成了知识服务生态[5]。在自然语言处理技术中,自动标点、命名实体识别、OCR识别等技术已经在古籍数字化领域得到了广泛且深度的应用,文本生成和AI智能问答等技术则在医疗、教育、自动问答等领域更为普及。目前,古籍数字化产业愈发重视从用户的使用场景和需求的角度开发产品,不仅服务于对海量古籍内容检索具有较高要求的专业用户,还肩负着传播弘扬中华优秀传统文化的使命,扩大传播普及范围,从不同层次的用户出发,提高知识服务的针对性和有效性。
三、古联公司面对不同用户群体的知识服务场景解析
在知识服务领域,拥有高质量的文本和数字化内容是知识服务机构为用户提供知识服务的基本要求和前提条件。在此基础上,古籍出版社需要研究如何以场景需求为导向,探索知识服务向个性化、定制化方向发展,并利用信息技术和各类工具开发应用程序,为用户提供数字化服务。面向不同用户群体的知识服务产品,在其使用场景和具体应用形式上各有特点。就古联公司而言,其面向的用户主要有三类:一是出版社编辑,需要借由古籍数字化产品提升古籍整理、编辑工作的效率;二是研究者和学生,需要利用古籍数字化产品辅助研究和学习;三是古籍爱好者,需要借此满足自身的阅读需求,从而提升个人价值。高质量的古籍内容和便捷的检索功能是用户的共同需求,建设高质量文本是古联公司为用户提供知识服务的核心。早在2014年,古联公司的前身——中华书局古籍资源部就投入制作并上线了中华经典古籍库(一期),将中华书局已经整理出版的古籍数字化,为用户提供高质量的古籍文本。截至2022年,中华经典古籍库已上线10期,共计22.5亿字,汇聚了包括中华书局在内的共23家出版社的古籍整理出版资源,满足了读者对高质量整理本古籍数字化产品的要求。
近年来,古聯公司在产业化发展中陆续开发各类知识服务产品及应用场景,在古籍数字出版业发展方面积累了丰富的经验。
1.面向编辑出版和古籍整理的知识服务
古联公司作为中华书局的全资子公司,推进产业数字化是其重要职责,因此在成立之初就致力于探索古籍数字化技术在古籍编辑出版领域的应用,为体量庞大的传统编校工作提速增效。
古籍是经典文化传承的载体,在出版工作中尤其注重整理和编辑质量。而古籍整理出版难度较大,引文多、典故多、生字多,即便利用数据库进行检索核查仍极为消耗人力。对此,古联公司结合古籍编辑核心需求,开发了文达编校工具,专门为古籍整理和编辑工作提供标点检查、序号检查、字形规范检查、引文核查、繁简转换、纪年检查、勘误统计、修订前后结果对照等功能性服务,并不断升级优化。在文字规范上,文达编校工具能够根据文稿对繁简体的要求进行自动筛查,并检查常见的异体字。在引文核查上,文达编校工具关联中华经典古籍库数据自动核查,大大节省了编辑的编校时间,若遇到语料库中没有的引文内容,文达编校工具则会通过文档内的互查功能显示核查结果。文达编校工具上线以来,除了为中华书局内部编辑所用,还为商务印书馆、三联书店、凤凰出版社、巴蜀书社、西泠印社、大象出版社、中国财政经济出版社等多家出版社提供古籍引文核查服务。相较于编辑人工核查和利用数据库逐条检索核查,这种批量核查服务有效提升了编辑的工作效率。
在开展古籍数字化工作方面,古联公司还拥有一套重要的基础设施服务,即古籍整理众包平台。古籍整理出版项目规模较大,需要出版社投入大量资源开展基础性工作。古籍数据库的出版更是如此,仅古联公司近几年出版的古籍数字化产品就达到了近40亿字的规模。为了在海量繁杂的古籍数据处理和编校工作中充分发动社会力量,古联公司在2018年上线了国内第一个大规模的古籍整理在线众包平台。截至2022年,该众包平台上拥有注册用户近5000人,用户中大部分是在校学生,也有各行各业的工作者。图1为参与古籍整理众包的人员职业分布。众包平台几年来一共发布编校项目250个,编校任务近5万项,处理古籍14亿余字。为保证众包平台的工作质量,古联公司专业团队对众包编校成果进行严格审核、检查、淘汰,众包队伍日渐稳定。众包平台作为一套基础设施,对接古联公司的文达编校工具、OCR识别系统、古籍整理平台等,开展校对底本、引文核查、编辑校对、图像处理编排等工作,为图书和数据库的出版提供了大量辅助。
古籍整理和编辑工作往往是交织在一起的。古联公司开发了大量人工智能工具应用于古籍整理过程,在服务作者的同时减轻编辑的负担。以西泠印社“刻在石头上的浙江”丛书的整理为例,古联公司编辑部作为该丛书整理者,整理了包括《东瓯金石志》《括苍金石志附续志补遗》《两浙金石志附补遗》等在内的9种金石类古籍,共计约147万字。古联公司编辑部首先利用OCR工具识别底本文字,然后采用线上众包模式开展底本校对工作。校对后的稿件通过自动标点工具进行标点,标点后的稿件再交由编辑进行校勘和通读审稿。在这种工作模式下,编辑部仅用时4个月就完成了全部稿件的整理工作和部分编辑工作。
2.面向学术研究用户的知识服务
面向学术的知识服务可细分为两类:一类是就古籍本身进行整理、研究和学习;另一类是结合历史语境和具体问题,利用古籍中的内容对中国古代历史文化进行探索、解析。两类工作相辅相成,需要学者和研究人员的参与以及大量文献数据的支持。古联公司2018年上线的籍合网作为综合性的古籍整理数字化资源平台,至今已经上传近40亿字的古籍学术资源,从数量和质量上满足了学者的研究需求。同时,籍合网根据各种古籍数字资源,为用户提供纪年换算、字符查询、联机字典等小工具,方便用户在使用古籍数据库的过程中随时利用(见图2)。
随着近年来人工智能特别是深度学习的发展,古籍工作者对数据价值的认识越来越深刻。古籍不仅可以用来阅读,还可以借由人工智能技术,以机器学习的方式开展大规模数据训练,在大数据大样本的基础上打造数据模型,通过自动化手段帮助用户解决更多问题。2022年,古联公司在籍合网上线了古籍智能整理平台,整合公司成立以来发展的一系列古籍整理AI技术,包括OCR识别率、自动断句标点、繁简转换,以及支持14万个古籍整理用字的XML编辑器。其中,古联公司的古籍智能OCR工具高效完成了古籍影像的文本化,对版刻本古籍的识别准确,5分钟的OCR识别相当于人工录入20小时的工作量,且错误降低75%。而基于深度学习的古籍自动标点标线工具,也是帮助编辑整理古籍语句脉络、畅晓文意的利器。
随着古籍数字化的发展,古籍数据库日益庞大,弊端也逐渐显现,如在保证查全的同时,冗余信息消耗了用户检索资料的时间,资源重复建设的同时很多专业研究领域文献不足。对此,籍合网在建设中华经典古籍库的基础上与古籍专家合作,建立专业数据库集群,为学界提供在特定研究领域可以快速检索的准确内容。比如,墓志石刻文献因资料分散且难以建立关联,在学术研究中的利用度较低,随着各类石刻数据库的建设和功能日渐完善,散见于墓志石刻中的很多细节得到了更多学者的关注、研究和利用。籍合网先后上线了宋代墓志铭数据库、汉魏六朝碑刻数据库、三晋石刻大全数据库、唐代墓志铭数据库、历代石刻拓片汇编数据库系列产品。其中,汉魏六朝碑刻数据库、唐代墓志铭数据库、宋代墓志铭数据库等数据库聚焦于断代史,三晋石刻大全数据库集中于地域,而新近上线的历代石刻拓片汇编数据库具有较强的通代性和广泛性,涵盖了先秦至民国各种刻有文字内容的石刻资源。为方便使用,古联公司将数字化内容做了专业性整理,关联录文与拓片,对原文进行标点、分段,考证提取时间、标引主题词等关键信息,便于用户在资料查询中准确地检索定位有效材料。
古联公司打造的专题特色数据库还有很多(见图3),如历代进士登科数据库包含从隋朝至清朝10万名登科人物的信息,服务于古代教育、科举制度的研究;殷墟甲骨文数据库收录近6万片甲骨,卜辞14万余条,配备甲骨文字典,服务于甲骨文和殷商历史研究;龙泉司法档案选编数据库收录晚清至民国时期浙江龙泉地方法院司法档案,包括343个诉讼案例,2.6万余件文书,服务于晚晴至民国司法和社会风貌的研究;中华木版年画数据库收录历代各地年画16000余幅,可供艺术史研究或为美术设计提供资源;中华书法数据库收录书法作品共计1万余種,释文350万字,可为书法艺术研究提供参照。这些数据库为专业领域的研究者提供了丰富而有针对性的内容服务。
3.面向大众爱好者的知识服务
当前,大众阅读古籍的需求日益旺盛,古联公司针对个人用户也开发了多种产品。基于移动互联网,古联公司开发了中华经典古籍库微信版,获得了大量用户的好评。用户可以通过微信公众号“经典古籍库”直接进入数据库,在手机上就可以阅读、检索数千种整理本古籍内容,利用碎片化时间获取知识服务。目前,“经典古籍库”已经成为诸多古籍阅读用户的日常必备工具。
在移动端,古联公司还开发了小程序“句读Pro”和“i识字”,通过游戏场景满足用户在古籍基础知识学习方面的爱好和学习需求。“句读Pro”小程序的内容均提取于原古籍,集游戏、教育为一体。用户可以在小程序里标点古籍,再由系统打分,既可以自娱自乐,也可以和好友联机对战。“i识字”小程序中的“汉字连连看”则是利用古联公司建设的专用字库及字际关系数据库开发的连连看小游戏,游戏通过挑战模式、训练模式、对战模式、任务模式等多维度模式的设置,激发用户探索汉字字形变化及对应关系的兴趣,丰富用户的汉字文化知识,促进汉字文化在大众中的传播。
2022年,古联公司根据中华书局推出的图书开始录制古籍音频资源,包含古籍原文和白话翻译,预计在2023年将有50种古籍录制成文白结合的有声读物,上线至喜马拉雅等平台,满足用户听古籍的需求。
4.古籍整理的培训服务
除了围绕编辑、学者、大众的使用场景提供古籍内容产品和技术工具,在拥有海量古籍数据的同时,古联公司还致力于为用户提供具有针对性的服务,满足用户的多样化需求。古联公司在通过古籍整理众包平台和用户交流的过程中发现用户对古籍整理培训的需求。对此,古联公司从2021年开始搭建籍合学院古籍整理培训平台。该平台依托中华书局在古籍整理出版领域的深厚积淀及人才优势,以服务行业、促进古籍人才培养为宗旨,与业内专家广泛合作,打造了一系列专业的线上精品课程。籍合学院在线课程的研发注重案例分析与实践总结,建立了案例、技能、专题、通识四位一体的课程体系,并编制了海量题库。目前,籍合学院策划的课程累计近400课时,课程数量超过70门。
2022年,古联公司组织了两期中华书局古籍整理训练营,采用线上视频教学及考试的形式开展。课程设置根据古籍整理工作要求安排布局,共分为三个模块:一是认识古籍与古籍整理的通识背景课程,系统介绍古籍整理工作和古籍的体例结构;二是案例观摩课,安排老师结合具体案例讲解经、史、子、集各部文献整理工作的全过程;三是技能掌握课,加强版本鉴定、标点、校勘、注释等工作技能的讲解,并配合实践课程安排古籍整理作业,听教师直播讲评。古籍整理培训相对小众、专精,课程难度较大,然而每一次报名人数都超出预期,两期训练营原计划招收学员400人,实际招收学员540人。通过调研和访谈,我们发现约70%的用户源于相关专业的师生、编辑出版人员、文博和科研院所研究人员。无论内容与工作学习相关与否,用户都希望通过古籍整理培训拓展知识面,提升个人能力,或为将来的工作提供帮助与支持。部分用户通过课程培训成为古籍整理平台的一员,参与古籍整理众包工作,在获得经济收入的同时,获得了精神上的满足。
四、古籍领域知识服务融合发展展望
古联公司从用户角度出发,利用多年来生产的古籍数字化资源,不断分析用户需求,打造新的产品,取得了一些成绩,得到了用户们的认可。然而,作为数字化出版企业,古联公司必须意识到眼下信息技术的发展是快速且具有冲击力的。日前,ChatGPT的横空出世,引爆了大家对人工智能的热切关注,反映出基于大规模语料数据学习后的自然语言处理技术能够发挥的巨大能量。当前古籍数字化产业中的命名实体识别、自动标引等核心技术,都是自然语言处理技术的重要应用。可以预见,在接下来的技术发展中古籍出版数字化还有更多的想象空間和可能性。随着人工智能的发展,从文言到白话的机器翻译注定迈上新台阶,大众借由计算机就可以大致了解古籍内容,未来也将实现通过语义检索古籍。以上仅是基于文本的应用,AI绘画、作曲早已有成果和产品问世,人工智能技术与古籍的结合也注定不远。人工智能技术离不开数据的支持,随着图像识别技术的发展,在目前版刻图书识别的基础上,基于手写文献的识别也会被突破,随之产生更大量的文献数据,这必将让人工智能技术迈上一个新台阶。
古籍出版社必须认识到,人工智能技术眼下还不能代替以人为主体的学术性古籍整理和研究,但可以为古籍整理与研究工作提供巨大的帮助,更重要的是可以将学术性成果与大众应用更好地建立连接并形成平滑过渡。信息技术能够加快内容的传播,丰富知识服务的形式,但并不能代替富有人性的学习、思考。作为古籍出版社,如何更好地利用人工智能技术,从学术研究、古籍出版和大众生活的场景出发,继续探索古籍知识服务之路,任重道远。
2022年10月,全国古籍整理出版规划领导小组印发了《2021—2035年国家古籍工作规划》,在数字化方面对知识服务提出了要求:开展各类型古籍资源的建设;加强数据挖掘,推进古籍智能化利用;推动古籍的大众传播,打造具有影响力的音视频栏目;创新人才队伍建设机制,加快学科融合。这些规划内容是对古籍出版工作现有方向的肯定与深化指导,增强了我们持续开展古籍知识服务的信心和动力。在政策的指导下,古联公司将持续做好数据建设和技术研发,深度结合用户的需求,为用户提供更好的知识服务产品。
|参考文献|
[1]张晓林. 走向知识服务:寻找新世纪图书情报工作的生长点[J]. 中国图书馆学报,2000(5):30-35.
[2]周一帆. 我国出版业知识服务演进研究[D]. 北京:北京印刷学院,2016.
[3]朱葛嫣然. 我国出版企业知识服务现状及提升策略研究[D]. 青岛:青岛科技大学,2021.
[4]王菱,罗渝. 出版社从内容生产商向知识服务商转型的策略探究[J]. 中国出版,2022(9):69-71.
[5]田颂云. 教育出版的知识服务转型研究:愿景描摹、内在逻辑与实施路径[J]. 编辑之友,2022(6):33-38.