【摘要】现阶段,古籍文献整理出版领域面临技术应用不足、技术迭代缓慢、技术壁垒突出等难题,将人工智能技术群落应用于古籍文献整理出版事业同样存在技术挑战和行业挑战。基于当下人工智能技术群落的特性与功能,可以构建其在古籍文献整理出版领域的三大未来应用场景:面向整理出版工作的精准高效服务场景、面向不同用户群体的多元智慧服务场景、面向数字社会建设的深融创新服务场景。出版行业既要科学展望古籍文献整理出版事业智能化、智慧化发展的前景,也要时刻警惕技术风险和行业挑战,做好万无一失的准备。
【关 键 词】人工智能;古籍文献;整理出版;技术群落;应用场景
【作者单位】段涵,解放军新闻传播中心出版社。
【中图分类号】G239.2【文献标识码】A【DOI】10.16491/j.cnki.cn45-1216/g2.2023.12.009
据不完全统计,从1949年到2019年,我国共修复整理出版古籍文献近38000种,其中既有《中国古籍总目》《续修四库全书》等重大项目工程,也有《中华经典古籍库》镜像版、网络版、微信版、专业版等数字出版产品。然而,技术手段落后、内容质量良莠不齐、数字化程度较低一直是限囿古籍文献整理出版事业高质量发展的影响因素。随着5G、人工智能、大数据、云计算、区块链等新兴技术的成熟运用,数智化时代已经到来。2022年4月,中共中央办公厅、国务院办公厅联合印发了《关于推进新时代古籍工作的意见》(以下简称“《意见》”),这是继1981年9月中共中央发布《关于整理我国古籍的指示》后,党和国家又一次对古籍工作作出的重大指示。《意见》重点指出要“发挥科技保护支撑作用,推动古籍保护关键技术突破和修复设备研发”,“积极开展古籍文本结构化、知识体系化、利用智能化的研究和實践”,这对现阶段古籍文献整理出版工作积极应用先进技术手段,全面提升古籍文献整理出版效率和质量提供了新的指引。被誉为21世纪人类三大尖端技术之一的人工智能,对古籍文献整理出版具有显著的赋能作用。有学者指出,我国现存古籍文献约有20万种,若按现有速度全部整理出版,大概需要300年的时间,如果引入人工智能技术辅助整理与出版,大概只需二三十年就能完成[1]。
当前,以生成式人工智能为代表的技术迭代升级,为新时代古籍文献整理出版提供了更强预期和信心,一些专家学者开始对以ChatGPT为代表的生成式人工智能在古籍文献整理出版领域的应用前景展开深入讨论。
一、古籍文献整理出版的技术难题
党的十八大以来,受党和国家的高度关注和政策引领、多行业主体的积极参与实践,古籍文献整理出版工作取得显著成绩,发展现状良好。然而,技术难题是现阶段古籍文献整理工作的核心问题之一。
一是技术应用不足,古籍文献整理出版速度有待提升。我国古籍文献资源种类庞杂、内容丰富,倘若仅靠人工整理出版,还需数百年时间才能勉强完成全部整理修复工作。目前古籍文献整理出版主要采用影印技术,由于资金、人才及技术限囿,对新兴技术的研发、应用普遍不足,多数数字化古籍文献资源以微缩胶片转换而成,需要专家人工录入,不仅分辨率低,且操作周期长、时间成本极高,严重影响了新时代古籍文献整理出版速度。若引入新兴技术,尤其是人工智能和大数据技术,古籍文献整理出版速度必将大幅提升。
二是技术迭代不足,古籍文献整理出版效率仍需强化。目前,古籍文献整理出版领域大多使用的技术仍以计算机自动化技术为主,主要应用于古籍文献文本的编辑校对环节,不仅误报率高,而且缺乏知识深度索引功能,导致古籍文献整理出版的工作效率和资源利用率有待提高。胡佩等指出,以黑马校对和方寸校对为代表的两款产品是现阶段中文校对领域的代表,尽管这些产品以人工维护的字词库或语法库对古籍文献数字化整理出版工作发挥了一定的积极作用,但也存在字词库扩容以后误报率上升的固有缺陷,具体表现为整句纠错能力差、校对能力不足等[2]。此外,仅凭计算机自动化技术并不能对古籍文献资源进行精准、全面、深度、高效的内容索引,这也导致相关整理出版产品的知识服务功能和用户使用体验不足。
三是技术壁垒突出,古籍文献整理出版影响有限。尽管目前已有部分出版机构、图书馆以及商业公司等利用新兴技术打造古籍文献整理出版平台、数据库等,但技术壁垒仍然突出,在一定程度上限囿了古籍文献整理出版的影响力。一方面,技术内部壁垒突出。现有的古籍文献数字资源库大多注重资源数量与规模建设,且主要以古籍文献物理单元为对象进行技术著录、保存与服务,由于古籍文献物理单元的局限,同一主题的古籍资源往往被分散在多个文献单元之中,不仅存在资源重复的现象,而且大大降低了古籍文献整理出版的内容效果和服务质量。另一方面,技术外部壁垒突出。我国古籍文献资源本就分散,加之不少机构存在“各行其是”的传统观念,导致珍贵资源和核心技术并未实现共建共享目标。如果各出版社单打独斗,就会出现多个小型古籍数据库,难以形成规模优势[3]。
二、人工智能技术群落对古籍文献整理出版的赋能作用
新一代信息技术的发展及应用,尤其是人工智能技术群落的诞生和赋能,为古籍文献整理出版事业的高质量、高效率发展提供了重要机遇,人工智能技术的出现为古籍修复整理带来革命性变化[4]。近年来,包括北京大学、中华书局的古联(北京)数字传媒科技有限公司(以下简称“古联公司”)、字节跳动等在内的不少高等院校、商业公司以及网络平台对古籍文献整理出版的数字化、智能化发展付诸了巨大努力,打造了“识典古籍平台”“古联智能OCR系统”“汇典·古籍数字服务平台”等系列尖端产品,以期通过人工智能技术群落的强势赋能,实现古籍整理出版事业的理想目标。具体来看,人工智能技术群落对古籍文献整理出版的赋能作用主要有三点。
第一, 人工智能技术群落能快速识别和自主分析古籍文献文本资源,给后续的整理出版系列工作提供更高效、更便捷的多元服务。长期以来,在古籍整理出版领域,“一万个小时”恐怕出不来一个熟手,“两万个小时”也未必能造就一个大师。人工智能技术群落应用于古籍整理出版领域,对实现古籍原典从纸本到数据的一站式转换具有显著作用。2022年,古联公司以“古联智能OCR系统”为核心,在籍合网上线了古籍智能整理平台,将公司成立以来的一系列古籍整理AI技术如OCR、自动断句标点、繁简转换以及支持14万个古籍整理用字的XML编辑器成功融入新平台建设,目前该平台已初步实现了古籍文献影像的数据挖掘和元素识别目标,大幅提升了识别和分析版刻本古籍文献的速度,5分钟便可达到人工录入20个小时的工作量[5]。除了文本识别和数据转换,随着人工智能技术群落的迭代升级,“古联智能OCR系统”还能针对古籍文献资源进行更多元的开发利用,如给行文添加标点,对人名、地名、时间等内容要素进行详细标注,并提供智能校对与编辑服务,从而达到古籍文献整理出版的一站式、数字化发展目标,为后续古籍文献的活化开发利用提供更多支撑。
第二,人工智能技术群落能对古籍文献文本资源进行精准纠错和深度标引、智能关联,为提升整理出版工作效率以及优化用户服务体验保驾护航。目前,“识典古籍平台”“古联智能OCR系统”“汇典·古籍数字服务平台”都积极应用了系列人工智能技术,如OCR、NLP、ML等。借助上述技术群落赋能,古籍文献整理出版效率得以大幅提升。例如:“古联智能OCR系统”借助人工智能技术识别,误报率降低了75%[5];利用人工智能技术赋能,北京大学数字人文中心在从先秦到明清跨时代的大规模古籍文献文本语料整理方面实现了对古文本的自动句读,平均准确率达到94%,并实现了对人名、地名、时代名、官职名等古籍原典要素的自动识别,在中古史料上的准确率接近98%[5];通过技术群落多重赋能,“人工智能+古籍文献整理出版平台”能进一步实现全文检索、图片检索等目标,并通过自然语言处理技术深度解析古籍文献数据文本实现古籍文献知识结构化,重构古籍文献内容服务形式,增强知识深度索引和智能服务能力。有学者指出:过去的古籍文献整理出版目标是把传统纸本的古籍文献资源整理出来再次出版,或以现代文的注释便利大众阅读;现在的古籍文献整理出版重在抽取古籍文献中蕴藏的历史文化知识,以先进技术构造成各种各样的专业资源库,以知识图谱的形式支撑互联网前端应用,以此实现资源利用高效便捷和知识服务专业权威的核心目标[6]。
第三,人工智能技术群落对加快古籍文献资源共建共享,进一步打破古籍文献整理出版边界,实现活化开发利用目标,具有不容忽视的促进作用。复旦大学张晓虹教授认为,作为传统史料的重要载体之一,古籍文献因其表达方式的复杂性、精度的不确定性和收藏机构的分散性,在开发利用上存在较大困难[4]。在此背景下,充分利用人工智能技术群落赋能加速古籍文献资源一体化整合和平台化共建,打破行业壁垒和数据孤岛,对新时代古籍文献整理出版事业具有重要意义,甚至能延伸出更大的“活化”空间。“识典古籍平台”作为古籍整理出版领域高等院校与网络公司联合打造的一站式智能服务平台,其通过双方在技术上的优势互补和资源共享,进一步打破并模糊了行业壁垒和边界,让古籍文献资源得以在更大范围内被开发利用,真正实现“活起来”目标。在人工智能技术群落的赋能与支撑下,古籍文献整理出版边界日趋模糊,行业壁垒逐渐消失,一体化跨界协同趋势不断增强,这不仅有利于古籍文献资源的深度开发利用和价值效益释放,而且对古籍文献于当代“活起来”和“传下去”具有重要意义。
三、人工智能技术群落在古籍文献整理出版领域的应用场景
基于人工智能技术群落的强大赋能,加之技术迭代速度不断加快,古籍文献整理出版事业迎来了新的机遇,呈现智能化甚至智慧化发展态势。基于当下人工智能技术群落的特性与功能,本文合理构建了其在古籍文献整理出版领域的三大未来应用场景。
1.面向整理出版工作的精准高效服务场景
在人工智能技术群落的强势赋能下,未来古籍文献整理出版领域的工作场景将得以重塑,呈现精准高效的服务特色,为提升体量庞大的传统整理出版速度发挥重要作用。
一是文本自动识别与高效转化。基于深度学习、机器学习等人工智慧技术群落的强势赋能,古籍文献整理出版将不再依靠再生性保护方式进行影印再造和人工转换,而是通过OCR、AI句读、智能扫描设备的使用,实现古籍文献资源的自动识别与高效转化目的。例如,通过OCR技术应用,仅需“扫一扫”古籍文献原典,便可自动录入相应内容,同时生成数字文档,为后续的编辑校对、整理分类以及出版发行等提供有效支撑。
二是内容智能精校与深度索引。借助自然语言处理、大规模语言模型生成等人工智能核心技术赋能,可建成面向古籍文献资源的大规模预训练数据库和语料库,为智能精校古籍文献数据资源并实现深层知识索引提供可能。例如,通过大规模古籍文献文本語料整理,即大量古籍文本数据的学习模仿,可实现对数据文本的自动精校,包括但不限于人名、地名、时代名等内容元素的整理分类、智能标注和深层检索,并以此进行智能知识索引,在协助编辑和作者更高效、便捷地处理文本的同时,为古籍文献资源的深度开发利用和多元用户服务提供保障。
三是智能出版工具包及多元解决方案。通过人工智能技术群落的落地应用,诸如版式自动调节、一站式资源发布、繁简自动转换等系列工具包以及数据保护存储、系统自查自检、平台定期维护等技术解决方案也将接踵而至,让古籍文献整理出版工作全部转移至线上,且能实时操作,以此实现提质增效目标。
2.面向不同用户群体的多元智慧服务场景
通过人工智能技术群落的强势赋能,未来古籍整理出版领域的用户群体及其服务场景将愈发多元、个性化。在人工智能技术群落的赋能作用下,根据不同用户群体的个性需求提供相应的智慧场景服务,是新时代古籍文献整理出版工作的核心目标之一。
一是面向专家学者及高校师生群体的智慧知识服务。随着人工智能技术群落的飞速发展,尤其是机器学习、深度学习技术的广泛应用,越来越多的古籍文献资源得以问世,并能按照用户指令提供精准、专业、个性的智慧服务,这对专家学者的学术科研和高校师生的知识学习提供了重要支撑。例如,针对不同专家学者和高校师生的知识需求,人工智能技术群落可实现对古籍文献数据资源的智能检索和自动生成,帮助他们精确获取内容要点,从而提高学术知识服务质量。
二是面向一般大众和古籍爱好者的智慧阅读服务。通过人工智能技术群落的普及应用,古籍文献数据库或平台可研发自动标点、繁简转换等多元工具,从而将古籍整理出版领域使用的技术工具扩展成一般大众或古籍爱好者触手可及的智慧阅读产品,加大古籍文献资源在智能信息环境下深度开发、利用和传播的力度。例如,借助人工智能技术群落研发并使用的知识标引与检索、繁简自主转换等应用工具,一般大众和古籍爱好者可直接进行古籍文献阅读活动,甚至能借助AIGC机制自动生成个性阅读和知识解决方案,帮助他们更好地理解和掌握晦涩难懂的古籍文化知识。此外,基于人工智能技术群落与AR/VR/MR等技术的融合创新,可将传统的平面阅读转变为立体阅读场景,给予用户前所未有的沉浸式阅读体验。
三是面对文化企业和商业公司的智慧供给服务。通过人工智能技术群落搭建的一站式共建共享平台,古籍文献整理出版系统的上中下游合作关系将进一步强化,以此形成闭合产业链,即上中游的古籍文献整理出版系统通过资源开发与维护、内容整理与出版,为下游文化企业、商业公司乃至古籍领域的跨界合作提供资源支撑,进一步释放古籍活化价值。
3.面向数字社会建设的深融创新服务场景
人工智能技术群落应用于古籍文献整理出版事业,可实现古籍文献资源数字化、智能化、智慧化发展目标,这不仅满足国家文化数字化发展战略的现实需要,而且对数字中国、数字社会建设起到重要的支撑作用。
一方面,通过人工智能技术群落赋能,蕴藏在古籍文献原典中的各类历史文化知识、思想价值观念将以数据形式被抽取和利用,再经知识图谱的自动生成和古籍文献内容的智能化整理出版,为数字社会建设提供丰富多元、价值深厚的文化数字化资源。例如,经过人工智能技术群落的实践应用,古籍文献资源可以通过音、视、图、文甚至立体阅读形态加以检索、关联阅读和深度挖掘利用,从而面向社会构建一系列深融创新服务场景,助力全民数字阅读事业的高质量发展,以古籍文献数字资源的智能化应用为数字社会文化建设提供强势动力。
另一方面,借助人工智能技术群落的强势赋能和开放服务,古籍文献数字资源还可被构造成各种各样的知识智库,为数字社会建设提供决策参考服务,并以知识图谱的形式支持数字社会的各种前端应用和场景开发,如数字教育、数字文化等,切实实现古籍文献整理出版工作效益最大化的目标。
长期以来,科学技术在人类社会发展进程中都是一种起到推动作用的、革命的力量。在人工智能技术群落的赋能下,古籍文献资源的数字化转换对社会各行各业人才培育具有不容忽视的作用,这也是数字社会建设的核心动力。例如,通过人工智能技术赋能,古籍文献蕴含的中华优秀传统文化精神将摆脱以往专业化、小众化传播桎梏,借助技术优势打破时空隔阂,实现传播效果最大化目标,即与不同行业、不同领域进行不同程度的深度融合与创新,为培养“既有专业素养,又有文化内涵”的优秀人才提供重要助力,这也是推动数字社会建设的核心力量。
四、结语
综上所述,数字信息技术的发展,尤其是人工智能技术群落的诞生和应用,为古籍文献整理出版工作带来了全新机遇,是推动古籍文献整理出版事业转型升级和智能化甚至智慧化发展的重要力量,也是未来古籍文献资源活化利用和深度开发的有效支撑。然而,无论从技术层面还是行业层面来看,人工智能技术群落应用于古籍文献整理出版事业,仍存在一些现实挑战。
第一,技术挑战。尽管以ChatGPT为代表的新一代人工智能技术群落已经在部分行业领域率先落地应用并推出了智能检索、数据挖掘、自主生成等多元服务,但在古籍文献整理出版领域还处于理论探讨阶段。不少高等院校、商业公司以及网络平台陆续推出初步具备人工智能技术特性的先进产品,但这些技术不够成熟,对古籍文献整理出版事业的智能化、智慧化发展助力有限,未能真正实现古籍文献资源活化开发利用的理想目标。因此,基于人工智能技术群落赋能的古籍文献整理出版事业还需要深入探索实践,尤其要注重对应用场景、技术方案、知识服务的开拓创新。
第二,行业挑战。目前,利用人工智能技术群落加快古籍文献整理出版事业的高质量发展和转型升级正在成为现实中的生动实践,但也引发了新的行业挑战。一是技术研发应用及硬软件设施建设需要投入大量的人力物力财力,这给古籍文献整理出版事业造成了巨大压力。无论是构建古籍文献大规模预训练数据库或语料库,还是研发各种平台系统和技术工具包,都需要投入大量资金、引进相应人才,这对本就缺乏资金和人才的古籍文献整理出版机构而言无疑难上加难。在古籍文献整理层面,无论是学者专家,还是编辑工作人员,都要保证古籍文献资源的准确性,以确保更好地利用技术而不是被技术误导。二是人工智能技术群落应用于古籍整理出版领域将开辟全新的交叉业务,需要进行跨学科、跨环境、跨文化、跨地区、跨行业的深度合作,并培养大量复合型人才,这对现阶段“各行其是”的古籍整理出版系统而言,同样是一项现实挑战。此外,诸如古籍文献数据的保护与存储、古籍文献服务对象的信息收集与监管、古籍文献应用场景的开发与维护以及古籍文献服务机制的构建与运行等,都是人工智能技术群落应用于古籍文献整理出版事业后需要解决的诸多现实难题。
总之,人工智能技术群落的诞生与发展将为古籍文献整理出版事业带来一场深刻而广泛的变革,危与机并存。我们既要科学展望古籍文献整理出版事业智能化、智慧化发展方向与前景,也要时刻警惕技术风险和行业挑战,做好万无一失的准备。
|参考文献|
[1] 黄洛锋,陈艳芳,孔云. 高质量做好新时代古籍文献整理出版工作的思考[J]. 出版广角,2022(23):61-64.
[2] 胡佩,李小青. “人工智能+校对”的应用前景分析[J]. 现代出版,2019(2):59-61.
[3] 我国古籍藏量5000余万册 数字化不足一半[EB/OL]. (2016-06-23)[2023-06-02]. https://www.sohu.com/a/85361694_257321.
[4]张杰. 新技术为古籍整理注入活力[N]. 中国社会科学报,2022-03-17.
[5]洪涛,陈必佳. 古籍数字出版领域的知识服务模式和场景分析:以古联公司为例[J]. 出版广角,2022(24):51-56.
[6]韩业庭. 當古籍修复遇上人工智能[N]. 光明日报,2022-04-11.