路开源
摘 要:古籍智能整理研究是古籍整理在信息化时代的发展趋势,古籍的数据化和智能化研究也取得了较大进步,文章着重探讨了古籍智能整理研究的现状及存在的问题。
关键词:古籍整理;智能研究;现状及问题
我国历史悠久,经历了几千年的朝代更迭,直至造纸术和印刷术的出现,为古人记录社会文化发展提供了条件。而通过古籍整理可以将璀璨夺目的华夏历史展示给后人,让他们有机会了解民族的发展,传承民族文化的精髓,将中华文化传承下去。这是古籍整理研究的意义,而技术发展也给古籍整理带来了智能发展的可能性。
1 古籍智能整理研究的必要性
我國流传下来的文化古籍数量十分庞大,涉及社会生活、文学、科学、历史、地理等方方面面,据不完全统计,现留存下来的古籍多达8万种。面对如此庞大的古籍数量,当代人想要有机会阅读古人的智慧结晶,必须依靠古籍整理。古籍整理指的是对我国古代书籍进行审定、校勘、注释等加工、整理工作,为晦涩难懂的古代书籍加入现代语言,方便现代人阅读。
然而古籍整理并不是容易的事,需要拥有专业知识的人才和团队,有些学者参与一本古籍整理可能就是一辈子,耗时耗力,这不仅需要艰苦朴素的奉献精神,更需要对古代文化研究的兴趣、情怀做支撑。随着信息化技术和互联网技术的发展和运用,为古籍整理工作带来了全新的机遇,若是能将智能技术合理运用到古籍整理工作中,建立智能化系统会大大增加古籍整理工作的效率。古籍整理专家可以通过互联网检索,轻松查找到自己想要的信息,为古籍审定、校勘、注释工作提供便捷。因此,古籍智能整理研究有其必要性,让古籍数据化、电子化,能够让更多古代书籍重新出现在新的时代,给予现代人启迪。
2 古籍智能整理研究现状
2.1 古籍整理的发展
古籍整理早在20世纪初就已经得到了出版界和学术界的重视,整理和出版了大量校勘、批注、翻新过的古籍,这些经过整理的经典古籍是古籍整理的先驱。到新中国成立,古籍整理又得到了新的发展,国家重视古籍整理工作的开展,在国家的大力指导下,制定了古籍整理的长期规划,使得古籍整理出版得到了长远发展。到了现代,古籍整理已经与时代发展接轨,随着计算机技术全面推广和应用,通过将古籍智能化、数字化的手段来保护和使用珍贵的古籍资料已经得到了大多数古籍研究学者的认同,并在古籍智能整理研究上取得了较大发展。
2.2 古籍智能整理研究现状
过去古籍整理主要依靠人工整理和检索,专家学者为了古籍整理的正确和严谨,为一个字或词进行注释都需要查阅大量资料,工作量大且烦琐,整理、出版一部古籍可能是专家学者一生的辛苦耕耘。随着信息化技术在古籍整理中的运用,古籍开始智能化和数字化,从刚开始只是将古籍所有书名建立数据库,到建立大部分古籍内容的数据库,直到现在很多古籍资料已经可以通过计算机智能检索数字化版本,这为古籍整理带来了极大的便捷。目前,古籍智能整理研究越发成熟,研发了很多非常实用的功能,并分门别类地建立了数据库,帮助专家快速检索古籍的全文信息,树立了专家学者对于智能化整理的信心。
古籍智能研究整理的功能越来越完善,刚开始只能够把古籍数字化,可以通过电子设备浏览文本,再备有一定的检索功能。随着信息化数字技术的发展,开始尝试利用计算机技术进行智能化整理,如北京大学计算机语言研究所与古文研究所合作研发的“唐宋诗计算机辅助研究系统”就取得了较为显著的效果,这个系统是以唐诗宋词作为研究对象,能够实现对诗词进行自动注引、判断诗作的押韵及韵脚,并进行了词汇时代分布和意象索引技术的研究,这让研究诗词古籍的学者节省了不少时间与精力。还有针对各种古文字体的研究,让各种字体都能够通过电子屏幕显示出来,这些技术研究推动了古籍智能化发展。当前将各种古籍数字化,再分门别类地细化,并通过项目研究加强古籍智能化发展,是古籍智能整理研究的重要方向。
2.3 古籍智能整理研究的框架设计
古籍实现智能化整理不是朝夕间可以完成的工作,这是需要有规划、有目的地逐步实现的。古籍整理智能化首先需要设计完善的框架,待框架确定好之后,再往框架里面填充内容,因此古籍智能整理与开发系统框架的设计非常重要。能够将古籍整理的校勘、注释等工作都利用计算机精准完成,能够大大提升古籍整理的效率。当前,古籍智能化框架还没有特别完善,数字化工程还局限在古籍资料的全文检索及部分信息功能化,距离搭建信息化平台还有一定差距。因此,还需要从多个角度完善古籍智能整理。
首先是古籍的断词断句及标点符号注释,过去这个工作只能依靠专家学者的学识和经验人工判定,将古籍整理为现代语境下能够读懂的句式,如学校教材涉及的文言文、古诗词大多是古籍整理后呈现的效果。如果能够通过计算机实现自动断词断句、批注标点,会大大提高专家学者的翻译工作效率。虽然计算机技术没有办法做到百分之百精准判定,但计算机的强大之处在于处理信息的高效快捷,并能够由程序判定大多数情况应该如何归类。通过计算机将大部分古籍提前自动断词标点,专家学者再在已经处理过的古籍上进行进一步的整理工作,能够有效提升工作效率。
其次是古籍校勘的智能化,这个工作可以说是古籍整理工作中最为烦琐且需要时间最长的工序,人工校勘需要花费大量时间进行对比勘正,纯人工操作不仅效率低且容易出错。然而利用计算机进行古籍校勘工作却是如鱼得水,计算机庞大的数据库和检索功能,让人们只需要将所有古籍数据化,再通过全文检索就可以快速找到所需要的资料并进行比较,甚至可以精准到每个符号,这是手工检索无法做到的。若能够实现自动校勘,专家学者就可以把更多精力留给古籍整理的其他相关工作,对于校勘有误的情况也只需要针对个别的勘误即可。
3 古籍智能整理研究存在的问题
3.1 古籍整理智能化标准还不够规范
古籍智能整理需要规范化的标准,这个标准应当具有普遍性和权威性,这是古籍智能化质量的保证,这个工作需要保障所有智能化研究都有明确的目的和标准。目前对于古籍智能整理研究还缺乏完善的标准,因为制定标准需要考虑的因素较多,既要使智能化可以继续发展创新,又要使智能化能够达到古籍整理的质量要求,这需要消耗大量成本。因此,古籍智能整理研究应当制定出符合当下古籍整理发展的标准规范,促进古籍智能化的长期发展。
3.2 古籍智能整理研究没有引起足够的重视
智能研究需要大量人力、财力作为支撑,没有财力支持很多项目研究只能纸上谈兵。因此,古籍智能整理研究需要引起国家及地方领导的重视和支持,需要让他们了解到古籍整理对于民族发展复兴的重要性,还要使他们意识到古籍人工整理的复杂性及智能化的必要性,从而给予政策及财力的支持,使得更多研究项目得以开展。然而很多地方领导的工作重心在发展地方经济,对于古籍整理工作并没有引起足够重视。
3.3 古籍整理的版权保护问题
随着古籍智能整理研究的发展,很多古籍资料和信息通过计算机网络能够收集到部分信息,刚开始进行智能化整理的时候没有注重古籍的版权保护问题,导致很多古籍在智能化过程中遭受非法盗用,使得古籍研究所蒙受损失。因此,在古籍智能整理的工作过程中应当注意保护问题,尤其是将古籍数据化之后,更需要通过科学技术建立屏障,防止古籍被盗印、盗用。
3.4 合理确定古籍智能化处理的程度
古籍是历史遗传下来的文化财富,大多具有不可复制性,因此需要格外珍视古籍资源,古籍智能整理就是对古籍的一种有效保护。但是,当前对所有古籍都进行智能化处理存在一定难度且非常消耗成本,所以针对古籍智能化加工也需要判定合适的程度,不能够一意孤行,为了让所有古籍都实现智能化不惜快速消耗经费。对于成本较高且目前技术无法企及的内容,可以先进行简单处理,如先扫描古籍制成图片保存,待后续经费及技术都能够达到再进行智能化处理。
4 结语
古籍智能整理研究不仅需要古籍专家学者积极参与,还需要计算机技术人才及相关领域人才的投入。目前,古籍智能整理研究已经有了发展,但是还需要认清现实存在的问题和不足,并积极从多方面入手进行完善,让智能化真正走入古籍整理。
参考文献
[1]刘志江.略谈古籍数字化的问题与对策[J].出版参考,2019(10):50-52.