人工智能应用图书编目前景展望

2021-04-09 01:31林远红
内蒙古科技与经济 2021年5期
关键词:编目书目智能化

林远红

(重庆图书馆,重庆 400037)

在过去的50年中,图书编目已由手工编目完全过度到了以机读目录为格式的文献编目自动化和网络化阶段。书目数据共建共享极大提高了图书馆的编目效率,但是一条书目数据的创建仍然是一项耗时、耗力、低产出的工作,鉴于此,越来越多的图书馆选择书目数据外包。但是馆配商向图书馆提供的书目数据质量不高,除了编目描述错误外,主要的问题是主题分析不准确,分类标引错误等,完全达不到行业要求。最终,编目人员仍然要对书目数据进行逐项审校。编目员反复翻阅分类法、查阅主题词,繁重、机械、低效率的工作与高速的网络化时代似乎显得格格不入。于是笔者寄希望于人工智能技术,通过万方数据库查看相关论文和书籍,梳理人工智能的起源、编目专家系统的研究、智能标引技术、智能分类技术等这些与智能编目相关的信息,同时对人工智能的技术与应用前景也进行了解,希望能从中找到二者的融合点,真正把图书编目带进智能时代。

1 AI技术在编目领域发展现状

1.1 AI技术的定义

人工智能(Artificial Intelligence)技术,从1956年首次被提出,已经有六十多年发展历程。它先后经历了3次“热潮”与“寒冬”交替的发展阶段。第一阶段:20世纪50年代到60年代时期。1956年美国达特茅斯会议首次提出“人工智能”术语,并将像人类那样思考的机器称为“人工智能”。随后人们以“推理”和“搜索”为规则,模仿人类思维方式总结思维规则,开展了数学证明系统、知识推理系统技术与应用的研究计划。对于规则性强的领域,由于受限于计算机的运算能力,对于解决现实生活中的复杂问题,比如翻译、医疗很难如意。因此到了20世纪70年代初人工智能变得萧条冷寂。第二阶段:20世纪80年代到90年代,以LIPS语言为基础,以日本CYC项目为代表的知识库。它依靠“有规则的知识”的支撑,导入各领域“知识”使计算机变得更聪明,并称之为“专家系统”。例如,斯坦福大学开发的MYCIN系统,它能对血液病患者进行诊断,并开出抗生素处方。在这一时期,知识表示,本体研究、机器翻译都得到相应的发展。知识导入型专家系统确实具有一定的产业实用性,但是,知识描述之复杂与机器理解的困难让人工智能又一次望而却步。最终,专家系统被淘汰。第三阶段: 20世纪90年代后半期,搜索引擎的诞生与普及,产生了大量的可用数据,以大数据为导向的机器学习为人工智能的发展带来了新的契机。在技术领域,以DeepMind公司为首的深度学习也进入了更深层次的研究阶段,深度学习+大规模计算+大数据把人工智能推向一个新的时代。人工智能在语音识别、机器视觉、数据挖掘、智慧医疗等多个领域得到实现。同往常以理论学术研究为主导不一样,这次是以资本为推手,着力解决实际问题为目的的人工智能。技术的进步为智能编目提供了可能性。

1.2 AI技术应用图书编目现状

回顾历史,从20世纪70年代以来,AI就逐渐应用到图书馆管理和服务的各个环节,出现了各类专家系统,例如图书馆咨询专家系统、图书分类专家系统、信息检索专家系统、编目专家系统。文献的编目包括描述文献的物理形态,选取检索点;分类、主题标引;规范控制3个方面。笔者以编目的3个方面为检索内容,时间区间为1980年~2020年,分别用编目and(专家系统or自动化);分类and(专家系统or自动化);标引and(专家系统or自动化)等词在万方数据库中进行组配检索,通过认真筛选,详细阅读,得出了近年来编目领域专家系统的研究概况。编目专家系统领域的研究范围涉及以下5个主题,研究文献主题及年代分布见表1。

表1 40年以来发表论文的主题及年代分布

图书编目经过了几十年的发展,在自动标引、自动分类、自动编目等领域,在理论上都取得了长足的发展。其中,在编目描述领域,编目的智能主要体现在编目专家系统的研究。早期的编目专家系统功能相对比较简单,能进行一些简单的规则使用和著录项目识别,例如:伦敦工业学院的Black W. J.等人设计的HEADS系统,它能完成简单的编目过程,但是对一些特殊的规则和字符串无法处理;同在伦敦工业学院的Eyre 用Prolog语言设计了专门用于责任者名称的系统。这两个系统优势各不相同,但都无法独立完成编目工作。同时期的还有Ercegovac设计了一个包含编目规则和专家知识库的编目专家系统;匹兹堡大学的Katz等人设计了Maccat等原型编目专家系统 。前期的研究成果虽然没有真正实现编目自动化,但是为图书编目各个模块实现智能识别和编目提供了思路。

随着计算机、光学识别和软件技术的不断发展,编目专家系统的研究进入一个新的活跃期。20世纪70年代,OCLC研制了Automated litlepage cataloguing系统,该系统主要应用OCR光学识别技术对题名页进行识别,再通过编目规则和其他要素来进行编目。最终正确识别率可达到89%。同时用于对责任者进行识别的UCLA的Motto与Svenomius的系统研制出来了,它主要应用OCR技术,以OCLC的规范文档和出版商名录、姓氏人名大字典等工具对题名页的人名、团体名称进行识别,团体名称正确率可达85.8%,个人名称成功率可达84.5%。

1984年英国Exeter大学的Davies和James采用Prolog语言研制出第一个编目专家系统。随后,Hjerppe在瑞典Linkkoping大学研制了以选取款目检索点核心的Esscape系统。1986年,威斯康星大学开发了MITI/MARC编目专家系统,并实现了现实编目工作中的应用。国内编目专家系统方面的研究除了理论上的一些介绍和想法外,基于实践的编目专家系统几乎为零。成绩最为突出的以国家图书馆编制的《中国图书馆分类法》(第五版)Web版和《中国分类主题词表》Web版,虽然它仅仅是一种工具,但是同样是编目自动化的一部分。几十年的发展研究,编目专家系统在理论和实证方面都得到了很大的进步,虽然最终没有哪一个系统正式投入使用,但是对于编目的智能化进行了探索。

在自动标引理论方面,分别开创了基于本体、决策树、小世界网络、条件随机场、粗集理论、遗传算法等理论,例如:以南京农业大学侯汉清为中心设计构建的以创新知识库开始的文献主题词自动标引和自动分类方法体系。在文献分类理论方面,提出了使用TF-IDF算法和朴素贝叶斯算法、KNN、决策树法、中心向量法、支持向量机,以及基于卷积神经网络的文献自动分类法。

综上所述,人工智能从1956年被提出,到最终应用于各大图书馆,已有六十多年的历程。现阶段虽然还没有实现编目智能化,但是在编目描述、分类、主题标引方面的智能化研究已取得了进步。相信先进的算法、理论和人工智能技术相结合,编目智能化实现也是指日可待。

2 人工智能应用图书编目的前景展望

2.1 人工智能新技术与编目理论的深度融合

人工智能技术在经历了几十年潮起潮落的漫长发展历程之后,在知识表示、自动推理和搜索方法、机器学习和知识获取、知识处理系统、自然语言理解、计算机视觉、智能机器人、自动程序设计等领域有了新的进展。技术上的突破为图书编目智能化实现增加了可能性。同时,图书编目理论从AACR2发展到了RDA,编目理论的发展也非常成熟和完备。实现编目的智能化,必需聚集技术前沿的融合:人工智能技术+大数据+图书编目理论框架。图书编目理论是其中主导部分,结合自然语言理解、深度学习等技术,借用大数据使得编目规则更容易被机器理解。人工智能新技术、规范数据和算法是人工智能与图书编目应用发展的3个关键要素。新的技术为智能编目提供技术基础,大规模规范的数据为计算机深度学习提供内容基础,合适的算法模型为智能编目的实现提供有效的途径。

图书编目发展到今天,已经形成了相当完整的可操作的规则库。以中文图书为例在编目描述阶段,有《中文书目数据标准》《中文书目数据制作》等以规则和实例为一体的操作手册。在图书分类标引方面,有Web版的《中国图书馆分类法》;在主题标引方面有Web版的《中国分类主题词表》,在对著者、题名进行规范方面,有国家图书馆的规范库。这些基础数据经过长时期的发展都形成了比较完整的、稳定的系统。

2.2 以大数据为基础的机器深度学习模型

从根本上来说,深度学习就是一种用数学模型对真实世界中的特定问题进行建模,以解决领域内相似问题的过程。它把计算机要学习的东西看成一大堆数据,把这些数据丢进一个复杂的、包含多个层级的数据处理网络,然后检查经过这个网络处理得到的结果数据。深度学习不仅仅是“全盘记忆”来解决问题,它已经转向特征记忆的学习。深度学习的算法使用了大量来自特定领域的数据,让系统使用这些输入的数据,训练自己识别数据和期望结果之间的关联性。大量的相关数据、强大的算法、足够细化的领域以及明确的目标,使得人工智能得以实现。就编目而言,要实现机器像人一样,自动著录一条完整、准确的数据,是不可想象的。但是,可以通过多路径协作的模式来实现智能编目。从编目的流程来看,一本图书要完成编目,需要经过图书物理特征的描述、图书主题内容揭示、规范控制3个模块。让这3个模块单独进行深度学习训练,等到各个深度学习的模块调整到最优状态,再让他们相互作用,相互影响。通过将无数个不同目标的深度学习相互连接协调,使其真正实现编目智能化。智能编目所需的大数据来源于:系统已有的规范书目数据、读者检索用关键词、网络书目数据、网络书评、出版社数据等。除了初始的数据外,国家图书馆开发的Web版《中国分类主题词表》、Web版《中国图书馆分类法》、规范数据库等,这些规范的数据,都为深度学习提供了数据支撑。

2.3 书目数据上、下游在技术与理念的合作共建共享

回想起人工智能两次热潮的来、去均遭遇了相同的命运。研究人员纷纷转行、经济支撑不足的一幕还历历在目。面对第三次人工智能热潮,虽然理论和技术都有了很大的提升,但还是处于探索阶段。人工智能应用图书编目前景目标遥远,仍需极力去探寻实现的途径。人工智能与图书编目融合发展也面临着技术上的突破、经济支撑不足、专业人才缺乏的现实困境。未来人工智能与图书编目应用的前景,需要在技术、数据、算法和人才4个层面协同推进,即要加强人工智能与出版界融合发展的技术研究,也要深入与互联网图书网站的数据共建共享。联合人工智能与出版界、互联网图书行业的数据内容生产,创新人工智能与各方发展的有效合作模式,搭建和完善整个人才培养体系,最终让编目智能化走向工作实践。

3 结束语

随着人工智能、大数据等信息技术的发展,探索人工智能应用于图书编目已经可行。应用人工智能技术将图书数据进行智能化处理,可以最大限度发挥人机结合优势。因此,以新的编目条例为核心、以机读目录为支持,借助人工智能技术,通过智能化新算法的研究,最终建立具有智能编目的高效运行系统,从而进一步提升编目的效率。

猜你喜欢
编目书目智能化
智能化战争多维透视
推荐书目《初春之城》
探讨智能化技术在电气工程自动化中的应用
试析图书馆编目的边缘化与编目馆员的转型
住宅小区弱电智能化工程建设实现
大型公共建筑智能化系统造价控制
网络环境下图书馆编目工作问题探讨
新形势下高校图书馆编目工作面临的挑战和发展契机探讨
高校图书馆编目业务外包下的数据质量控制
《全国新书目》2009年1月荐书榜