陈亮(太仓市档案局,江苏太仓,215400)
人工智能技术在智慧档案馆建设中的应用初探
——以太仓市档案馆为例
陈亮
(太仓市档案局,江苏太仓,215400)
太仓市档案馆
近年来,随着IBM公司“智慧地球”概念的提出,引发了全世界智慧城市建设的热潮。智慧交通、智慧城管、智慧图书馆等一大批新事物不断涌现,相关的技术和管理措施成为新的研究方向。在新技术发展浪潮中,我们档案部门提出了“智慧档案馆”的发展理念、工作目标和实现路径,开发建设智慧档案馆,为档案馆事业发展谋划新的蓝图。
1.人工智能的发展前景
人工智能(Artificial Intelligence)诞生于20世纪50年代,英文缩写为AI。人工智能是研究怎样使计算机来模仿人脑所从事的推理、证明、识别、理解、设计、学习、思考以及问题求解等思维活动,来解决需要人类专家才能处理的复杂问题。它的研究范围包括:智能搜索、逻辑推理、信息感应辩证处理、语言学习与处理、知识表现和获取、规划决策、软计算等,涉及认知科学、数学、计算机科学、控制论等多种学科。
近几年,人工智能技术突飞猛进,应用范围日益宽广。2013年,基于自然语言搜索和云计算技术开发的Warren金融数据分析系统投入商用。数年间,Warren在金融分析上的卓越表现已经胜过了专业的分析师,让高盛、摩根大通等无数金融机构趋之若鹜。2016年3月,采用MCTS搜索和DCNN网络等人工智能技术的围棋程序AlphaGo战胜了世界冠军李世石,它的胜利标志着人工智能发展到了一个新高度。
2.智慧档案馆:数字档案馆的升级版
当前,档案信息化建设的核心内容是数字档案馆。它以数字技术处理和存储传统载体档案信息、电子档案及目录信息,应用网络技术实现档案信息检索和利用。数字档案馆的产生解决了传统档案固有的寿命有限和利用范围有限的问题,使档案信息得以脱离传统载体束缚,给档案工作带来革命性变革。但是,数字档案馆只是方便了档案利用,并不具备帮助档案管理人员开展业务工作及辅助档案用户思维的工作。随着技术的发展,在数字档案馆的基础上,采用云计算、物联网、人工智能技术,将使档案信息化建设推向一个新阶段。
现在,档案资源愈加多元,包括传统档案、原生电子档案、档案目录数据库、档案全文数据库等。经过多年的档案信息化,电子档案数据规模呈几何级数增长。笔者所在的县级市档案馆,馆藏数字化档案存储已经超过30TB,每年新产生的档案数据也在TB量级。如此大量的数据,一般的存储和处理技术是无法胜任的,“智慧档案馆”应运而生。
智慧档案馆面对的是海量数据的运算和存储,而要解决海量数据带来的一系列问题,云计算是不可或缺的途径。云计算技术包括分布式处理、分布式数据库、云存储、人工智能和虚拟化技术。构建“云”,离不开软硬件基础设施。在软件层面上,过去的集中式串行计算程序,已不适应分布式环境的要求,并行计算、网格计算、人工智能是“云”上管理大数据的关键技术。智慧档案馆的“智”就体现在人工智能技术上,它是智慧档案馆开发建设的技术引擎。
下面从几个方面探讨在智慧档案馆建设上可以采用的人工智能技术。
1.档案资源收集
文本挖掘也称为文档挖掘或文本(数据库)的知识发现,是目前人们很关心的一个研究热点。举个例子来说,我们在档案编研过程中,需要检索大量的资料,而在人类汗牛充栋的历史文献中找寻是相当费时费力的。智能Agent是数据挖掘方面的人工智能产品,我们所熟知的Google爬虫、百度蜘蛛,都是智能Agent。Google或者百度都是通过智能Agent在浩如烟海的网络世界中,收集整理近乎所有的人类知识的数字化成果。有了它们,海量信息变得唾手可得。智能搜索可以为档案的检索利用提供方便,提高效率。
2.档案智能分类
传统档案分类是依据一定的标准,按照档案来源、时间、内容和形式特征的异同点,对档案进行有层次的区分,并形成相应的体系。随着原生电子档案等一些新类型档案的出现,档案分类方法需要进一步的发展。对电子档案进行智能分类是档案管理中的一种新方法。
自然语言理解是研究如何让计算机理解人类自然语言的一个研究领域,也是人工智能的一项重要研究领域,它主要包括词法分析、句法分析、语义分析等。分析过程一般采用乔姆斯基语法,结合各自国家母语语料库,用有限状态自动机扫描待识别文本,经过深度学习后,生成统一的中间语言,在中间语言的基础上实现各种应用。
因此,自然语言理解可以在数字档案的智能分类上发挥作用,我们在拥有全文数据库的基础上,运用人工智能机器,按照专业的档案分类法,自动生成专题数据库。有了层次合理、结构规范的档案专题库之后,针对不同的查档人、查档目的,智能搜索引擎可以快速精准地推送不同的检索结果。从手工翻阅、机械式检索到智能检索,人工智能技术将给档案业务工作带来革命性的变化。
3.档案安全管理
现今,档案安全主要包括实体档案安全和数字档案安全。
实体档案的安全主要是库房的安全。带智能识别功能的门禁系统可广泛应用于各种重点库房的安保。人工智能有一项研究内容是机器视、听、触觉及思维方式的模拟,包括:声纹识别、指纹识别、人脸识别、视网膜识别、虹膜识别等。现在,智能识别技术已经成熟,国内知名的有Face++(应用于支付宝的人脸识别)、格灵深瞳、捷通华声等。我们采用有识别技术的安防系统可以在接触档案的人员和实体档案之间建立起一道安全屏障。
数字档案的安全主要包括存储安全和通讯安全。现阶段,我们的数字档案馆系统一般采用集中式存储。随着数据量的爆炸式增长,存储空间成为一道瓶颈。新一代的档案云将采用分布式存储,这种存储方式要求更为安全更为高效的数据管理手段,而人工智能是首选。国内外许多大型科技公司在资源配置、业务调度、安全防护等方面已经广泛采用人工智能技术。人工智能技术可在档案云的智能存储调度、智能安防方面发挥举足轻重的作用。数字档案的通讯安全是档案网络建设的一个重点。
4.档案网络建设
相对于普通网络而言,档案网络必须专网专用、其保密性要求更高。现代网络技术飞速发展,一方面网络速度突飞猛进,另一方面网络上的系统漏洞层出不穷,给档案网络建设带来了机遇与挑战。
人工智能在网络上的应用有智能防火墙、智能路由、智能云等。
智能防火墙是一种更聪明、更智能的防火墙,它克服了传统防火墙“一管就死,一放就乱”的状况,把“出口”的概念改变为“关口”的概念,所有经过“关口”的数据包都必须接受防火墙的检查。与传统防火墙采用的数据匹配检查的技术不同,新的智能防火墙采用人工智能识别技术来决定访问控制,比传统的防火墙更安全,效率更高。它成功地解决了普遍存在的拒绝服务攻击(DDOS)的问题、病毒传播问题和高级应用入侵问题,代表着防火墙的主流发展方向。
智能路由是在动态路由的基础上发展出来的新一代路由技术,它具有简洁、低耗、低时延、负载均衡、健壮稳定、快速聚合、高度灵活等特点。在链路状态算法或距离矢量算法的基础上加入人工智能计算单元,动态建立路由表,优化数据传输。在发生网络故障时,它能快速屏蔽故障节点,即时重建路由,优选最短路径,最大限度保障网络畅通,减少用户因为网络故障带来的损失。
智能云是分布式计算、并行计算、效用计算、网络存储、虚拟化、负载均衡、热备份冗余等传统计算机和网络技术发展融合的产物。云计算需要对分布的、海量的数据进行处理、分析,必须能够高效地管理大量的数据,只有依靠人工智能技术,才能实现大规模系统的可靠运行。如IBM的Watson、微软的Azure、谷歌的Compute Engine、亚马逊的AWS等均集成了强大的人工智能运算单元。
因此,在档案网络建设中采用带有人工智能技术的网络设备可以显著提高档案网络的安全性、稳定性,实现效用最大化。
太仓市档案馆很早就开展了数字档案馆室系统的建设,经过多年的应用研究和多次的技术改进,相关系统已日臻成熟,这其中就应用了一些人工智能技术。
对前文所述的档案数字资源收集和智能分类,我们馆藏系统有一项“全文检索”功能,就是运用了智能Agent技术。以前在我们查找需要的档案时,一般是按照关键字来检索目录数据库,但是这种查找不像我们认为的那样简单,因为现在的馆藏数字档案文件数量都在百万以上,特别是在我们不知道档案在馆藏中的全宗、门类或位置时,检索就非常耗时。因此,我们在系统中加入了智能Agent。在前期的档案数字化和OCR的成果基础上,这个小“爬虫”定期地扫描馆藏数字档案的存储区域,把可用的文字信息自动地分类后存入指定的全文数据库(CFS文件)中。在我们检索全文的时候,系统在保存的全文数据库中搜索,使查询时间控制在0.1秒以下。它的使用显著提高了检索速度。但是与谷歌和百度的智能Agent相比,这个小“爬虫”在功能和效率上要相对落后许多,在智慧档案馆的未来建设中,它需要做更多的升级优化来满足大数据的挑战。
在档案安全和档案网络建设上,我们在新馆建设中采用了集中控制的门禁系统、全方位的立体监控系统、可升级固件和策略的防火墙等网络设备。近几年,在人工智能技术的带动下,出现了带人脸识别或者虹膜识别的门禁系统、能识别和定位人与物的监控跟踪系统、可识别代码行为特征的智能防火墙。作为升级换代,这些新设施设备的逐步采用,将给档案的管理带来全方位的效率提升。
目前,太仓市数字档案系统采用B/S架构、集中式存储。在近10年的使用中,系统高效稳定。但形势不断变化、新技术也不断涌现,我们必须改造现有的系统以适应新的发展环境。网络技术发展有一条定律叫梅特卡夫定律,其内容是:网络的价值与联网的用户数的平方成正比。因此,随着档案事业的发展,拥有海量用户的档案云是我们新时期档案网络建设的目标。档案云连接所有归档单位,形成档案集群,使其中的电子档案实现分布式存储、异地调取,利用智能Agent来提高档案业务工作的效率,通过智能身份识别来杜绝非法访问,从而保证档案的安全。这些智能系统的研发技术已渐趋成熟,它们不是虚幻的,它们会在不久的将来被广泛应用。
人工智能技术正在全世界迅速地发展中,中国也不能落后。今年两会上,政协委员李彦宏建议设立“中国大脑”计划,推动人工智能跨越发展,抢占新一轮科技革命制高点。人工智能是21世纪最为前沿的技术之一,其发展将极大地提升和扩展人类的能力边界,对促进技术创新、提升国家竞争优势乃至推动人类社会发展产生深远影响。当前,人工智能正迎来新一轮创新发展期,欧美等发达国家纷纷从国家战略层面加紧布局,以引领新一轮科技创新大潮。我们在“智慧档案馆”的建设中,可以广泛采用已经取得成果的各项人工智能技术,推动新一轮的档案信息技术革新。把握住这一时代的脉搏,可以实现档案事业的跨越式发展。
[1]杨来青,徐明君,邹杰.档案馆未来发展的新前景∶智慧档案馆[J].《中国档案》,2013(2)∶68-70.
[2]张仰森.人工智能原理与应用[M].高等教育出版社.2004.