石博文
人工智能(AI)是研究用计算机来模仿人脑所从事的推理、证明、识别、学习、思考等活动的理论、方法和技术,被工业界称为第四次工业革命。近年来,随着大数据、云计算、物联网等的发展,各大科技巨头公司都在布局人工智能,许多领域都在寻找突破口,对AI的研究和应用如火如荼。本文在分析人工智能发展情况的基础上,研究了AI在数字档案馆中的应用,并对人工智能时代数字档案馆的发展进行了思考。
一、人工智能蓬勃发展
(一)人工智能发展概况
1956年在美国的达特茅斯大学召开的学术研讨会中提出了“人工智能”这一术语,标志着这门学科的正式诞生。人工智能的发展先后经历了三次热潮:二十世纪五六十年代,以图灵测试为标志,人工智能在研究者中掀起第一次热潮;二十世纪八九十年代的第二次热潮中,语音识别是最具代表性的突破性进展之一;2006年至今,深度学习携手大数据引领第三次AI浪潮,深度学习成为至今乃至未来很长一段时间引领人工智能发展的核心技术。
进入21世纪后,许多国家都在积极探索人工智能。2016年10月,美国白宫科技政策办公室发布题为Preparing for the Future of Artificial Intelligence和The National Artificial Intelligence Research and Development Strategic Plan两份报告;英国也发布了Artificial Intelligence: opportunities and implications for the future of decision making(2016)等报告,两国均将人工智能发展列为国家核心战略。我国目前也在致力于人工智能的研究。2017年3月,人工智能首次被写入全国政府工作报告,指出要加快培育壮大包括人工智能在内的新兴产业,中国人工智能迎来真正的新元年。7月,国务院印发《新一代人工智能发展规划的通知》,提出“把人工智能发展放在国家战略层面系统布局、主动谋划”,这是首部国家层面的人工智能发展规划。2018年,人工智能再次被写入政府工作报告,同样是写进政府工作报告,但与2017年不同的是提出了“加强新一代人工智能研发应用”。
(二)人工智能研究的基本内容
人工智能研究涉及内容广泛,包括“知识表示、搜索技术、机器学习、求解数据和知识不确定性问题的各种方法等。”随着人工智能理论研究的发展和成熟,人工智能的应用领域更加宽广,应用的效果也更加显著。人工智能的应用领域则包括专家系统,如诊断和治疗细菌感染疾病的咨询系统MYCIN、修理原油储油槽之专家系统SECOFOR、制造和运输行程安排的专家系统ISA、探矿专家系统PROSPECTOR等;自然语言处理,自然语言处理技术包括机器翻译、自然语言理解、文字识别、文字码等;人工神经网络,在信息领域中的应用体现在信息处理、模式识别等方面,其中模式识别近些年被广泛应用到指纹识别、遥感图像识别、手写字符识别、人脸识别等方面;自动定理证明,其理论价值和应用范围不局限于数学领域,如医疗诊断、信息检索、规划制定和难题求解等都可以转化为相应的定理证明问题;机器人,如亚马逊公司的仓储机器人、专门递送包裹的无人机、教育机器人和家庭机器人等。
人工智能已深入各行各业,包括交通、金融、教育、医疗等领域,并发展成为行业热点。许多行业面临着智能化转型的迫切需要,档案馆也不例外。如何抓住人工智能发展机遇,打造新时代智慧档案是档案馆必须要思考的问题。2018年4月,国家档案局科研所与科大讯飞签署全面战略合作协议,双方将利用人工智能打造智慧档案并成立联合实验室,共同构建新型人工智能智慧档案行业标准,共同推动人工智能技术在档案管理中的应用,共同打造“档案超脑”新业态。这是档案领域对人工智能时代做出的一次积极回应,“档案事业从此进入人工智能的新时代”。
二、人工智能在数字档案馆中的应用
AI在数字档案馆的中可应用的技术包括自然语言处理、模式识别、专家系统、模糊逻辑等,可应用领域分布在档案的收集、整理、存储、利用等环节。
(一)档案收集
除接收常规电子档案外,网络采集与获取的数字档案信息资源至关重要,是对数字档案馆馆藏的有效补充。而网络信息资源的采集和获取就需要智能Agent技术,我们所熟知的谷歌爬虫和百度蜘蛛就采用了这一技术。通过智能Agent,采集分布在其他数字档案馆、政府信息资源库、行业数据库、网站的数字档案信息,捕获具有地方特色的档案和关系公众利益的民生档案等,以丰富馆藏内容,优化馆藏结构。
(二)档案整理
智能OCR识别。档案全文数据库是数字档案馆资源建设的主体,而库内档案信息资源并非数字化档案的简单堆积,而是应能对档案内容进行引用、检索等操作。因此,对传统形式档案进行数字化加工后,还必须将其转化为真正文本形态的电子档案。光学字符识别(OCR)技术可将图片、照片上的文字内容直接转换为可编辑的文本,但传统OCR仅适用于经过严格排版的文字,而对于不太规整的手寫卷宗则难以识别。但通过人工神经网络的辅助,可以对手写字体和数字等进行识别。梵蒂冈秘密档案馆(Vatican Secret Archives)的Codice Ratio项目,就是利用人工智能和OCR软件的组合对馆内手写古文进行识别,且该软件手写字母识别准确率已达96%。
档案著录和标引。档案著录是在编制档案目录时,对档案文件的分类号、主题词、摘要、时间、档号、文种等记录项进行分析和揭示的过程;档案标引是赋予档案规范化检索标识的过程。档案著录和标引是辅助检索的重要手段,是编制档案检索工具和建立档案数据库的前提。但大数据时代的到来,给人工进行档案著录标引带来了巨大的工作量和压力。人工智能就能够帮助人类缓解这一工作压力,通过对档案中的人名、地名、时间等进行自动识别,提取著录标引信息,形成档案目录,甚至编制档案摘要。
(三)档案存储
智能档案实体存储。档案馆库是传统档案存储的“栖身之所”,也是数字档案资源保存的“母体”;此外,用户对馆舍空间体验的要求越来越高。因此,随着人工智能技术和物联网技术的发展,建设数字档案馆智能化建筑具有必要性和可行性。數字档案馆馆舍建筑智能化包括两部分:一是内部设施物联化。首先,通过物联网技术,将档案馆内资源进行预先定义、感知和采集,为智能化管理打下基础。其后,借助人工智能语音识别、视频识别技术进行情景感知信息的收集,再通过信息收集后的数据挖掘技术,实现对馆舍资源的控制和调配,如档案工作者可通过智能手机来对所查档案进行定位。二是建筑系统智能化,包括智能照明系统、智能通风系统、智能消防系统、智能安保系统、智能温湿度控制系统等。例如,采用机器视觉技术,包括声音识别、指纹识别、虹膜识别等智能识别技术建立起的智能安防系统,为档案实体安全存储提供保障。
档案信息安全智能保护。档案安全存储不仅包括档案实体的安全,还包括档案信息安全;而人工智能技术又能为档案信息安全提供保障,这体现在智能防火墙和智能入侵检测技术在数字档案馆中的应用上。智能防火墙技术“从技术特征上,是利用统计、记忆、概率和决策的智能方法来对数据进行识别,并达到访问控制的目的。”该技术能识别进入数字档案馆的恶意流量数据,能阻断病毒恶意传播,并对档案馆内部局域网进行监控和管理。智能入侵检测技术引入了AI领域的专家系统、人工神经网络、数据挖掘等技术,以此对恶意入侵进行有效监控和阻断。
(四)档案利用
谷歌很早就开始用机器学习技术帮助搜索引擎完成结果排序,计算网页排序的数学模型及模型中的每一个参数不完全是由人预先定义的,而是由计算机在大数据的基础上,通过复杂的迭代过程自动学习得到的。谷歌搜索已经是一个绝大部分由人工智能技术支撑的新一代搜索引擎。近年来,随着语言识别、自然语言理解、知识图谱、个性化推荐、网页排序等技术在谷歌、百度等搜索引擎的应用,他们已经成为世界上最大的知识引擎和个人助理。
本文认为商业搜索引擎成功的案例值得数字档案馆借鉴,数字档案馆可以将机器学习、自然语言理解、专家系统、语言识别等技术应用到检索工作中,打造智能化、个性化、交互式的检索工具,实现以下功能:一是拓展档案资源搜索数据来源,打破数字档案馆之间、与其他信息机构间和网络信息资源之间的鸿沟,并突破语言限制。二是实现档案搜索智能问答,借助机器学习,把搜索查询转化为可回答问句的交互形式,提升交互效果;三是优化文献资源利用搜索呈现技术,通过深度学习算法,实现对用户属性、状态、兴趣等信息的判断,借助知识图谱,为用户推送感兴趣的档案信息,使搜索结果更加人性化,为用户提供更好的查档体验。
三、人工智能时代数字档案馆发展的思考
(一)档案工作者的未来发展
创新工厂创始人李开复曾提出“五秒钟准则”,即“一项本来由人从事的工作,如果人可以在5秒钟以内对工作中需要思考和决策的问题做出相应的决定,那么,这项工作就有非常大的可能被人工智能技术全部或部分取代。”细细想来,现在的档案工作大部分具有机械性、可重复性,被取代的概率很高。档案工作者应该具有“危机意识”,需不断进行继续教育和自我提升,提高档案人员在工作中的知识含量和脑力运用,使自身成为不可或缺的人才。一是培养自身创新意识。李彦宏曾说:“人工智能时代需要更有创意的人才。” “五秒钟准则” 并不意味着所有“5秒”以内的工作将被取代,相反,很多工作将会转变为新的工作机会。人工智能时代档案事业的发展需要具有创新和学习能力的人才,需要档案人员在新的工作机会下提供更多创意。二是提高自身数据素养。人工智能迅速发展的基础是大数据,只有在大数据的支撑下人工智能才能发挥作用。对档案工作者来说,保持数据敏感性,掌握大数据收集、分析、处理和利用大数据进行决策的能力,是提高自身含金量的方法。
(二)利用服务的变革
人工智能时代,档案工作者不进行自我改进和提升,就极有可能被取代;而数字档案馆不对利用服务进行创新和变革,就有可能被边缘化,甚至走向消亡。人工智能技术在档案利用服务变革中的作用体现在以下:一是开展精准的智能信息服务。数字档案馆可基于大数据对用户信息进行收集,获取档案用户的信息利用兴趣、习惯、专业领域等内容,通过模糊逻辑,向用户进行精准、个性化、高质量地知识推送。如2017年两会期间光明日报推出的人工智能融媒体产品“小明AI两会”,用户只要用手机拍一张全国两会代表委员的照片,小明就能识别出照片的身份信息,并以人物图谱的形式,展示与其关注同样领域的其他代表委员。二是通过人工智能产品,如机器人提供参考咨询等服务。机器人技术基于机器学习和自然语言处理,这种目前已应用于商业和图书馆领域的机器人可以为数字档案馆进行馆内导航和提供参考咨询服务。如甘肃敦煌市图书馆2017年引进的机器人“小图”,不仅可以帮助读者搜索书籍、询问馆藏,而且可与用户进行聊天、讲笑话、跳舞唱歌等互动。2015年义乌市档案馆也引进了机器人,用以讲解侵华日军细菌战罪行及“义乌兵抗倭”的故事,但功能较少。数字档案馆可以学习图书馆的相关经验,引入人工智能产品,提升服务质量。
总之,随着社会与科学技术的不断进步,人工智能将渗入到我们工作和生活的各个方面。人工智能正迅速与工业、商业、金融业、服务业等行业融合,推动经济和社会不断演变。人工智能时代,数字档案馆应当不断进行技术创新,将人工智能与数字档案馆融合,真正实现“AI+数字档案馆”,创造数字档案馆新的发展生态。
(作者单位:上海海关学院)