杨晶晶/中国计量大学档案馆
人工智能生成内容(Artificial Intelligence Generate Content,下简称AIGC),通过人工智能实现文本、图像、音频、视频及其跨模态间的内容生成,可用于绘画创作、文本写作、音像生成、游戏开发等多种类型的内容创作。AIGC技术是生成算法、预训练模型、多模态等人工智能(AI)技术的累积融合[1]。传统AI利用机器学习技术学习数据分布,在文本识别、语音识别、图像识别、运营决策、风险评估和医疗诊断等领域广泛应用。生成式人工智能[2]在归纳数据分布的基础上,学习数据产生的模式并创造新样本,实现在文字创造、图像语音生成、代码生成等领域的技术应用。AI领域正在经历从感知、理解到生成、创造的跃迁。
截至2 0 2 3 年5 月2 6 日,在中国学术期刊网以“AIGC”“ChatGPT”“生成式人工智能”“生成式AI”为主题检索近三年发表学术期刊675篇,与档案学相关文献2篇,探讨了ChatGPT实现档案数字化、档案鉴定、档案分类和检索、档案保护和安全等多种档案管理任务[3],提出了ChatGPT火爆背后的冷思考[4]。从文献学的角度,AIGC技术在档案领域的研究和应用还刚刚起步。《“十四五”档案事业发展规划》提出“推动档案工作与新技术深度融合,为档案事业发展提供持续动力”。AIGC作为一种新型内容创作方式,给文化、教育、金融、娱乐和公共服务等诸多领域带来了积极影响,本文拟在档案视角下探索AIGC技术的多种应用场景,为数字时代下的智慧档案建设创新寻找新的思路。
AIGC具有三大前沿能力:智能数字内容孪生能力、智能数字内容编辑能力和智能数字内容创作能力[5]。技术被广泛应用于文本、音频和视觉等不同模态数据,形成了丰富多样的技术应用,在档案的视角下,AIGC技术可深度赋能档案文化遗产保护、服务利用及资源开发、公共教育与文创开发等领域。
智能数字内容孪生能力构建了现实世界到数字世界的映射,是通过对客观世界内容感知、理解的基础上,以多模态数字化内容呈现的形式实现对原物理世界的模拟复刻和场景再现。
一是数字修复还原新视觉。AIGC视觉模型通过对作品属性特征和元素搭配的理解,在海量数据中进行知识和分布学习,实现高质量的数字修复。《富春山居图》被毁于300多年前,百度文心利用“视觉生成大模型+单样本微调”的技术策略,完成了高清晰度、高还原度的残卷修复。数字智能增强能力可应用于照片、音频、视频等声像档案的修复,采用大模型去除破坏干扰因素,实现多维音、画质增强和提升。在三维视觉领域,智能增强技术克服了传统数字化采集的局限,保留了三维世界的深度、材质和光照等重要信息,对场景及细节进行快速和精准的复刻。全球首个超时空参与式博物馆“数字藏经洞”真实再现了敦煌百年前藏经洞及室藏6万余卷文物的珍贵历史场景,项目还开发了沉浸式远程会诊系统,实现无障碍远程文物会诊。互动纪录片《古籍寻游记》在不伤害文物的低噪情况下重建了敦煌石窟中文物的三维结构。
二是声像档案传承新声音。语音智能转译技术已用于重大活动的实时建档、口述档案的实时转写、音视频档案数据化以及实时字幕辅助等场景。2019年,浙江省档案馆在全国率先使用科大讯飞档案机,实现口述历史采集室建设运行、重点档案保护与开发等工作中的成果转化及推广。AIGC语音合成、图像合成等多模态融合技术的应用可实现“故人重现”“经典回溯”“古今同台”等场景[6],使深藏在档案馆里的伟人声音、非遗艺术等声像档案“活”起来。世界首部人工智能配音纪录片《创新中国》通过AI学习已逝著名配音艺术家李易老师过往纪录片的声音资料合成配音,让李易的声音重现。技术的应用还有助于民间声像档案的动态传承,我国“地方方言档案资料库”由于开发缺乏方言元数据标准和国标音标著录等因素影响,库内资源大都停留在静态保存的阶段[7],借助AIGC技术可生成形式多样的方言学习素材,让即将消失的乡音重新发声,使丰富的地方文化得到有效的传承。
AIGC智能数字内容编辑能力构建了数字世界与物理世界间的交互通道。新一代知识增强大语言模型(LLM),以谷歌BERT、OpenAI的GPT和百度文心等为代表,为人机交流提供了智能的交互方式。自然语言处理技术的引入,可实现文本信息的抽取、自动摘要分类和数据分析等操作,通过对内容的语义理解,从研究问题中衍生出新的发现,实现对资源的开发。
一是档案智能检索交互新转变。传统的档案信息检索通过输入检索词等方式进行模糊检索,增加了非专业利用者的搜索和利用难度。大语言模型的运用,用户可通过自然语言交互的方式获得需要的信息,还可对后续问题展开更深层的知识拓展。搜索引擎正逐步实现从“模糊搜索”到“精准推送”的转变。ChatGPT是文本生成式AIGC的典型代表,基于人类反馈的强化学习(RLHF)技术解决了如何使AI模型产生与人类常识和认知、需求和价值观保持一致的难题,它的出现将计算机理解人类语言和反馈解决方法水平提高到全新的层次[8]。微软集成ChatGPT的新版Bing根据用户的想法调整搜索查询,能通过对话的方式调整搜索结果,优化检索体验。
二是档案社会关怀价值新体现。AIGC技术在文本、图像和音视频间多模态的相互转化,将检索结果按照用户所能接受的最佳模态呈现,为我国数量庞大的视障、听障、感官逐渐衰退的老年群体以及智能设备使用无力的边缘人群提供多维感官的交互体验[9],可实现个性化档案服务与社会化人文关怀的完美结合。对于特殊群体,智能检索在社会关怀价值上的体现也更趋多元化,百度输入法搭载文心PLATO对话大模型推出AI侃侃功能,为用户提供真实的情感陪伴式聊天服务,用户在知识获取的同时,体验真实的情感陪伴,让冰冷的知识更有温度。
三是档案编研开发挖掘新深度。传统的信息组织思路是基于学科、主题、关键词等所反映的少量特征信息,而生成式AI可依据的特征维度更丰富,知识组织之间细粒度和关联性更突出。通过对文本的数据分析与知识发现,识别文本信息共性并关联相近内容,实现深入内容层面的档案开发,形成丰富的档案资源开发成果,促进人文研究领域从文本梳理到知识链接、从信息检索到知识发现的转变。耶鲁大学“让二战大屠杀受害者发声(Let Them Speak)”项目,在近3000份大屠杀幸存者留下的视听材料和文字证词中,以文本挖掘和可视化技术帮助研究者探寻档案记录背后更深层次的语义关系和集体记忆[10]。瑞典国家图书馆使用开源Transformer模型对26PB的瑞典语数据创建数据集,帮助语言分析人员回顾瑞典语几个世纪的演变。
AIGC智能数字内容创作能力使计算机从对数据的理解上升到对数据的创作。从数据中学习抽象概念,并基于概念创作出新的内容,包括了AI视频创作、数字人、剧本创作、游戏开发等。我国档案馆公共教育活动多以参观库房、观看展览、影片、听讲解等传统形式为主,未充分考虑教育群体的特点和需求[11]。AIGC技术的应用为不同群体策划知识服务活动,实现知识传授和互动实践的良性循环。
一是档案主题动漫启蒙新思路。“档案教育从娃娃抓起”,针对年龄段较小的教育群体,档案动漫等形式更容易被接受。AI短片制作可实现AI动画表演、场景和角色生成、细节动态效果生成、自动布光渲染、虚拟拍摄及衍生品开发等。微软NUWA-XL人工智能仅用16句描述词生成了长达11分钟的2D动画。Netflix、微软小冰日本分部、WIT STUDIO共同创作了首部发行级别AIGC动画短片《犬与少年》。首部AIGC中文漫画《ARES觉醒》已在腾讯动漫平台上连载,艺术家王睿将高泽龙小说《元宇宙2086》文本转化为可视图像,实现了AIGC生成完整情节的漫画[12]。以AIGC辅助开展档案主题动漫的创作为幼儿档案文化和意识的启蒙开拓了新的思路。
二是档案数字人互动新体验。针对青少年群体,兼具知识性和互动性的虚拟数字人更符合其发展特点。2021年元宇宙概念盛行,国内外虚拟数字人扎堆出现。这一阶段,虚拟人大多存在“动作神态僵硬、对话交互性弱、视频效果粗糙”等缺陷,宣传意义大于实践。随着AIGC技术发展,技术平台依靠短时间的视频素材进行多模态预训练,可实现小样本快速定制虚拟人产品,在人像驱动、智能对话和语音交互等领域也逐渐成熟。通过给予数字化档案训练语料,虚拟数字人可充当不同年龄段学习群体的档案数字助教和孪生学伴,提供档案智能问答、沉浸式情境教学、交流研讨等知识服务,为青少年群体提供更逼真、更人性化的交互体验。
三是档案剧本创作开发新视角。数字内容创作为历史文化档案的开发创造了新的视角。技术通过对多模态历史档案数据的分析归纳,按照预设风格快速生成剧本方案,为档案开发人员进行筛选和二次加工开拓创作思路,以文案设计、剧本创作、游戏开发等形式实现历史的重现。“世界记忆·中国文献遗产创意竞赛”获奖项目:剧本杀《历狱1665》,根据中国第一历史档案馆藏的24件清朝内阁秘本档为剧本创作对象,实现了历史事件的创新开发。除了文案、剧本设计等形式,AIGC技术还可应用于游戏中的智能NPC、场景建模、AI剧情、AI绘图等方面,为档案故事创作的解密游戏、剧情游戏提供技术支持。
档案系统的部署和使用大都在局域网或者政务网,调用档案数据的敏感性、安全和合规性最为关键。现行较为流行的直接调用外部模型接口的方式可能引发档案资源的跨境泄露,如档案信息被恶意使用或滥用,将引发深度合成诈骗、诽谤、假冒身份等新型违法犯罪行为。同时,在利用AIGC技术向用户提供在线档案服务与多场景交流互动过程中留下的个性特征、常用服务、办事习惯等用户隐私信息会通过人工智能跟踪、统计、分析等途径留下痕迹,在更好地为用户提供信息检索、业务问答、文创推荐等智能服务的同时也增加了用户隐私泄露的风险。因此,在确保档案数据信息和用户隐私安全的前提下,自主研发部署适合于档案部门的训练模型,妥善应对数据来源、训练、组织、输出等各个环节的风险挑战。
AIGC技术可完成语音转写、多语言音画同步、智能视频剪辑、概念图优化、剧本生成等多项创作初期任务,将部分流程性、重复性劳动的工作自动化,提高工作效率和准确度。但对于类似红色档案精神挖掘、特色档案记忆传承、传统档案价值观体现等具有深层次价值导向的编研及利用开发无法发挥人类在提升内容价值、精准分析事物、妥善处理情感元素等方面的优势,无法替代人类完成决策性的生成任务。因此,需要创作者在生成技术的辅助下进行筛选和二次加工,采用人机协作的工作方式,深度挖掘档案中蕴含的历史、文化、精神等独特价值。
生成式人工智能输出数据的可信性很大部分取决于原始训练语料数据集的专业性。档案中存在着较多非标准化语言和文档格式,小部分数据化后的文本档案数据质量欠佳以及档案中因不同地区语言及背景文化产生的差异等等,都容易产生非专业性、非标准化训练语料,导致生成输出数据产生虚假、瑕疵信息和不专业信息。因此,需要加强档案数据标准化和规范化建设,构建高质量、专业性的训练数据集和生成内容质量评价标准。
生成式AI模型的实现需要强大的计算资源和存储设备来支撑训练和推理过程,自建IDC数据中心等基础设施的成本昂贵,对于档案部门来说是难以承受的。同时,为保证模型的精度,参数训练量一般需达到百亿、千亿到万亿级别,对文本和声像档案数据化的数据量和准确度要求极高,档案部门现有的电子档案数据量难以满足。为此,需进一步加强档案数据化建设,合理选择预训练模型、高性能芯片和AI服务器集群,抽取生成场景化、定制化、个性化的轻量级模型,实现在不同功能场景的开发和部署。
人工智能生成作品存在侵权和被侵权双重风险。我国现行知识产权法律体系对权利享有法律主体的逻辑界定导致AIGC作品存在着著作权归属不清的现实困境;此外著作权法未对数据挖掘等智能化分析行为的合规使用性进行明确,此类行为执行过程极可能构成著作权侵权。《生成式人工智能服务管理暂行办法》将于2023年8月15日正式施行,从监督制度上促进生成式人工智能服务的健康发展和规范应用。