国外电子邮件档案管理系统研究及启示

2023-07-18 19:50陈栩杉
北京档案 2023年6期
关键词:电子邮件邮件管理系统

陈栩杉

摘要:电子邮件作为政府履行职能、个人信息管理、社交媒体服务的重要载体,确保其完整、安全、可用,逐渐成为档案机构的重要职责。本文论述了国外电子邮件档案管理系统的功能需求与开发逻辑,从管理阶段、数据格式、保存措施、操作流程等方面进行了对比分析,并从尽早介入电子邮件生命周期、重点关注档案管理核心业务、科学厘清系统功能弱项等方面探讨了启示与思考。

关键词:电子邮件档案管理系统;Archivematica;DAr- cMail;EAS;ePADD

Abstract:Email is an important carrier for perform? ing government functions, personal information man? agement and social media services. To ensure the in? tegrity, security and availability of email has gradually become an important responsibility of archives. This paper discusses the functional requirements and de? velopment logic of email archives management sys? tem in foregin countries, and makes a comparative analysis from the aspects of management stage, data format, preservation measures and operation pro? cess. Then it discusses the enlightenment from the aspects of early intervention in the email life cycle, fo? cusing on the core business of archives management, and scientifically clarifying the weak points of system functions.

Keywords:Email archives management system;Archivematica;DArcMail;EAS;ePADD

电子邮件是指由电子计算机生成、处理,并通过电子邮件系统经由通信网络发送和接收的电子信息,[1]其最初作为一种联网计算机用户之间交换结构化文本信息的工具,已逐渐演变成为政府履行职能、个人信息管理、社交媒体服务的重要载体,在电子政务、历史文化遗产研究等领域具有独特的凭证和参考价值。

与其他类型的数字格式信息记录相比,电子邮件档案管理在来源信息獲取、内容信息关联、存储方式选择、隐私安全保护等方面面临诸多挑战。为此,各国有关机构根据电子邮件的组成结构、技术特点和用户需求,开发了涵盖电子邮件收集、鉴定、整理、保存和利用功能的管理系统,确保归档电子邮件能够被保存、访问、理解和发挥凭证作用,比较有代表性的有Archivematica[2]、DArcMail[3]、EAS[4]、ePADD[5]等。

一、国外电子邮件档案管理系统的功能需求

在移动互联网时代,电子邮件从交互信息的即时手段,转变为承载事件的记录者和参与者,凭证参考价值日益凸显。然而,其技术复杂性使得电子邮件档案管理系统不仅面临海量数据获取、筛选和存储压力,还必须应对不断演变的电子邮件服务和用户需求带来的影响。

(一)精准获取邮件来源信息

获取邮件来源、确定邮件的形成者,是电子邮件档案管理的基础。然而,自定义的邮件地址设置使得档案机构仅凭邮箱账号无法直接获取邮件来源信息。一方面,电子邮件系统允许用户使用邮箱账号的别名、缩略名、分组名等作为收发地址,这些并不能代表真正的邮件来源。另一方面,电子邮件系统允许不同人使用同一个邮箱账号收发邮件。例如,一些机构将客服邮箱设置为help@samplecompany.com,就可以在不公开个人邮箱的情况下将邮件发送给相应客服人员,单从该邮箱无法确认真正的收(发)件人。因此,电子邮件档案管理系统在设计之初就必须与邮件运营商合作,根据该运营商采用的邮件数据模型匹配地址信息采集工具,从邮件服务器端抽取地址元数据字段,从而得到确切的邮件来源信息。

(二)确保归档邮件真实可靠

确保电子邮件形成过程真实、内容可信,是邮件得以作为社会真实记忆长久保存的前提。然而,分布式、自组织的邮件系统结构导致档案机构很难独立验证归档邮件的真实性。一方面“,存储转发”的邮件传输方式使得邮件在传输过程中不断被编码封装、解码读取、分解发送,最终以用户端的特定格式组合呈现。此外,当同一封邮件的多个版本出现不一致时,例如发件人撰写的版本、收件人下载到本地的版本等,仅凭档案机构很难判断哪一个是真实的。另一方面,电子邮件系统的传输通信协议、数据标准、元数据均允许进行本地扩展和定制,这增加了伪造、窃取、篡改数据等漏洞风险,仅凭面向传输安全的认证信息无法验证邮件形成过程和内容的真实性。因此,电子邮件档案管理系统应提供第三方访问和操作功能,允许档案机构、邮件账户所有者、邮件运营方等多方加入归档邮件真实性的鉴定过程。

(三)保证邮件账户完整可用

保证电子邮件齐全完整、可再现还原,是如实反映和理解邮件承载事务活动的依据。然而,用户主导的邮件管理方式造成档案机构难以还原邮件账户原始状态。一方面,档案机构通常只能在邮件账户不再使用或使用活跃期之后才能获取到邮件数据。用户由于缺乏档案意识及专业知识技能,可能随意删除或导出邮件,导致数据流失、附件损坏、外部链接失效等问题。另一方面,用于呈现个性化邮件管理状态的元数据通常存储在本地客户端,当邮件导出并更换存储环境后,元数据的丢失可能造成无法还原邮件间的逻辑关联。因此,电子邮件档案管理系统支持的数据类型应与电子邮件系统保持兼容,能维护邮件结构、内容之间的有机联系,便于各类型数据可被读取、检索和理解。

(四)具备异构数据存储管理能力

多样化的邮件组成给档案机构带来了繁重的数据存储管理压力。首先,不同电子邮件系统采用的附件处理方式不一。有的将附件以MIME格式嵌入在邮件中;有的将附件单独存放,邮件中只出现附件的指针信息。其次,外部链接资源的数据类型丰富。邮件中的超链接可以使用户访问到特定的外部资源,如文本、图片、音频、视频、网页等。最后,签名信息动态变化。邮件的签名信息包含了发件人丰富的社会背景信息,如所属机构、联系方式、社交媒体账户等,但同一个用户在不同时期的签名信息可能变化、不同邮件账户的签名信息可能相同等,需要进行消歧和融合处理。因此,电子邮件档案管理系统应设计合理的保存策略,具备存储不同格式附件和外部资源的能力,为邮件数据的完整性和可用性做好基本保障。

二、国外电子邮件档案管理系统的开发逻辑

(一)功能构成满足不同阶段管理需求

电子邮件生命周期主要包括形成与使用、鉴定与选择、收集、处置、保存、发现与利用等基本阶段,[6]其中前两个阶段由电子邮件系统完成,其余阶段均可依托电子邮件档案管理系统完成。在收集阶段,对具有保存价值的邮件进行格式转换、敏感性审查、病毒检测、完整性检查等前处理。在处置阶段,对邮件进行鉴定整理,构建邮件之间、账户之间、内容之间的逻辑关系。在保存阶段,对邮件正文、附件、元数据等进行存储,生成归档信息包。在发现与利用阶段,根据需求查询检索,生成发布信息包提供利用。

(二)互操作性支持业务流程灵活定制

电子邮件档案管理系统在数据模型、格式、交互接口等方面应基本保持一致,能够实现灵活组合和交互。数据模型方面,系统采用互联网协会的RFC标准对邮件组成结构进行建模,采用METS、PREMIS等对邮件元数据进行建模和定义。数据格式方面,系统大多以MBOX格式作为输入输出格式,以SIP和DIP信息包作为系统内业务流程的交换格式。交互接口方面,利用API接口实现不同系统之间的集成,档案管理人员只需直接调用指定API即可实现所需功能。

(三)存储方式体现不同类型保存策略

电子邮件档案管理系统采取的保存策略主要分为三种类型。一是复制保存策略,即在系统暂时无法满足全数据类型保存需求的情况下,保存邮件的原始版本,避免其出现损坏、丢失、更改等,待条件成熟后再进行后续处理;二是标准化保存策略,即将原始邮件格式转换为更加稳定的主流标准格式进行存储,便于与其他系统共享利用;三是仿真保存策略,即创建一个完全相同的模拟环境,重现原始邮件应用程序、还原邮件内容和结构关系,解决依赖专有软硬件的数据可用问题。

三、国外电子邮件档案管理系统的主要特点

为了更好地理解国外电子邮件档案管理系统的设计思路、实现功能、工作方式,笔者选取了已形成最佳实践、具有广泛借鉴意义的4个电子邮件档案管理系统,对其覆盖的管理阶段、可处理的数据格式、采取的保存措施、具体操作流程等方面进行了对比,如表1所示。这些系统突出体现了开源思维和微服务设计,不仅能满足电子邮件档案管理需求,还可以作为组件与其他档案管理系统融合集成。Archive? matica由Artefactual Systems公司开发,用户利用系统能够自定义电子邮件档案管理策略和工具,形成个性化的管理框架和流程。DArcMail由史密森尼学会档案馆开发,系统在AIP和DIP信息包中均保留了邮件原始账户的逻辑关系,便于在不同层级(如单封邮件、邮件组、邮件账户等)进行管理。EAS由哈佛大学图书馆开发,系统能够自动记录技术和管理元数据,且与ePADD实现功能集成。ePADD由斯坦福大学图书馆开发,系统使用命名实体识别工具将邮件转化为结构化数据,辅以电子邮件档案的受控版本,便于远程查询檢索,在提高利用效率的同时确保了安全性。

从对比结果可以看出,上述系统存在以下几个方面的特点:

一是功能设计偏重归档电子邮件管理。电子邮件作为电子文件管理的新生对象,其管理理念也应遵循全程管理和前端控制原则,但由于电子邮件通常并不依托统一的OA系统形成,且数据量大、结构复杂、流动性强,很难对其本身和元数据进行实时的收集和存储。因此,在目前管理方法和制度标准相对松散的情况下,以归档电子邮件管理为起点,优先考虑将具有保存价值的邮件先行妥善保管起来,使其长期安全可用,是当前系统实现功能的重点。

二是数据格式覆盖面广、通用性强。从表中看出,数据输入输出格式主要为MBOX、PST、OLM等,其中MBOX是大多数电子邮件客户端采用的邮件存储格式,在Windows、Unix和苹果操作系统中均可使用,PST和OLM是Microsoft Office Outlook邮箱采用的专有数据存储文件格式,分别用于Windows和苹果操作系统。可见,系统支持的数据格式基本涵盖了主流电子邮件系统形成的文件格式,且均支持MBOX格式的输入和输出,便于不同系统间的数据交互和功能整合。需要注意的是,上述格式仅为电子邮件系统采用的主流保存格式,但这些格式是否能作为电子邮件档案的长期保存格式,解决格式过时、软硬件升级、平台跨越等导致的保存问题仍需进一步研究。

三是保存措施综合考虑现实基础和长远需求。从表中看出,系统均采用了标准化的保存技术措施,将邮件数据进行格式转换,这种方式在现阶段实施成本较低、易于实施。在此基础上,Archivematica针对目前系统暂无能力处理的数据格式采用了复制措施,在不改变格式的前提下进行邮件数据迁移,待后续系统功能完善后再行处理。同时,Ar? chivematica还通过制作虚拟化软件环境建立仿真系统,为满足未来电子邮件档案的可用性需求提供了技术思路。

四是操作流程依赖大量专业人员参与。从操作流程看出,系统的使用不仅需要对系统功能较为熟悉,还要具备相应程度的法规标准、档案管理、计算机等专业知识,特别是处置阶段中的鉴定、整理等环节需要档案管理人员投入大量时间精力介入。现有系统虽然配置了自动化的格式转换、元数据抽取、敏感信息识别等批量处理工具,但相关功能运用也依赖领域专家和工程师进行长期运维。

四、启示与思考

(一)尽早介入电子邮件生命周期,实现多方共赢

从电子邮件形成方式及典型系统的功能现状来看,仅依靠技术手段很难实现从电子邮件形成到销毁或永久保存的全生命周期管理。因此,档案管理人员应尽早参与电子邮件管理,提前明确收集对象、制定保存方案、列出工作计划,加强对机构或个人的沟通宣传,定期通过直接或代理方式管理具有保存价值的邮件,以档案工作者整体的、联系的管理观念和管理方法来弥补邮件形成与管理阶段之间割裂的状态。目前,我国档案主管部门已认识到电子邮件档案管理前端控制的重要性。2021年,《公务电子邮件归档管理规则》修订后增加了公务电子邮件的形成要求和公务电子邮件系统的建设要求,对邮件标题、内容、附件、元数据、输出格式等形成规则进行明确,体现了前端控制的思想,保证归档公务电子邮件的质量。

对于邮件所有者,有专业机构和人员帮助其对重要邮件进行分类、处理、保存、备份,对受限或敏感信息进行审查、标注、筛选,既避免了日常由于硬件损坏、账号更换、存储空间不足等造成的邮件丢失、损坏问题,又保证了个人隐私和信息安全。对于档案机构,提前介入确保了电子邮件档案收集完整,能够有充足的时间针对邮件特点、用户角色特点等选择合适的系统软件,组配整合成更为有效的定制化工作流程进行邮件的捕获和管理。对于利用者,完整的电子邮件档案数据集将会成为人文历史、数据科学等领域研究的丰富数据源,通过对电子邮件档案的分析实现对相关个人或组织的跨学科研究。

(二)重点关注邮件管理核心需求,形成最优标准

Archivematica等系统的成功实践验证了电子邮件归档的可行性,但对于大多数缺乏资源、技术支持的档案机构来说,仍很难完成电子邮件档案管理的复杂工作流程,这就需要围绕电子邮件档案管理的核心业务需求研究形成指导系统研发的最优标准。

一是要设计体现邮件特点的真实性验证需求。《公务电子邮件归档管理规则》提出的邮件真实性检测仍是参照文书类电子档案检测一般要求开展的,因此依据其研发的系统缺乏对电子邮件档案真实性检测的独特指标,例如检测同一活动过程中多封邮件之间相互印证关系来判断真实性,其根源在于档案界对邮件真实性标准还未形成统一的认识和理解,同时获取哪些、如何获取特定字段或上下文信息才能最大程度提供邮件真实性证据也是值得关注的问题。二是要研究最优的长期保存技术需求。针对不同类型电子邮件,档案机构应明确哪类保存策略最优、哪种格式作为标准格式、不同格式转换方式的风险等,作为系统存储库设计的有效依据。三是要设计合理的系统评估机制,用于评估系统在邮件获取、处理、保存、利用等方面的需求达标情况,其功能、配置、软件工具等是否满足多来源、多类型电子邮件档案管理需求,能否提高优化现有档案机构电子邮件档案管理工作的效率和流程等。

(三)科学厘清系统功能弱项,指导优化升级

Archivematica等系统基本形成了支持电子邮件档案管理业务流程的工具,为我国电子邮件档案管理系统建设提供了可供借鉴的良好模板。但在我国电子邮件档案管理系统建设过程中,还需进一步结合《公务电子邮件归档管理规则》改进完善上述系统存在的短板弱项。

一是要认识格式转换对原始邮件数据的影响。上述系统为便于系统间的数据交互,在管理过程中对邮件进行了多次格式转换,转换过程中不可避免会产生信息损失,因此需要结合《公务电子邮件归档管理规则》推荐的归档格式,测试格式转换后原始字段或元数据是否变化、特定归档格式是否有最优的格式转换工具等,从而选择合适的转换方式。二是要增强系统智能化鉴定工作水平。在上述系统中只有ePADD使用了细粒度的命名实体识别工具,用于对敏感信息进行自动识别、标注、删除和访问权限设置等,其他系统仍主要依靠人工完成,且均未提供智能化的保管期限辅助判定功能。因此,在我国相关系统开发时应利用机器学习增强自然语言处理能力,配合专业领域知识库,提高鉴定工作质量和效率,降低人员成本和管理难度。三是要开发电子邮件个人归档工具。现阶段我国公务电子邮件归档工作需依托部署在政务内网的电子邮件系统才能输出符合归档要求的规范格式文件,依托商用电子邮件系统与外网用户交互形成的电子邮件很难直接满足归档要求,这部分邮件也是反映公务活动过程的重要依据,必须由相应个人及时归档、妥善保管。但上述系统的功能定位主要面向企业或档案馆,在软硬件配置、系统功能、操作流程等方面均不適用于个人使用,例如需安装服务器版操作系统和专用数据库软件、配置虚拟专用网络软硬件等。因此,需要开发面向个人的电子邮件归档工具,允许用户自行对邮件进行筛选整理、备份保存、按时移交,这样不仅能够最大程度保留有价值的历史记录,也能缓解档案机构在收集过程中的人员和存储压力。

*本文系国家社科基金青年项目“‘互联网+背景下多媒体档案知识发现研究”(项目编号:19CTQ033)的研究成果之一。

参考文献:

[1]国家档案局.公务电子邮件归档管理规则[S].北京:中国标准出版社,2021:3.

[2]Artefactual Systems.Archivematica:open-source dig? ital preservation system[EB/OL].(2018-05-01)[2022-03-07].https://www.archivematica.org/en/.

[3]Smithsonian Institution Archives.Digital archiving of email[EB/OL].(2017-12-01)[2022-03-07].http://siar? chives.si. edu /sites /default /files /forum- pdfs/SIA_DArc? Mail_UserGuide.pdf.

[4]Harvard Library at Harvard University.Email Ar? chiving[EB/OL].(2017- 04- 01) [2022- 03- 07].http://nrs. harvard.edu/urn-3:hul.eother:eas_overview.

[5]Stanford University Libraries.About ePADD[EB/ OL].(2015- 09- 01) [2022- 03- 07].http://epadd.stanford. edu/epadd/collections.

[6]Council on Library and Information Resources.The future of email archives:a report from the task force on tech? nical approaches for email archives[EB/OL].(2018-08-01)[2022- 03- 07].https: //www. clir. org /pubs /reports / pub175/.

作者单位:国防大学政治学院

猜你喜欢
电子邮件邮件管理系统
有关旅行计划的电子邮件
基于James的院内邮件管理系统的实现
来自朋友的邮件
CMailServer
基于LED联动显示的违停管理系统
一封邮件引发的梅赛德斯反弹
海盾压载水管理系统
民事诉讼电子邮件送达制度的司法适用
基于RFID的仓储管理系统实现
小测试:你对电子邮件上瘾了吗?