刘 星 谢 磊 刘 迅 池少宁 张均成
(1.国网湖南省电力有限公司信息通信分公司;2.国家电网有限公司信息通信分公司;3.福建亿榕信息技术有限公司)
众所周知,传统公文存档方法大多以纸质原件居多,经整理与装订之后,通常会保存于档案局等特殊机关中,以提高公文的稳定性与可查性。不过,在归还的公文量逐步增多时,公文搜索的效果会大幅度降低,特别是在对于所要求检索的公文的具体年份、标题等内容并不清晰时,查找起来困难重重,不仅浪费了大量的时间,也浪费了大量的人力资源,所以,纸质归档公文并不能实现基于内容的模糊查询。因此,越来越多的政府相关部门开始选用公文管理系统。所谓公文管理系统是指公文的创建、处理和管理。
据相关调查,现阶段,对于公文的应用一般会有两方面问题。一方面规范化程度较低。系统处理公文信息内容和范围,与公文管理的有关规定和准则有着相当距离,且系统共享性和通用性还不够。由于管理的电子文档格式可以有纯文字(txt)、超文本(HTML)、word、Excel、PDF、WPS等,已成为政府办公自动化管理系统中的主要内容,但怎样管理和共享电子数据档案尚有待进一步研究与完善。这也是办公自动化向知识管理方向发展的最大阻碍所在。另一方面则主要局限于公文的传递、受理、记录和简单的检索功能,不支持公文运行的全过程。另外,系统稳定性也不好。如不能提供一种较为完善的安全管理机制,将无法从保护文件流转签名、文件信息存取权限、对抗网络黑客和计算机病毒攻击等方面,给文件管理信息系统提供更高效的安全保证。
(1)拟稿和核稿环节。系统需要依据预设的公文词库与规则库,实现公文内容关键字、敏感内容智能校核,提示进行公文密级标识。
(2)文字处理环节。实现与WPS文字处理软件集成,以方便用户日常工作中的使用。因此,对于公文辅助定密的方法需要涉及到控件及WPS相关API修改。
(3)公文内容识别。公文内容的校对是不可或缺的功能,在校对的过程中,需要发现公文内的问题,因此,需要利用先进的校对计算技术,对公文正文内容进行文本转换及分词处理。使公文的表达变得更加通顺流畅。
(4)词库管理。在公文的写作中,辅助定密的核心在于建立强大的基础词库,包括设置通用词库(地名、公司领导排序、领导职务、单位名称及排序)、电力行业专业词库等维护管理功能。并且这个词库需要在应用过程中需不断丰富并积累成为新的词汇库,以适应工作人员不断更新的写作需求。
Word2vec,是一种用于数字向量运算的开源工具。Word2vec不但能够在成百上千万字典和数亿个数据集上开展有效的练习,还能够获得重要训练成果——词向量,并能够很好地度量大量词间的相似性。
(1)Word2Vec的优势
Word2Vec是一种比较常用的训练工具,常被用于语义分析引擎当中,其具备的优势是相当明显的,其中,最受欢迎的是以下两个优势:首先,word2vec解决了分类器难以处理离散数据的问题。其次,word2vec也在一定程度上起到了扩展功能的作用,使语义分析能够更加准确,无论是开发者还是使用者,都大大提高了效率。
(2)Word2Vec的缺点
虽然Word2Vec在语义分析当中发挥着重要的作用,然而,文本特征表示存在着明显的问题。首先,这是一种不考虑词汇之间次序信息的词袋模式(文本中单词的顺序信息也是非常重要的);第二,它假设了词汇的相互独立(在大多数情况下,词语相互影响);第三,它得到的特征是离散稀疏的。
目前,在Word2Vec中包括了多种训练模式,但是常用的一般分为两种,CBOW和Skip-gram。所谓Skip-gram训练模式,简单来说就是通过当前的词组来进行上下文的预测,从而进行语义的分析,而CBOW训练模式则恰恰相反,会通过分析上下文来预测当前的词组,而两种模型的选择和运用需要结合不同的环境来进行。而本次使用的公文辅助定密的模型,则选用CBOW模型,运行过程如下:首先,需要收集原始语料库,即已定密的公文历史数据,通过文本抽取技术抽取出正文中的文本数据。其次,通过自然语言处理技术,对每一条正文文本进行分析处理,经过去停用词、滤重、中文分词、词性标注等处理后,抽取出关键词,形成一个个分词文本,并按密级行分类。最后,通过Word2Vec工具并采用CBOW模型对所有的分词文本进行训练,得到用于定密的模型文件,如图1所示。
图1 Word2Vec的训练模式
文本分类技术主要涉及词匹配、认知工程,以及机器学习。目前,最常见的文本分类主要为机器学习。
(1)词汇匹配文章分类,仅通过文章中是否出现了带有同类名的单词,或者同义词来确定文章是不是归属于某个类型。显然,这些过于简化的方式没有产生很好的分类效果。
(2)知识工程文本分类方法虽然增加了人工确定因素,也明显增加了划分的准确度,但同时也面临着许多缺点,例如:主观因素较多、建立规范的人力物力多和成本高等。
(3)机器学习的文本分类方法也属于自监督学习,它是目前最常用的文本分类方法。其中训练阶段,主要取决于一些标记的文本,或确定类别的文本。运用了文本结构和类型之间的关联模型,提出了文本类型规则集,即分类器。在分类阶段,通过分类器对待测试文本并进行分类。事实上,通过机器学习的文本分析就相当于数学中的映射原理。
在本系统中,对于公文进行自动定密处理是非常重要的,其过程如图2所示,简单来说,会分为以下几步骤:首先,通过文本抽取服务抽取出当前文件的正文内容,生成普通文本,并提交至HANLP自然语言处理服务。其次,通过自然语言服务对正文文本进行处理,经过去停用词、滤重、中文分词、词性标注等处理后,抽取出关键词形成分词文本。最后,分词文本与定密规则库进行匹配,如果符合具体的规则,则直接返回对应的密级。此外,如果不符合规则库的规则,则将分词文本中提交至定密模型文件中进行处理,并返回对应的密级。
图2 自动定密处理过程
依据国网公司及湖北公司相关文件,梳理核心商密、普通商密、工作秘密等定密范围,结合近年来公司历史文件定密情况,梳理形成辅助定密基础规则。
当通过规则库无法匹配到密级时,系统自动记录辅助定密日志,提供统一的视图进行展现,每周对辅助定密情况进行分析总结,补充完善规则库。后期当历史文件积累到一定数量,通过机器学习不断自动完善规则库,逐步替代人工干预,提升辅助定密准确度。
结语:综上所述,公文分类问题逐渐提上议事日程,依靠计算机对电子公文进行分类,不仅是现实的迫切需要,也是科技进步的必然产物。本文提出解决传统手工加密的新旧问题,保证加密的效率、准确性和智能性。