保鲁昆,贾永刚,孙玉明
(1.中国铁道科学研究院集团有限公司 运输及经济研究所,北京 100081;2.中国铁路总公司 科技与信息化部,北京 100844)
经过多年的发展,中国铁路总公司已经基本形成了层级清晰、专业覆盖全面的技术规章体系,这些技术规章是铁路运输组织生产的基础,在保证行车安全、提高运输效率等方面发挥着重要作用。大量新技术、新设备投入运用,以及运营管理质量、效率和安全要求的提升,都对铁路技术规章制修订频度和技术规章编制质量提出了更高的要求。但是,目前技术规章的会签审查仍然依靠人工逐条审核,缺少有效的技术辅助手段,审查质量严重依赖审查人员的专业背景及知识水平。随着计算机对自然语言处理技术在论文查重等领域的应用,需要加快开发铁路技术规章辅助审查系统。
经过多年的积累,中国铁路总公司技术规章形成了归口管理与专业负责相结合的技术规章管理体系,执行制修补废的动态管理制度,落实日常监督检查机制[1-3]。各专业根据上述管理机制,在运输生产组织发生变化、运输安全工作的需要,以及新设备的投入运用时,动态补废相关技术规章,制修订完成后,其他专业根据该规章是否涉及本专业内容进行会签审查,归口管理部门负责技术规章文件的形式审查,以及是否符合基本规章的要求审核,所有审查通过并且经主管领导批准后进行统一编号和归口管理。由于技术规章数量众多,完全依靠人工逐条核对审查,难免会造成专业技术规章间,以及同一规定不同文件之间不一致的问题。
技术规章发布前的会签审查主要包括以下3个方面内容。
(1)是否符合《铁路技术管理规程》(以下简称《技规》)的要求。《技规》是国家铁路技术管理的基本规章,各部门、各专业制定的技术规章都必须符合本规程规定。在中国铁路总公司明令修改以前,任何部门、任何单位、任何人员都不得违反。《技规》内容包含各个方面,需要找出新制修订技术规章与《技规》相似的条款,辅助审查人员判断技术规章是否符合《技规》的要求。
(2)比较分析主要变化情况。目前各专业基本形成了完善的技术规章体系,大多数新发布的技术规章都是在既有规章基础上的修订完善而成,快速定位新修订技术规章的主要变化情况,能够方便审查人员提高审查效率。
(3)与其他专业技术规章相同内容规定是否一致。同一规定经常会在不同专业的技术规章中出现,由于规章数量多再加上对其他专业规章不熟悉等原因,很容易造成相同内容在各专业内的规定不一致。尽快把新制修订技术规章中与其他专业相似内容的技术规章条款提取出来,可以为人工审查提供方便,避免由于人工审查不到而造成的规章间不一致现象。
在实现基础规章管理的基础上,应用自然语言处理技术,实现对规章相似条款的比对和提取,将传统人工执行相似条款的查找和比对工作用计算机代替,使规章审查人员从繁重的查找比对工作中解放出来,专注于相似条款的差异分析,提高审查质量和效率,从而提高技术规章制修订质量。
铁路技术规章辅助审查系统功能模块如图1所示[4],由基础规章管理、规章查询、规章比对和系统管理4个功能模块组成,可以满足不同类型的辅助审查需求。
图 1 铁路技术规章辅助审查系统功能模块图Fig.1 Diagram of system function module
(1)基础规章管理。主要功能是对既有技术规章的上传、查看和删除进行操作,上传基础规章的过程中能自动对规章按照条款编号或者段落进行自动分割,对自动分割后的条款或段落可以进行编辑,然后分别存储。
(2)规章查询。主要功能是方便查询规章内容,界定规章对比审查范围。按照规章属性(规章名称、编号、文号、发文部门等)进行查询,也可以按照关键字对规章全文进行检索。
(3)规章比对。针对待审查规章,按照文件或者文本内容格式上传,与该规章上一版本进行比较,显示出2个版本间的主要变化;也可以与不同规章的比对,提取出相似条款内容,进行左右对比展示,辅助技术规章管理人员审查。
(4)系统管理。主要功能包括用户管理、角色权限管理、数据字典维护和个人信息管理等。
铁路技术规章辅助审查系统主要利用自然语言处理中的文本查重技术,通过文本查重功能快速定位出相似规章条款,再根据设定的阈值提取出相似条款,最后通过左右对比的形式展示给审查用户。根据中文语言的特点,目前针对中文文本查重检测算法主要包括语义知识、词频统计和数字指纹3种。其中,基于语义知识的检测算法是使用某种方式表示出文本的语义特征,进行文本检测;词频统计方法是将文本切分成一个一个的词语,把词语表示为词频向量,利用余弦公式或者内积公式进行文本的相似度计算;基于数字指纹技术的文本查重算法核心思想是根据某种文本块划分策略,从文本中选择一部分字符串(又叫“指纹”),将其映射为哈希表中的数值,通过计算哈希表中相同的数字指纹数量或者所占总的数字指纹比率来得出文本间的相似度[5-6]。
基于语义知识和词频统计这2种算法的检测结果准确度较高,但速度相对较慢,不适用于大规模文本集的查重检测。采用数字指纹技术,近似的文本将被映射为近似的指纹,数字指纹技术可以使原文本转换为数字指纹序列,通过计算2个文本的数字指纹重叠度,从而实现文本查重检测的目的,优势是数字指纹的存储空间小,检测速度较快,能够适用技术规章大规模文本检测需要[6-8]。因此,铁路技术规章辅助审查系统采用数字指纹技术对各技术规章文本进行比对,最终实现辅助审查的目的。
对任意一个待审查的技术规章,根据指纹比对算法的步骤,系统对其进行分层处理,按照篇章、段落、句子等层级分别创建指纹。比对资源库中的比对规章也采取同样技术创建指纹索引。这样的分层多阶指纹结构,可以满足对超长规章的快速检测。由于最小指纹粒度为句子,因而也满足了系统对检准率和检全率的高要求。原则上,只要检测规章与比对规章存在一个相同的句子,就能被检测系统发现。铁路技术规章辅助审查检测流程如图2所示。
系统总体技术架构可以分为:展现层、业务功能层、应用支撑层、数据层和基础设施层,各层通过相应的技术接口进行参数、数据与命令的传递。系统技术架构如图3所示。
图 2 铁路技术规章辅助审查检测流程图Fig.2 Process diagram of regulations aided censoring system
图 3 系统技术架构Fig.3 System technology architecture
应用支撑层与数据层之间的数据交互主要通过JDBC/Http/XML/Web Service技术链接数据层的数据库系统,进行数据维护与更新;应用支撑层内通过Http/XML技术与全文检索系统进行请求提交与数据交换;业务功能层主要通过XML/Json/Web Service与展现层的相关应用进行数据通信,通过XML获得返回的结果数据并包装成业务结果返回给用户。
采用MySQL数据库和Java开源平台完成系统开发。为了平台的稳定性,各模块相对独立,分别实现。利用该系统对2017年中国铁路总公司和国家管理部门制修订的相关规章进行辅助审查工作,辅助审查效果达到系统设计的目标。
(1)相同规章不同版本间辅助审查。对于修订规章与上一版本的主要变化,使用系统提供的相同规章不同版本间差异对比功能,对2017年修订的《车站行车工作细则编制规则》进行了与上一版比较,辅助审查结果采用左右对比附加颜色标注的方式进行显示,使审查人员能够直观地看出不同版本间主要变化。
(2)不同规章间辅助审查。对于新制修订规章与其他规章间相同内容规定的审查,可以利用不同规章间的对比功能,根据设定的相似度阈值,快速定位到新制修订技术规章与其他规章相似的条款。利用该系统,对国家铁路局制定的《铁路技术安全规程》(征求意见稿)与中国铁路总公司的《技规》对比,不同规章间辅助审查结果采用左右对比附加颜色标注的方式显示,其中红色部分是相同内容,黑色部分是变化差异。与《技规》相比,《铁路技术安全规程》新增和修订了一些条款,部分条文存在差异,部分内容与中国铁路总公司实际情况不同。
(3)审查效率分析。使用LoadRunner对以上2个场景分别进行了20次测试,铁路技术规章辅助审查系统审查效率测试结果如表1所示。从测试结果可以看出,不同规章间的辅助审查时间比相同规章不同版本间审查要大,系统响应时间在可接受范围内。
表 1 铁路技术规章辅助审查系统审查效率测试Tab.1 Ef fi ciency of computer aided censoring system
截至 2017年底,利用铁路技术规章辅助审查系统辅助审查铁总多项专业技术规章,发现了部分新制修订规章存在的个别问题,提前避免了规章内容不一致的现象。铁路技术规章辅助审查系统的设计与实现,为技术规章审查人员提供了有效的技术手段,改变了传统人工逐条阅读审查的方式,审查质量、效率都有了明显的改变和提升,为技术规章的规范性和制修订质量起到了把关作用[9]。同时,利用铁路技术规章辅助审查系统的规章全文搜索功能,也能为技术规章的制修订过程提供支持,经济效益和社会效益明显增加。