宋学武,张劲松,唐世贵,廖 松,陈 昀,尹 智
(重庆海装风电销售有限公司,重庆 401122)
招投标是一种在建筑和商品交易中非常常见的公开的竞争形式。在招标阶段,招标人发布招标公告或者招标邀请书,根据项目的特点和需要编制好招标文件,之后在投标阶段,投标人再根据招标文件来编写并提交投标文件,投标人参与竞争并进行一次或多次性投标报价。而这些公开的招投标信息往往具有很高的商业价值,对于很多企业而言,从中挖掘潜在的商业机会,能起到事半功倍的效果。本文的招投标文件管理平台处理的业务流程是一套完整的招投标流程,包括招标、投标、中标、合同起草和合同签订等,在处理复杂且数量多的各类招投标文件时,可以利用新技术来实现更好的管理。
人类的日常活动是无法脱离语言的,而自然语言则是一种最直接、最简单的语言表达方式,它可以把人类的语言进行加工,变成机器能够听懂的机器语言[1]。作为人工智能的一个重要分支,它在信息处理中的作用也日益突出,目前已为人们所熟悉和使用。若是将自然语言处理技术运用在招投标文件管理平台中管理各类文件,可以实现机器化代替人工办公,大大提高文件处理效率。
1.1.1 内容形式多样性
在投标阶段,会有很多投标文件来自于不同的、有意愿投标的企业,因为不同公司的管理制度、工作方式、文件的质量都不一样,也就导致投标文件的种类、形式繁多,而在之后签订合同的阶段,不仅要了解合同文件,还要解读多个合同的相关法律法规和政策。有些东西,必须要有专门的专家来做,否则不仅会降低工作的效率,还会降低员工的使用效率。
1.1.2 时效性需求高
与其他文件的管理方式不同,招投标项目文件的时效性是一个非常重要的问题,在指定的时间里得到所有的关键信息,再据此得出结果。同时,由于信息技术的飞速发展,大量的电子文件、复印文件不断增多,而纸质文件的数量却在不断减少,从而保证项目文件不会成为阻碍项目进度的“瓶颈”。所以在招投标项目文件的管理中,如何更快、更有效地进行电子和复印文件的处理变得日益重要。
1.1.3 安全性与保密性
不同的文件类型对招投标文件的保密需求也是不同的。在招投标文件的管理中,如何将保密与方便结合起来是一个非常关键的问题,资讯的保密性是一个招标项目的关键,许多资料都会牵扯到招标人与投标人的商业机密。所以,必须建立、健全安保体系,一方面要加强对招标项目文件的安全管理;另一方面,又要保证招标项目文件的可操作性。
1.1.4 信息查询简洁化
随着计算机技术的飞速发展,以及大数据网络时代的来临,人们在传递、接收文件等方面更加便捷,但在提供多种便利的同时,也产生了大量的信息爆炸。对于海量的数据,在很短的一段时间里,如何将多余的信息剔除掉,获取重要的信息,就成了文件管理的重中之重,所以在管理中必须充分重视文档数字化和信息化的问题,需要对文件进行信息化集成,以形成易于查询的体系。
随着近几年网络信息技术的迅猛发展,更多企业选择创建自己的文件管理平台,不再依赖第三方平台,但使用过程中会出现一些问题,如本文的招投标文件管理平台会存在招投标文件不规范、部分内容失真、信息化程度不足等问题。由于投标文件来自于不同的有意向投标的公司或企业,意味着投标文件多种多样,缺乏整体规范性。在此情况下,部分文件的质量就会与标准文件的质量有较大差异,甚至会出现内容失真的错误,如签名内容模糊不清、重要信息遗漏等。信息化程度不足具体表现在平台空有上传的一大堆文件资源却不能很好地利用,未能将其变成可随时查阅的数据库资源。
针对以上提出的问题,在招投标文件管理中,可以得出招投标文件管理中的预期标准。首先是规范性,上传的招投标文件应当符合平台规定的统一标准,字体、格式、结构均需保持一致,从上传文件开始严格把关,即从源头入手,保证所有文件的规范性[2]。其次是准确性,为了保证后期工作的顺利进行,在管理文件之前应仔细审查上传的文件,避免出现重要信息缺失,符合规范且信息准确万无一失的文件才是需要管理的对象。最后是易用性,要做到方便用户使用,可以快速便捷检索到需要的文件信息,也要具备良好易用的人机接口来更好地管理文件。综上所述,招投标文件管理平台在管理中的预期标准便是达到很好的规范性、准确性及易用性。
自然语言处理已经成为机器学习的研究热点之一,作为一门包含人工智能、计算机科学及语言学等一系列学科的交叉学科,在数据处理领域逐渐占据一席之地。本文的招投标文件管理平台在管理文件的过程中使用自然语言处理的相关技术,会大大提高办公效率,减少多余人力资源的消耗。
自然语言处理技术可以有效地提高招投标文件的规范性和安全性,利用其处理不同形式的文件,从文件中筛选出重要的信息,可以防止中的重要信息缺失,确保文件的准确性,也可以进行安全检查,对合同金额和技术细节进行严格的检查,保证文件的质量[3]。同时,自然语言处理技术也能帮助完成多个版本的文件比对,在一定程度上减少了上传文件和打印文件过程中的差错,降低了产生“阴阳合同”的风险。除此之外,自然语言处理技术还可以帮助改善招投标文件管理的易用性,若采用人工方式,那么处理文件的速度与个人的能力、知识背景、文件的内容和类型有关,而采用自然语言处理技术则能将专家经验与IT 技术相结合能更好地运用电脑来实现招投标文件的管理,将技术变革作为企业独立文件管理平台的有力武器。
2.1.1 信息抽取
信息抽取是从文本中提取和转化的一种方法,它可以从自然语言的语料库中提取出不同的名称实体,这是一种深入的研究过程。信息提取分为3 个步骤:第一个是自动化处理非结构化数据或半结构化数据,第二个是针对目标文字进行信息的提取,第三个是将信息结构化处理。
2.1.2 命名实体识别
命名实体识别是指识别文本中有特定意义的词语,将其标注出来,为后续工作做铺垫,招投标文件中的实体例如项目名称、项目地点、合同金额、开标时间和投标截止时间等[4]。最近几年国内的研究热点也是在将命名实体识别投入到应用阶段,在智能问答、机器翻译、信息检索等领域也发挥着巨大作用[5]。
2.1.3 文本纠错技术
文本纠错技术就是针对文字中的各种错误进行修正,可分为文本错误识别和文本错误纠正这两个阶段。由于中文本身就有其独特的语言特征,所以其文本纠错就必须要有特定的方法和思维来加以解决。例如,中文的词汇范围和词汇量很大,这就需要大量的学习。中文文本经常出现的四种错误类型:字级、词级、语法和语义错误,而后面二者比较难检测出来,需要联系上下文来判断。因为中文的语言特点,其错误类型也不同于英文,相对于英文,中文也不会有太多的语法错误。
2.1.4 文本聚类
文本的聚类与分类本质上可以看作是一种技术手段,两者都是通过利用文本的内在特性将其整合到不同的类别。而文本聚类技术无需预先对文本数据进行标记,而是能够根据文本数据本身的内在关联识别数据的特性,将具有相似特性的文本进行分割,使其能够充分利用本身特性而不会受到外部因素的影响。所以,使用聚类技术来进行文本分析,可以获得与实际情况更加接近的期望结果。然而,与其他机器学习方法一样,文本聚类算法也不能直接地学习和处理非结构化数据。因此,在进行文本聚类时,必须先将待处理的文字资料转化为结构化文本,然后再进行聚类分析。文本聚类过程包括文本预处理、文本特征表示、文本特征提取、聚类算法等。
在投标阶段,本文的招投标文件管理平台主要采用的项目功能是文件分析编制功能,对各类分析报表、投标、合同文件进行分析整理和存储,主要功能包括半自动化文件分析、模块化资料管理、标准化文件输出。文件分析功能主要是指文件重要技术信息提取,并做好信息的分类统计、存储、输出,作为数据分析来源之一;模块化资料管理是指平台要具备模块库,根据标题维度和应用场景来划分模块,同时具备模块库增删功能;文件输出这一部分是文件以格式或标题形式进行预排,具有选择架构,并记忆自动存取投标文件模板,除此之外,还可以自动调取模块库内容,再按照要求比对模板后自动筛查文件完整性,也具备自动排版、文档纠错、前后关联内容查验与修正等功能。
通过介绍了部分自然语言处理技术以及其可行性分析,以下3 个小节便是3 个应用自然语言处理技术于平台文件分析编制功能中的详细示例。如图1 所示。
图1 自然语言处理技术在文件分析编制功能中的作用
利用自然语言处理技术,从招投标文件中提取出关键信息,传统的信息提取是一种文本加工技术,它是从对象的自然语言中提取特定类型的实体、关系和事件,再将其转化为结构化数据后输出。常用的抽取信息有抽取人名、地名、机构名称和时间等。以合同文件为例,可以设定包括甲方、乙方、金额大写、金额小写、起始时间、结束时间、签约地点和银行账号等,通过自然语言处理技术这些数据就会被自动存档。之后想要检索类似信息,就能很容易地查找到有关的资料,做好招投标文件管理的信息化。
采用基于深度学习的信息抽取方法,统一步骤如下。
1)文本预处理,面对大量待处理文本,对其进行中文分词、命名实体识别、关系抽取和实体消歧等基本处理。
2)针对性选择合适的神经网络模型,比起传统的机器学习算法,深度学习中的一些模型可以免去特征工程这一步。
3)整合处理过后的数据,得到目标文本的关键要素。
在招投标文件编写过程中,需要做到文档纠错、前后关联内容查验与修正这些功能,而运用自然语言处理技术比如文本纠错技术可以满足以上功能需求。从字错误、语法错误和语义错误3 个层面,汉字错误的识别方法主要采用机器学习和传统检索两种。如采用n元模型、神经网络、最大熵等机器学习方式。采用统计机器翻译、神经网络联合模型、集成学习等语法错误研究方法,或通过条件随机场(Conditional Random Field,CRF)查找文本的错误。采用结合上下文语境、基于语义搭配等语法错误研究方法。基于海量的语料库构造字典,并在字典的基础上对错误的文本进行遍历和改正,以实现文本自动纠错。
在面向招投标文件这类规范性文件的文本纠错时,采用基于BERT-BiLSTM-CRF 的复合模型来检索错误,其中CRF 模型专注于解决序列标注的难题,将其放置于整个流程的最后一层用于处理经过BERT 层和BiLSTM 层训练后得到的序列,对每个字符进行标注,分为正确字符和错误字符。采用整个复合模型标注出来的错误标签与采用命名实体识别获取句子的实体标签进行比对,如有一致的部分则匹配到相同的实体,取消错误标签,之后便可进行下一阶段即纠错阶段。
面对繁多的招投标文件,将其归入合适的类别,对后期检索相关关键词的文件来说省时省力。而用于文本分类的机器算法主要有朴素贝叶斯、决策树、KNN和支持向量机等,也可以使用深度学习文本分类算法如卷积神经网络。其中基于卷积神经网络的分类算法分为3 个步骤:首先是对数据进行预处理,清除文本中的一些噪声数据,对文本进行分词,然后是对预处理后的文本进行特征分析,最后是最重要的分类部分,采用以上所说的机器算法来进行分类,这里使用Softmax 回归深度学习模型,表达式如下式所示
该式表示为样本x属于类别k的概率,其中分子与分母的概率都处于0 与1 之间,采用以e为底的指数函数,使自变量大于1 时可以清晰地看见变量的剧烈变化。
随着信息技术的高速发展,招投标管理平台运用新兴技术如自然语言处理技术来管理文件意义重大。本文创新性地将自然语言处理技术用在平台的文件分析编制功能中,主要体现在以下两方面。第一,文中通过对招投标文件管理平台的特点、管理问题以及功能分析,采用了基于深度学习的招投标文件关键信息抽取,除此之外,还利用了文本纠错和聚类技术来实现文件的分析编制功能,证明了自然语言处理可以帮助解决问题,满足需求,从而完善平台的使用感。第二,在应用方面,实现纸质化文件管理向数字化文件管理的转变,加入办公无纸化的发展队列,也用机器审核取代人工审核,节省时间与资源,也保障了企业在招投标环节的经济效益。