文本挖掘在串通投标行为识别中的应用

2019-09-10 08:11林蔚
中国内部审计 2019年9期
关键词:串通标书高频词

林蔚

[摘要]投标文件是招投标活动中重要的文本信息载体。本文通过文本挖掘对投标文件进行分词、提取关键词和词频后进行统计分析,从投标文件角度对围标、串标、陪标等串通投标行为进行识别和取证。

[关键词]采购    招投标    文本挖掘    案例

招投标制度作为市场经济条件下的一种主要交易方式,在采购领域中广泛应用。在实际招投标活动中,围标、串标、陪标等串通投标行为频频发生,成为审计工作重点关注的领域之一。

一、文本挖掘简介

文本分词是文本处理的一个基础步骤。采用Jieba分词组件,开发相应的程序,程序具有简单易用等特点。加载相应的文本文件,即可对投标文件进行文本处理,输出字数、分词词语量、关键词和高频词等信息。

文本分词主要是对文本进行预处理以及统一文本的基准和范围。商务文件内容以资质证明等图片为主,开标文件和报价文件等内容单一,因此,将技术文件作为主要分析对象。应采用程序中的精确模式对文本进行分词,将文本内容中影响分析结果的噪声词语(如“的、是、了”)过滤,并针对招投标行业特别增加招标人、投标人、标书、合同等停用词。获得分词结果后,统计词频和关键词(TF-IDF)等信息。

二、案例分析

案例1

某设备类招标项目共有4家投标商,分别为A、B、C、D。通过程序对技术文件进行分析,获得了分词量、部分高频词和部分关键词等信息。对分词结果分析后可得,投标商A、B、C三家文件字数均在3万—4万,投标商D文件字数略多,5万字以上;分词获得词语量为3000左右。对比关键词表,投标商A、B、C关键词基本相同,关键词内容符合本次招标采购范围,而投标商D则明显不同,标书质量表现存疑。通过查看投标文件,投标商D投标文件质量明显不高,仅将招标文件技术规范书内容复制,并注明理解并响应。投标商D的陪标行为明显,陪标行为的出现,说明整个标段存在异常。对比高频词表,发现投标商A、B、C三家文件中冲洗、试验、机器人、提供等词语个数相近或相同,明显涉嫌串通投标。后经证实,本标段投标人标书由同一人编制,为典型的串通投标行为。

案例2

某服务类招标项目共有3家投标商,分别为A、B、C。通过程序对技术文件进行分析,获得了分词量、部分高频词和部分关键词等信息。结果表明,投标商A和投标商C文件字数在1万左右,而投标商B文件字数略少,在6000左右。对比高频词表的分词后,投标商A、B、C关键词基本相同,关键词内容符合本次招标采购范围。对比投标商A和C高频词表,发现工作、人员、处置、领导等词语出现次数相近或完全相同。对比投标商A和B高频词表,佩戴、书报、小說、游戏机、临阵脱逃等词语出现次数完全相同。“临阵脱逃”之类较少在投标文件中使用的词语同时出现在了投标商A和B文件中,明显涉嫌串通投标。后经证实,本标段投标人标书由同一人编制,为典型的串通投标行为。

三、结论

招投标是审计工作重点关注的领域之一,在投标文件中引入文本挖掘,能够从文本信息的角度进行串通投标行为的识别,更好地助推相关审计工作的取证和开展。预防和遏制串通投标行为是一项系统工程,需要各环节的共同努力,才能确保招投标市场规范有序。

猜你喜欢
串通标书高频词
30份政府工作报告中的高频词
省级两会上的高频词
28份政府工作报告中的高频词
省级两会上的高频词
高质量经营军民融合市场的分析
主位推进理论在招标文件翻译中的应用
配偶是否应承担另一方与他人恶意串通虚构的所谓夫妻共同债务?
构式如何避免词汇语义与句法的“串通”
最高法:商标申请人与代理人系亲属的,可视为恶意串通抢注
需求疲软 油价续跌