林蔚
[摘要]投标文件是招投标活动中重要的文本信息载体。本文通过文本挖掘对投标文件进行分词、提取关键词和词频后进行统计分析,从投标文件角度对围标、串标、陪标等串通投标行为进行识别和取证。
[关键词]采购 招投标 文本挖掘 案例
招投标制度作为市场经济条件下的一种主要交易方式,在采购领域中广泛应用。在实际招投标活动中,围标、串标、陪标等串通投标行为频频发生,成为审计工作重点关注的领域之一。
一、文本挖掘简介
文本分词是文本处理的一个基础步骤。采用Jieba分词组件,开发相应的程序,程序具有简单易用等特点。加载相应的文本文件,即可对投标文件进行文本处理,输出字数、分词词语量、关键词和高频词等信息。
文本分词主要是对文本进行预处理以及统一文本的基准和范围。商务文件内容以资质证明等图片为主,开标文件和报价文件等内容单一,因此,将技术文件作为主要分析对象。应采用程序中的精确模式对文本进行分词,将文本内容中影响分析结果的噪声词语(如“的、是、了”)过滤,并针对招投标行业特别增加招标人、投标人、标书、合同等停用词。获得分词结果后,统计词频和关键词(TF-IDF)等信息。
二、案例分析
案例1
某设备类招标项目共有4家投标商,分别为A、B、C、D。通过程序对技术文件进行分析,获得了分词量、部分高频词和部分关键词等信息。对分词结果分析后可得,投标商A、B、C三家文件字数均在3万—4万,投标商D文件字数略多,5万字以上;分词获得词语量为3000左右。对比关键词表,投标商A、B、C关键词基本相同,关键词内容符合本次招标采购范围,而投标商D则明显不同,标书质量表现存疑。通过查看投标文件,投标商D投标文件质量明显不高,仅将招标文件技术规范书内容复制,并注明理解并响应。投标商D的陪标行为明显,陪标行为的出现,说明整个标段存在异常。对比高频词表,发现投标商A、B、C三家文件中冲洗、试验、机器人、提供等词语个数相近或相同,明显涉嫌串通投标。后经证实,本标段投标人标书由同一人编制,为典型的串通投标行为。
案例2
某服务类招标项目共有3家投标商,分别为A、B、C。通过程序对技术文件进行分析,获得了分词量、部分高频词和部分关键词等信息。结果表明,投标商A和投标商C文件字数在1万左右,而投标商B文件字数略少,在6000左右。对比高频词表的分词后,投标商A、B、C关键词基本相同,关键词内容符合本次招标采购范围。对比投标商A和C高频词表,发现工作、人员、处置、领导等词语出现次数相近或完全相同。对比投标商A和B高频词表,佩戴、书报、小說、游戏机、临阵脱逃等词语出现次数完全相同。“临阵脱逃”之类较少在投标文件中使用的词语同时出现在了投标商A和B文件中,明显涉嫌串通投标。后经证实,本标段投标人标书由同一人编制,为典型的串通投标行为。
三、结论
招投标是审计工作重点关注的领域之一,在投标文件中引入文本挖掘,能够从文本信息的角度进行串通投标行为的识别,更好地助推相关审计工作的取证和开展。预防和遏制串通投标行为是一项系统工程,需要各环节的共同努力,才能确保招投标市场规范有序。