Ｗｅｂ环境下竞争情报自动采集初探

2009-07-15 09:54金燕闫晓妍林琳

现代情报 2009年3期

金　燕　闫晓妍　林　琳

〔摘要〕介绍了Web环境下竞争情报自动采集的关键技术，构造了一种基于自动采集的CI模型，该模型能够对Web信息源进行自动采集、文本分析、分类聚类，并根据特定主题对信息源实施监控，生成竞争情报报告提交给企业决策层，从而提高企业决策的及时性、科学性。

〔关键词〕Web;竞争情报;自动采集

〔中图分类号〕G35 〔文献标识码〕A 〔文章编号〕1008-0821(2009)03-0023-03

1 Web环境下的竞争情报及竞争情报工作

简单的说，竞争情报就是利用公开的信息源，获取有关竞争、竞争对手和市场环境的信息的过程。这个过程包括如下几个环节:(1)识别需要获取什么信息;(2)识别可以获取所需信息的信息源;(3)收集所需信息;(4)分析、整合所收集的信息;(5)把分析的结果和得到的结论提供给相关人员，为其提供决策支持。随着竞争的加剧，竞争情报工作越来越受重视。

早期，竞争情报从业者多是通过一些商情数据库、公开的出版物、会议、展览以及其他一些公共信息源人工采集竞争情报。近些年，随着Internet的快速发展，Web给竞争情报从业者提供了更广阔的信息获取空间。这表现在，许多商情数据库可以通过Internet使用;许多行业协会建立了自己的网站，在Web上发布大量的行业信息;绝大多数政府的法律、法规、相关政策等在Web上都可以检索到;多数企业、组织都建立了自己的网站，发布大量的诸如公司历史、产品一览、金融数据、统计信息、销售记录、年度报告、人事变动、招聘广告之类的信息。可以说，Web不但为竞争情报从业者提供大量的免费信息，而且绝大多数信息比较及时，且能够通过一些工具获取，比起手工方式效率提高较明显。然而，由于缺乏有效的自动采集工具，Internet在给竞争情报从业者提供大量信息的同时，也给他们带来了巨大的时间消耗。有调查表明，收集信息所耗费的时间往往会占据整个竞争情报工作流程的30%[1]。竞争情报从业者迫切需要有效的信息自动采集工具来减少他们收集信息的时间，从而使他们把更多的精力放到信息的分析和整合上。

2 Web环境下的竞争情报自动采集技术

2.1 搜索引擎技术

搜索引擎技术是竞争情报从业者在Web环境下使用最为广泛的一种信息自动采集技术。搜索引擎通常由如下模块构成:(1)信息采集模块，主要负责从Web上获取网页内容和链接信息。通常通过Robot软件信息的自动采集。Robot是一种能够根据文档内的超链递归访问新文档的软件程序。在自动加载方式下，Robot从一个事先制定好的URL列表出发，根据http协议自动访问WWW网页，当网页被提取后，分析提取网页中超文本的URL，将其加入URL列表，同时以此超链接作为新的起点，进一步访问其他网页，不断循环下去;(2)索引模块，主要负责对Robot收集的信息进行索引，并按照一定的方式存贮在索引数据库中;(3)检索和排序模块，主要是确定检索机制以及检索结果的呈献顺序。利用搜索引擎进行竞争情报的自动采集，通常需要确定待采集信息的主题，从而使Robot自动跟踪这些主题，实现采集的自动化和长期化，通过监控一个主题的变化情况分析竞争对手的行为。这些主题包括企业名称、产品名称、竞争者网站的URL等。

除了一般的搜索引擎之外，元搜索引擎技术也开始应用于竞争情报的自动采集。元搜索引擎可以调用多个搜索引擎，集成多个搜索引擎的结果，因而，所采集的信息更为全面。

但是，目前应用的传统搜索引擎技术，往往只能采集部分信息，如GOOGLE、百度只是采集了网上信息的10%，而对隐藏在网络深处的一些结构化和非结构信息难以处理[2]，如企业内部信息数据库、企业的研发报告、文献资料等。这些信息都无法被传统的搜索引擎采集，即使采集到，也只能作为全文处理，不能区分信息的详细属性。但是，web数据库、企业内部非结构化信息中蕴涵了大量高质量的权威信息，必须对其给予重视。对于这些信息的采集，需要应用新的搜索引擎技术。有学者提出把P2P技术应用到网页检索中，能够大大改善信息采集的深度和宽度，拓展信息的采集面。

2.2 文本分析与聚类技术

通过Robot收集的信息数量很大，对这些信息的长期跟踪必须建立在对这些信息的分析和分类、归类的基础上，这就需要用到文本分析和聚类技术。

文本分析是通过对文档的结构和内容的分析来获取文档的关键信息，包括文档标志、文档空间矢量、文档中的词频分布、文档中重要关键词的关联、词的权重、文档的语义等，消除文档的模糊性。根据这些信息，判断文档的主题内容和文档集的语义，有利于文档内容的确定和文档的归类、聚类。词的分析、文本特征抽取、自动去重、自动标引、自动索引、自动摘要、自然语言处理等都是常用的文本分析技术。

聚类是采用一定的算法，自动的将文档集合分成若干群，要求同一群内的文档内容的相似度要尽可能的大，而不同群内的文档内容之间的相似度要尽可能的小，每一个群都有一个相应的主题。聚类没有事先定义好的主题，通常是根据一定的算法通过关联分析进行。目前文本聚类的方法大致可以分为层次凝聚法和平面划分法2种[3]。

2009年3月第29卷第3期现?代?情?报Journal of Modern InformationMar.2009Vol.29 No.32009年3月第29卷第3期Web环境下竞争情报自动采集初探Mar.2009Vol.29 No.32.3 数据挖掘技术

数据挖掘是一种新的信息处理技术，它从大量数据中提取辅助决策的关键性知识，这些知识可以是隐含的、未知的、非平凡的及潜在有用的信息或模式，从而提高市场决策能力、偏差检测、风险预警，在经验模型基础上预测未来趋势，跟踪正在出现的连续性和非连续性变化，以及分析现有和潜在竞争对手的能力和动向，帮助企业赢得竞争优势[4]。

企业竞争情报获取的信息形式多样，可以是来自竞争对手网站、行业网站、政府网站的Web文档;还有以企业的MIS、ERP等信息系统为中心，企业日常业务积累的数据信息形成的关系型数据库、文档数据库等。数据挖掘技术的应用包括数据库挖掘和文本挖掘。数据库挖掘对大容量数据库中的结构化信息进行关联分析、时序演变分析、聚类、分类、预测等从而建立隐含的模型;文本挖掘的对象是非结构化的数据，它综合了文本处理技术和知识发现技术，主要通过对搜索到的文本页面进行文本特征提取、主题析取、文本分类、文本聚类、相关度分析等来获取有用的、潜在的关系、规则、趋势等知识。

少数国内企业目前已开始或计划采用数据库挖掘技术，从企业内部结构化数据源中通过联机分析处理和数据挖掘技术进行深层情报的提取。文本挖掘方法可以帮助企业从海量的内外部文本信息源中提取有用的情报。目前这种方式在所调查的国外企业中已被广泛采用，而国内企业基本上还未将其作为一种正式的竞争情报采集手段[5]。

2.4 信息过滤技术

信息过滤是根据用户的兴趣或偏好，自动地采集与之相关的信息并把其推送给用户的过程。常见的信息过滤技术主要有基于内容的过滤和协作过滤，目前在竞争情报系统中常用的是前者。

基于内容的过滤主要是在信息的内容与用户兴趣之间建立联系，根据资源与用户兴趣的相似性来过滤信息。通常是根据用户模型(profile)，从信息源中匹配与之相关的内容，把其中符合特定标准的部分筛选出来呈送给用户，主要采用基于关键词的匹配，用关键词匹配技术实现。这种技术应用于信息采集存在一定的缺陷:比如，由于过滤的结果只取决于用户信息需求模型与信息源的匹配程度，那么关键词匹配过滤的结果与用户呈送的关键词密切相关，如果用户呈送的关键词不能准确表示其需求，则过滤的结果很难满足用户的需要;此外，关键词匹配过滤不能区分信息资源质量的好坏，且不能动态地为用户推荐其可能感兴趣的信息。

信息过滤技术可以帮助企业实现特定主题信息的定制采集。这种技术与搜索引擎方式的区别是，它可以借助相关软件系统进行特定主题的自动搜索。目前有少数企业单纯使用这样方式开展竞争情报采集工作。如中国国际科学技术合作协会就利用信息过滤和推送技术，组织人员对互联网上的信息进行基于用户兴趣模型的定制采集，并将信息采集的结果推送给客户[5]。

2.5 智能Agent技术

智能Agent具有感知能力、问题求解能力、与外界进行通信能力，它使用户通过代理通信协议进行交换，以实现问题自动解决。智能Agent能在没有明确具体要求的情况下，以用户需求为先导进行信息搜集和信息加工，代替用户进行信息查询、筛选、管理等工作，并能推测用户意图，自动制定、调整和执行工作计划，是用户获取资源的“自动助手”。

在信息采集中智能Agent主要完成资源导航、信息发现和信息过滤功能。资源导航是指智能Agent能够根据用户提供的初始URL或相关Web页面作为训练样本，自动搜集、发掘用户所需的信息，提供资源导航服务。智能Agent具有推理能力和从经验中学习能力，在用户查询请求不明确时，能够根据知识库中的事实和推理规则发现用户的潜在信息需求。过滤功能指智能Agent根据预定的主题和需求偏好过滤信息，并以不同级别(全文、摘要、标题)呈现给用户。

智能Agent的智能性、代理性、协作性、主动性使它成为满足网络信息检索、个性化信息需求的重要技术，越来越受到广大用户的青睐。Intelliseek公司的BrandPulse就利用了智能代理技术，它能够从各种各样的信息源中收集与特定品牌或主题相关的信息[6]。CA公司推出的Neugent是一种基于神经网络的智能代理技术，它能够在不断变化的商业环境中跟踪客户行为，从庞大的海量数据中以不同角度分析各种复杂的模式，并在统计的基础上做出预测，为商业用户提供极具价值的商业信息[7]。

3 一个基于自动采集的CI模型

3.1 模型的基本思想

通过调查发现，目前大多数企业都或多或少采用了一定的智能化手段辅助竞争情报采集，基本上都实现了信息的自动采集，大部分还实现了自动去重和自动标引，少数企业还实现了基于自动摘要的竞争情报采集。而如何实现自动分类则是目前企业最受关注的一类智能化竞争情报采集方式。基于此，笔者提出了一个基于自动采集的CI模型，如图1所示，希望能够建立一个自动采集和跟踪给定主题信息的CI系统，解决Web环境下的动态竞争情报的采集问题。

3.2 模型的基本架构

模型主要由采集模块、分析模块、监控模块和呈送模块构成，各部分模块功能如下:

3.2.1 采集模块

根据企业确立的情报需求，通过Robot程序对web信息源进行自动采集，从给定的主题或URL出发，通过超文本传输协议(http)获取web文档，并将超链接的相关文档地

址列入URL列表中，进行遍历搜索，最后形成一个有关企业竞争情报的文本集合。采集模块主要实现技术有搜索引擎技术和智能Agent技术。智能Agent技术对用户信息需求、偏好进行甄别、归纳，自动代理用户查找其感兴趣的信息;结合搜索引擎技术“面向主题”的检索模式，在密切关注用户信息需求的基础上，提高信息采集的覆盖面，以弥补智能Agent信息搜索范围有限的缺陷。

3.2.2 分析模块

分析阶段是竞争情报系统的核心，主要借助于系统提供的各种分析模型以及数据挖掘工具对采集模块采集的信息进行综合分析、深层挖掘，从而得到企业所需的信息。分析模块的关键技术有文本分析、文本聚类以及数据挖掘技术等，通过文本分析与聚类技术对web页进行自动分类、自动摘要、自动聚类等智能化分析处理，充分挖掘信息中隐藏的价值;数据挖掘技术是企业实现数据深层次挖掘的核心技术，可以在大量信息中发现未知的关系、模式，从而实现关联分析、时序演变分析、偏差检测等。Web环境下，对文本资源的挖掘显得尤为重要，基于文本内容的文本分类、自动摘要、文本聚类等技术的成熟，为企业竞争情报系统提供了有力的支持。

3.2.3 监控模块

监控模块主要对特定主题和对象进行多方位连续追踪，对于异常情况能够及时发现并提出预警，以使企业迅速采取相关措施。实施监控的项目包括市场需求动态监测、突发事件监控、竞争对手跟踪、易失客户分析、潜在客户调查以及客服记录统计等[8]。监控模块主要利用智能Agent技术和数据挖掘技术，通过监控一个主题的变化情况，利用基于偏差的异常数据监测方法设置预警指标，分析各种变化量及变化幅度，对可能出现的机遇或风险提供早期预警，帮助企业及时掌握市场动态，发现问题并找到原因。对竞争对手进行监控和技术跟踪，分析竞争对手行为，对行业趋势和竞争环境进行检测分析，为企业决策者提供准确、及时的竞争情报，使企业在瞬息万变的市场竞争中处于主动地位。

3.2.4 呈送模块

呈送模块通过对分析挖掘的结果进行评价，生成竞争情报报告，提交给用户，为企业决策提供依据。呈送模块为整个竞争情报系统提供了一个信息交流和共享的平台，该模块应具有情报知识树分类导航、多途径检索、报告自动生成等功能。呈送模块主要利用信息过滤、信息推送以及可视化技术，消除无关的、多余的信息，过滤出支持企业决策的关键信息，将分析结果以适当方式及时反馈给适当的部门和人员。

参考文献

[1]Hsinchun Chen，Michael Chau，Daniel Zeng.CI Spider:a tool for competitive intelligence on the web[J].Decision Support System，2002，(34):1-17.

[2]乔佃刚.利用结构化数据采集技术，挖掘深层网络信息[EB/OL].http:∥blog.csdn.net/qiaodg/archive/2006/05/18/744407.aspx，2008-03-01.

[3]陈萍丽.web挖掘在竞争情报系统中的应用[J].中国信息导报，2003，(3):58.

[4]Amir M.Hormozi，Stacy Giles.Data mining:A Competitive Weapon for Banking and Retail Industries[J].Information Systems Management，2004:62-71.

[5]吴伟.国外竞争情报软件研究[J].情报理论与实践，2004，(1):103-106.

[6]Neugent智能代理介绍[EB/OL].http:∥news.chinabyte.com/429/103429.shtml，2008-07-10.

[7]张念萍，卢伟.市场动态竞争情报系统及其运用[J].经济与社会发展，2004，(5):32-34.