知识链知识获取：技术实现与应用举例

2012-04-29 18:26:25张省顾新

图书与情报 2012年6期

关键词：数据挖掘文本分析

张省　顾新

摘要：知识获取是知识链组建的首要目标。文章从技术角度定义了知识链知识获取，介绍了新兴的知识获取技术：数据挖掘、Web挖掘、文本挖掘，并分别结合银行业、电子商务、网络新闻的知识获取案例探讨了三种挖掘技术的应用。

关键词：知识链知识获取数据挖掘Web挖掘文本挖掘

中图分类号：G250.7 文献标识码：Ａ文章编号：1003-69３８（２０12）０6－0073-04

1引言

知识经济和全球化是21世纪的两大特征。企业之间的竞争将主要依靠其聚集、整合和开发各类资源的能力。企业与大学、科研机构、上下游企业甚至竞争对手之间通过知识流动，以实现知识共享和知识创造，这种组织之间的知识流动形成了知识链（KnowledgeChain）［1］。知识链是知识经济时代组织之间合作竞争的新形式，未来的竞争将不再是企业与企业之间的竞争，而是知识链与知识链之间的竞争。

知识链在竞争中取胜的关键在于形成知识优势［2］。一般而言，知识优势的形成路径是从知识获取到知识共享，最后是知识创造。可见，知识获取是知识链知识优势形成的逻辑起点，它使知识链与外部知识网络形成动态沟通，是知识管理活动的基础和前提。通过对近十年知识获取相关文献的梳理后发现，学者对知识获取的研究主要集中在知识管理行为和人工智能技术两个领域。本文从技术角度定义知识链知识获取，集中介绍新兴的知识获取技术：数据挖掘、Web挖掘和文本挖掘，并结合具体的知识获取案例探讨了知识挖掘技术的应用，尝试打通知识管理领域的技术障碍，为我国的知识管理实践提供一个技术解决框架。

2知识链知识获取技术

知识链知识获取是指将用于问题求解的知识从知识源中抽取出来，并转换成计算机可执行的程序，最终储存到知识链内部的过程。知识链组建的目标就是从外部知识源中获取有用的知识，知识源具有多样性，包括数据库、人类专家、文本文献等。目前尚无通用的知识获取方法，互联网时代的知识获取技术主要是数据挖掘、Web挖掘和文本挖掘。

2.1数据挖掘技术

数据挖掘（DataMining）是指从大量随机的、模糊的、未知的数据中提取潜在有用的信息和知识的过程。数据挖掘的目的是从复杂数据中发现相互联系和内在规律，从无知中找出真知，从无序中找出有序，以用于商业分析和科学研究。例如，医学研究成员尝试从成千上万病历中找出某种疾病患者的共同特征，从而为治愈这种疾病提供一些帮助。数据挖掘有一些同名词，如数据开发、知识挖掘、数据采掘等。

相对于传统的数据库查询系统，数据挖掘技术拥有自身明显的优势。首先，数据挖掘不是利用严格的SQL语言来描述，因此可以随机、即时、灵活地使用；其次，数据挖掘过程一般基于统计规律，不一定生成严格的结果集，因此能够对决策提供更优质的信息；最后，数据挖掘不仅可以对数据库原始字段进行查询，还可以在数据的不同层次上进行挖掘。目前正在研制的第四代数据挖掘软件主要特点是将数据挖掘和移动计算相结合，能够挖掘移动系统、嵌入式系统和各类计算设备产生的数据。

数据挖掘质量取决于算法的设计。比较通用的算法包括：主成分分析法、粗糙集法和决策树法。主成分分析也称主分量分析，旨在利用降维的思想，把多指标转化为少数几个综合指标。它的任务是使数据阵简化，用较少的变量去解释原来数据中的大部分变异。主成分分析法适用于大样本的量化评估分析。粗糙集法的优势是无需提供任何与问题无关的数据，适合发现数据中隐含的有用规律。粗糙集先通过对条件属性的约简，即从决策表中消去某些列，然后消去重复的行和属性的冗余值，将不精确或不确定的知识用已知的知识库中的知识来（近似）刻画。决策树法则利用一种树形图作为分析工具，用决策点代表决策问题，用方案分枝代表可供选择的方案，用概率分枝代表方案可能出现的各种结果。该方法计算损益值，因此常用于风险分析决策。

2.2Web挖掘技术

Web挖掘是数据挖掘技术在Web技术中的应用，它是指利用数据挖掘技术在Internet上的资源中发现潜在的、有用的信息或模式。与传统数据挖掘不同，Web挖掘的数据以TB数量计算，既有数位型（整型、实型）、布尔型，又有性质描述数据、分类数据还有Web特有的数据类型，如url（网页）地址、E-mail地址等，因此很难直接对Web网页上的数据进行挖掘，而必须经过必要的数据处理。典型的Web挖掘处理流程如下［3］：

（1）查找资源：从目标Web文档中寻找数据；（2）信息选择和预处理：从取得的Web资源中剔除无用信息，进行必要的分类整理；（3）模式发现：在同一个站点内部或在多个站点之间自动进行模式发现；（4）模式分析：验证、解释上一步骤产生的模式，该任务可由机器单独自动完成，也可与程序人员交互完成。

根据用户对Web数据的需求程度不同，Web挖掘一般可分为三类，即内容挖掘、结构挖掘和用法挖掘。Web内容挖掘是指从Internet文件（文档、图像、音频、视频等）获取有价值的信息和模式。Web结构挖掘是指从Web站点组织结构和链接关系中推导模式和知识，Google等搜索引擎就是结构挖掘。Web用法挖掘是指登录用户使用记录挖掘，也称访问信息挖掘。

按照自动化程度标准，Leander等人［4］（2002）将Web挖掘技术分为人工方式、半自动化和全自动化三种。采用人工挖掘方式的系统主要有：W4F、Informaia、ANDES等，采用自动、半自动化挖掘方式的系统主要有：XWRAP、WIEN、Softmealy、Stalker等。当前Web挖掘技术在商业领域的应用主要是：（1）获取竞争对手和客户信息；（2）发现用户访问模式；（3）反竞争情报活动。

2.3文本挖掘技术

随着电脑使用的普及与互联网的发展，非结构化的电子文本文档（如学术论文、新闻文章、电子邮件、公司通告等）数量急剧增长，为了从这些知识源中挖掘有价值的知识，需要用到文本挖掘技术。文本挖掘是数据挖掘的一个新领域，它利用智能算法，并结合文字处理技术，从文本文档中发现和提取隐含的、事先未知的知识。

根据文本挖掘知识对象的种类不同，文本挖掘可以分为关联规则抽取、语义关系挖掘、文本聚类与主题分析、趋势分析四大类。文本挖掘研究中最成熟、应用最广泛的领域是文本聚类，它是指在没有预先定义类别的情况下，自动产生文本分类的过程。文本聚类可以作为发现最近邻文档的有效手段，也可被用于浏览文档集合或组织从搜索引擎返回的文档。

文本挖掘的过程与特定领域中的信息表达模型密切相关，一个典型的文本挖掘过程包括文本集合的预处理（文本数据的选择、清洗、分类、特征提取等）、索引与存储、中间表示分析（聚类、趋势分析、关联规则发现等）、后处理（知识的评价与取舍、知识的解释与知识的可视化表达）等步骤［5］。

目前，中文文本挖掘研究还处在起步阶段。中文文本挖掘主要采用“词袋”法，即提取文本高频词构成特征向量来表达文本特征。“词袋”法没有考虑词在文本（句子）中担当的语法和语义角色，也没有考虑词与词之间的顺序，丢失了大量有用信息，加之汉语中同义词与多义词的普遍存在，更加减弱了高频词向量表达文本特征的可信度［6］。因此，中文文本挖掘研究的重点是中文文本的构成特点与特征提取机制，只有中文文本的分析技术得到突破，才能实现中文文本的深度挖掘。

3知识链知识获取应用

3.1数据挖掘技术在银行业的应用

银行信息化发展迅速，信息系统成为银行业业务开展的主要支撑平台。从海量金融数据中抽取有价值的信息，为银行高管正确决策提供依据，是数据挖掘的重要应用领域。国际知名银行如汇丰银行、富士银行和花旗银行都是数据挖掘技术应用的先行者。具体应用主要在以下两个方面：

（1）客户管理。数据挖掘技术可以在客户寻找、客户保留和客户服务优化等银行客户管理周期各阶段提供支持。如银行可以通过分析客户的交易习惯、交易频率和交易额度等数据来判明客户的忠诚度，也可以在客户信息中进行聚类分析找到可盈利目标群。

（2）风险管理。数据挖掘可以应用在信用风险评估上，方式一是构建信用评级模型，对信用卡申请人和贷款申请人的风险进行量化评分；方式二是检测信用卡的异常使用，预防商业欺诈造成的损失。

3.2Web挖掘技术在电子商务中的应用

知识经济时代，网上交易正改变着人们的商务习惯和商务理念。顾客在Web站点上的注册信息、浏览信息、购物信息都隐藏着自己的商务行为模式，也蕴藏着巨大的商机。合理运用Web挖掘技术，有助于电子商务企业及时获得零售商、合作商、中间商以及竞争对手的信息，有助于发现潜在客户、用户和市场，以实现个性化的市场服务，提高市场竞争力。

Web挖掘在电子商务中的主要方法有统计分析、知识发现、预测模型三种。统计分析是利用大数法则，发现Web数据的规律，并进一步解释这些规律，为管理战略提供依据。通常使用的方法有线性分析和非线性分析、连续回归分析和逻辑回归分析、单变量和多变量分析以及时间序列分析等［8］。知识发现是数据挖掘的高级过程，用于确定数据中有效、新颖、潜在有用、基本可理解的模式的特定过程，例如宾馆酒店通过对消费特别高和特别低的顾客进行偏离模式分析，可以发现一些有趣的消费模式。预测模型假设消费者行为具有重复性和规律性，通过建立模型预测下一个时点消费数量或消费选择。

3.3文本挖掘技术在网络新闻中的应用

网络新闻具有海量性、即时性、交互性和超文本等特征。网络新闻的文本挖掘，可以实现对新闻资料的自动组织、生成专题，以满足网络用户检索新闻信息的需要。网络新闻文本挖掘的内容主要有三个方面：主题发现与跟踪、热点趋势检测、事件预测规则的发现。

4结语

运用数据挖掘、Web挖掘和文本挖掘技术，知识链可以从外部知识源获取知识形成自己的知识仓库和知识地图，但是要想赢得知识优势和竞争优势，知识链还必须实现成员之间知识的充分共享，最终通过知识创造保持核心能力。本文主要基于技术层面研究知识链知识获取，未来知识获取发展的趋势将是技术和行为的融合，知识管理者不仅要对信息和人进行管理，更要将信息处理能力和人的创新能力相互结合，以增强组织对环境的适应能力。当前的知识管理系统的研发正在朝着这个方向发展，如IBM开发的Lotus系统和微软公司开发的SharePointPortalServer系统都实现了人、场所、事务的有机关联。

参考文献：

［1］顾新．知识链管理－基于生命周期的组织之间知识链管理框架模型研究［M］．成都：四川大学出版社，2008．

［2］张省，顾新．知识链知识优势的形成与评价研究［J］．情报资料工作，2012，（3）：24－28．

［3］胡洁，彭颖红．企业信息化与知识工程［M］．上海：上海交通大学出版社，2009．

［4］LeanderA.，Riberio-NetoB.，SilvaA.Abriefsurveyofwebdataextractiontools［J］．SIGMODRecord，2002，31（2）：84－93．

［5］谌志群，张国煊．文本挖掘研究进展［J］．模式识别与人工智能，2005，18（1）：65－74．

［6］谌志群，张国煊．文本挖掘与中文文本挖掘模型研究［J］．情报科学，2007，25（7）：1046－1051．

［7］李小庆．银行数据挖掘与知识发现技术全景分析［J］．华南金融电脑，2010，（11）：44－47．

［8］SrivastavaJ，CooleyR，DeshpandeM.Webusagemining：Discoveryandapplicationofusagepatternsfromwebdata［J］．ACMSIGKDDExploration，2002，（2）：76－88．

［9］凌传繁．Web挖掘技术在电子商务中的应用［J］．情报杂志，2006，（1）：93－95．

［10］阮光册．基于文本挖掘的网络媒体报道研究［J］．图书情报工作网刊，2011，（6）：24－31．

作者简介：张省（1981－），男，绵阳师范学院法学与社会学院讲师，四川大学工商管理学院博士研究生，研究方向：知识管理；顾新（1968－），男，四川大学工商管理学院教授，研究方向：企业管理、技术经济及管理、教育经济与管理。