林 捷
(泉州师范学院 数学与计算机科学学院,福建 泉州 362000)
信息检索模型[1]作为一项至关重要的技术被广泛运用在各类垂直搜索[2]引擎中.传统的信息检索模型,如经典的布尔模型、向量空间模型、概率模型、统计语言模型等,显著提高了查询结果的精确度.虽然这些传统的信息检索模型解决了许多信息检索方面的问题,但是仍然存在着各自的缺陷.例如通过这些信息检索模型进行信息检索的时候,用户经常发现查全率往往无法满足具体的要求,大量相关的信息或者文档被遗漏,无法获取足够的信息.
针对这些问题,国内外的专家提出了许多新的模型以及改进方法,其中包括融入商空间理论对检索模型的优化,本文提出了一种基于商空间理论的开放式信息检索模型,通过计算主题关键字语义团的粒度,从语义识别的角度改善查全率不足的问题,并且运用于某企业情报采集分析系统,大大提高了企业的情报采集能力,提高了企业效率.
商空间理论[3]是一种多粒度计算的理论,来源于Hobss所认为的“人类问题求解的基本特征之一,就是具有从不同的粒度上观察世界,并很容易地从一个抽象层次转换到其它层次的能力,即分层次地处理它们”.在国内,清华大学的张拔院士和张铃教授提出了一种基于商空间的粒度计算模型.在该模型中,用不同集合表示不同粒度等级的概念,一簇就构成空间的一个知识基划分,不同的集合簇就构成不同的商空间.而商空间粒度的问题,也就等价于研究在给定知识基上的各种子集合之间的关系和变换.通过这种方式大大的降低了目标问题的复杂度.
在问题求解过程中,通常使用一个三元组(X,F,T)来描述某个问题.其中,X表示问题研究对象的集合,称为论域.F表示论域X的各种属性函数集合,对于论域X中的任何元素x∈X,都存在F(x)用于表示x所具备的属性.对于不同的元素x,F(x)既可以是固定值,也可能是一个范围.T(x)表示论域X的结构,表示X中所有元素间的结构关系.那么,求解问题(x,F(x),T(x))实际上就是指对论域及其相关的结构、属性进行分析和研究.
由于人类能从不同粒度来处理问题,假设x是论域中最细的粒度,从一个较粗的角度看问题,把x和与其性质相近的对象看成是等价的,并作为一个整体或者一个元素而构成粒度较大的新论域[X],这一转换过程正是借鉴了数学中商集的概念.
开放式信息检索模型通过对主题关键字语义团采用论域划分技术来寻求复杂问题在不同粒度层次的解.
通常的论域划分技术分以下几种:
属性划分法:对于三元组(X,F,T)上的属性F选择不同粗细的粒度,从属性F的粒度层次的角度对论域X进行划分,从而获得降低粒度的目的.
结构划分法:对于三元组(X,F,T)上的结构T选择不同粗细的粒度,从结构T的粒度层次的角度对论域X进行划分,从而获得降低粒度的目的.
投影划分法:假设元素X的属性函数F是n维的,如果有多个属性函数分量 F1,F2,F3,F4…Fn,如果忽略其中的 i个属性(其中 i 约束划分法:假设论域X存在多个约束条件,分别为C1,C2…Cn,那么可按 Ci进行划分. 保假原理 首先将命题在商空间上的三元组(X,F,T)上的描述转化为低粒度空间([X],[F],[T])上讨论,对于问题求解,即从已知前提X而推出所需结论Y.如果将推导过程看成由X经X1,X2…Xn,最后推得Y,我们可得出一条由X到Y推理路径X→X1→X2→X3→…Xn→Y.数学逻辑上可以描述为:由 X推出Y有解的充分必要条件是x、y在X上的同一条连通路径中.采用拓扑学方法,得出以下保假原理结论. 定理1.1 假设(X,T)是([X],[T])的一个低粒度空间,如果求[X1]到[Y1]的问题在([X],[T])域上无解,那么求解X到Y的问题在(X,T)上也无解. 综上所述,保假原理可表示当某命题在粒度较大空间中是假命题,那么该命题在比粒度较小的商空间中也将被认定为假命题. 保真原理 保真原理是商空间理论粒度计算中的一个重要定理,同时也是作为上述保假原理的一个重要补充,保假原理从问题分析的反面角度出发,去掉不包含问题解的部分,有效缩小检索范围.对于大部分满足商空间理论粒度计算的结论都仅具有保假性,但在某些条件下也同时具有保真性. 定理 1.2 设(X1,T1),(X2,T2)是(X,T)上两个不相同的半序空间,如果Xi(其中i=1、2)从作为某一前提满足Xi→Yi的问题有解,那么对于合成空间(X3,T3)如果满足X3=X1∩X2,Y3=Y1∩Y2,那么 X3→Y3同样有解. 综上所述,保真原理可表示为当某个命题在两个较大粒度的商空间中为真时,那么在特定条件下,该命题在上述两个商空间的并集中也判定为真. 为了验证基于商空间的开发式信息检索模型能够改善查全率不足的问题,本文将该模型运用于某企业竞争情报分析系统中,拟解决原有系统中数据分析能力薄弱的问题,系统架构如图1所示: 图1 基于商空间的开放式信息检索模型框架图 从系统框架图可知,本文模型主要可以分为三个模块,包括源信息收集处理和索引库的建立、用户信息检索模块以及基于商空间的粒度计算模块. 其中,源信息收集处理和索引库的建立通过多种不同的来源,比如互联网、本地文件系统以及本地或者远程的数据库系统采集海量的数据,介于采集到的数据存在着格式和结构上差异较大,信息冗余度较大,系统将对数据源进行有效信息的抽取以及相关预处理,包括了信息统一结构化、文档去重等工作,处理之后形成文档检索库,再通过快速索引技术建立索引库提供索引服务. 用户信息检索模块是用户与系统交互的借口,接受用户提交的查询关键字交由搜索器进行进一步的查询.该模块具备友好的用户界面以及高效的搜索器能够从索引库中迅速获取与关键字匹配的结果序列. 基于商空间的粒度计算模块包括商空间开放式信息知识库、粒计算模块以及检索结果质量判断模块.该模块属于本文提出的基于商空间的开发式信息检索模型在企业情报信息检索系统中的运用. 商空间开放式信息知识库的建立 商空间开放式信息知识库工作时采用本文中提及的论域划分技术建立商空间概念字典提供进一步的粒度计算支撑.对于每一个词元,我们引用商空间三元组(X,F,T)描述,X表示语义相同的关键词组,F表示论域的属性集,T用于描述不同划分方式的之间的比重.例如,如果用“动物”来表示关键词组 X,那么“[昆虫 |非昆虫]”和“[冷血动物 |恒温动物]”都作为属性集F中的元素存在,但是这两种元素是对关键词组的不同粒度的划分,并且前者T的比重要大于后者. 建立知识库的过程如下: 步骤1:使用关键字训练集为数据记录集合加注标记 步骤2:采用基于粒度计算原理的聚类算法[4]进行聚类,输出各类样本组合及该分支的阈值T 步骤3:定义基于商空间的分类标准并进行属性切分 步骤4:重新分类当前数据记录集合 步骤5:重构形成新的三元组,存入知识库 其中,基于粒度计算原理的聚类算法如下: 步骤1:对所有数据类别进行层次编号,对样本进行序列化 步骤2:设初始阈值为最大阈值r,采用传统聚类方法[5]对样本进行聚类计算,从而得到聚类层次图. 步骤3:在阈值T处切分聚类谱系图G得到分支,每个分支构成一个子类Si 步骤4: 步骤5:对既定的数据样本集进一步分类,计算数据样本的各个子类类别重心.鉴于不同数据样本集的规模并不平均,所以在进行分类时需要调整各个子类的类别重心,如果样本数较少,则类别重心需要适当扩张,反之,类别重心适当向内退缩. 步骤6:计算各样本与调整后的各个子类的类别重心之间的SVM夹角余弦cosθ,将各个样本并入cosθ值最大的子类中. 粒度计算模块 粒度计算模块的主要功能是通过将关键词放入商空间开放式信息知识库中进行检索,获取不同粒度层面上的解,即将原始论域X转化为新论域[X]的过程.通过这种方式提高信息检索的查全率,该模块主要工作流程如下: 步骤1:根据前一阶段的搜索结果序列判定结果 步骤2:利用商空间开放式信息知识库对关键词集构造粒度层次树 步骤4:将各个粒度层次上的搜索结果进行合成. 本章实验基础是采用Java开发的企业情报信息采集系统[6].对于企业情报信息采集,本章采用基于商空间的粒度计算分类算法,查询结果取得了更高的检索查全率.首先在用户界面模块中,采用基于词典的分词方法对主题关键词团进行切词,所使用的测试集包含3625个去重后的词.然后采用本文提出的粒度计算方法进行文本检索,并且根据不同领域分类显示搜索结果.表1给出了各类经典搜索方法和本文方法检索的查全率和查准率的比较. 图2将上述实验结果采用直方图的方式展示出来,通过与各种经典算法查询出来的结果进行比较,本文算法能够保证一定的查准率范围,极大程度的提高了查询的查全率. 表1 网页搜索结果比较 图2 各类搜索结果比较 本文针对大部分垂直搜索中查全率不足的问题提出一种基于商空间的开放式信息检索模型,通过建立商空间信息知识库,采用粒度计算的方法对关键词团进行扩展,寻求其在不同粒度层面的解,改进查全率不足的问题.本文将该模型运用于某企业竞争情报分析系统中,改善原有系统中数据分析能力薄弱的问题. 本文提出的基于商空间的开放式信息检索模型还存在不少需要完善和改进的部分,比如对动态粒度阈值控制和商空间论域元素模型等,这些将是今后研究的重点. 本文作者创新点:提出一种基于商空间的开发式信息检索模型,将粒计算方法用于改进垂直检索中查全率不足的问题,并且运用于某企业竞争情报分析系统,取得良好的成效. 〔1〕李晓玲.Internet信息检索探讨 [J].重庆交通学院学报,2001,03. 〔2〕林文清.B2B垂直搜索引擎在信息获取技术中的应用[J].情报杂志,2007,9:120~121. 〔3〕张铃,张钹.模糊商空间理论(模糊粒度计算方法)[J].软件学报,2003,14. 〔4〕东波,白硕,李国杰.聚类,分类中的粒度原理[J].计算机学报,2002,25(8):810—816. 〔5〕郭伟,唐晓君,刘万军.一种基于划分的聚类算法分析与改进[J].辽宁工程技术大学学报,2004,06. 〔6〕余志红.竞争情报在企业发展中的价值初探[J].贵阳学院学报(自然科学版),2006,02.3.2 商空间粒度推理模型
4 系统架构以及相关关键技术
4.1 系统架构
4.2 关键技术分析
5 实验环境与结构分析
6 结束语