面向非相关文献的知识关联检索系统的设计与实现

2019-08-23 05:38刘爱琴安婷
现代情报 2019年8期

刘爱琴 安婷

关键词:非相关文献;知识关联;中国分类主题词表;计量分析技术;知识发现

Swanson首次提出的非相关文献知识发现的基本发现模式,证明了非相关文献之间存在着潜在关联,为科学研究寻找新的线索提供了一种便捷、有效的辅助手段。现有的研究大多数是基于此模式进行的,黄水清等将此方法应用于汉语社会科学文献,验证了该方法对中文文献同样适用;李勇等在此基础上提出了基于非相关文献的三阶知识发现方法,通过对3个文献集分析发现潜藏的关联,挖掘不同主题之间的关系;楼雯通过利用计量分析技术确定概念之间的关系强度,在本体的基础上挖掘出概念间的关联关系:邱均平等指出计量分析的馆藏资源语义化方法在语义关系深度、计算机自动处理程度、可重复性和实用性方面比基于元数据和领域本体的馆藏资源语义化方法更好:通过对论文的题目或者关键词进行关联发现的语义化知识发现方法不足以更清晰、准确地反映文章的主旨,而从摘要中提取主题词则更具有代表性。

因此,本系统利用《中国分类主题词表》作为主题词受控词表,对文献摘要进行中文分词处理并提取主题词进行标引.提取出文档特征矩阵并利用计量分析技术和聚类技术分析文献间特征的相似、相异水平,对非相关文献之间的关系从更细的粒度层面进行挖掘,揭示非相关文献的知识关联。基于此,设计了面向非相关文献的知识关联发现系统.并基于该系统为用户精确匹配相关的知识库,采用TOP-K算法反馈用户相关的文献集,为用户提供满意度更高的知识发现及相关扩展服务。

1研究脉络

首先,将中国分类主题词作为受控词表,利用主题词标引与用户个性化推荐中的标签系统相类似的特征,对文献进行标引。其次,文献用主题词作为标签,由主题词的层次结构以及主题词间的语义关联程度或相似程度,构建文献的隶属、相关结构,此层次结构具有文献、文献主题词列表、文献主题词的重要程度标注。最后,借助知识相关算法,挖掘文献之间的知识相关的关联程度,并实现知识关联地有效揭示。

1.1理论依据

《中国分类主题词表》是我国第一部对照索引式的综合性分类主题一体化检索语言,是国内图书馆用来标引文献的主要工具。它结合了分类法和主题法的优点,更加规范、科学,是一种具有较为丰富层次、严谨等级结构的检索语言,也是一种检索工具,其创建的知识体系图谱,既描述了知识的等级体系,主题的语义关联,还描述了这两者的对应联系,在一定程度上创造了知识。将《中国分类主题词表》中的词语作为检索语言,重新编码、组织,可以形成一定结构的主题词数据库。通过输入的主题词,结合电子化的词表,浏览分类的词等级树不仅可以检索到与其匹配的文献信息,而且能够查询到特定类别和子类的文献。

1.2研究方法

计量分析的主要方法有共词分析、耦合分析和共引分析等,王日芬等指出共被引矩阵和耦合矩阵是基于引用关系的共现矩阵,这两种分析方法是基于文献间的引用情况、利用期刊引文网络探讨学科研究的交叉关系,或者是利用关联规则挖掘、文本挖掘等现代数据挖掘技术探讨学科间的相关性和交叉知识,来分析文献之间的关系,无法实现对文献内部隐含关联的有效揭示。本系统首先采用共词分析方法计算两个主题词共同出现的次数,以此为依据来确定两者的关系强度。随后,基于文献提取出来的主题词.获取高频主题词的共词矩阵,从更细的粒度层面利用Kmeans聚类的方法对文献之间的关联关系和关联强度进行深入挖掘。

2面向非相关文献的知识关联检索系统的设计与实现

2.1系统设计

依据非相关文献的知识关联特征,本系统设计的知识关联系统从非相关文献的关联、用户检索词与主题词的关联和知识的匹配与反馈3方面展开。非相关文献的关联是通过提取的主题词表进行相关的关联,用户的检索词与语义子系统里的主题词库的解析,以及在知识库中匹配相关的文献库并通过TOP-K算法反馈给用户相关的文献集,详见如图1所示。

首先,将资源进行知识描述并提取其特征.建立特征标引并存储于知识库中以待检索访问。其次.利用语义子系统对用户的检索词进行语义分析与提取。最后,知识库与语义子系统提取的主题词进行关联匹配并返回结果。该体系包括3个层次:

1)知识集成层

先将语料按照计算机可识别的结构整理存储入知识库:系统接收到文献语料后.首先提取文献的摘要进行中文分词处理.将文献的摘要切分成逐个的词语,并将切分好的词输入到语义子系统中,然后通过语义系统的解析并使用经过人工规范化处理的中国分类主题词表作为主题词受控词表,将解析后经过规范的主题词表返回系统,并且将这些主题词扩展到语义子系统的主题词库。最后收集整理子系统获得规范化的主题词表提取核心主题词.并提取文献特征利用计量分析技术以及聚类技术分析文献间特征的相似、相异水平,揭示出文献之间的潜在关联并传输到存储子系统。存储子系统接收到数据后进行索引组织和存储操作,将数据整理汇总存储到知识库中。完成文档、语义以及知识的索引工作。

2)用户检索层

用户登录用户界面上的检索栏借助关键词检索、模糊检索、相关机构检索等检索方式输入目标信息,进行查询检索。该检索是建立在语义关联技术之上的语义检索,获取用户需求概念后借助语义子系统的推理机依次进行特征描述、特征提取、概念扩展等处理,进而调用语义库解析出用户需求所對应的相关语义主题词。

3)知识发现层

语义子系统解析出的用户需求所匹配的语义子系统与知识库的知识进行匹配,反馈回数据检索子系统以相关的知识库,再利用TOP-K算法,将关联度最大的前K条记录组成一个文档集返回给用户.最终借助文件打包器对聚合的文档进行汇总打包.实现智能可视化知识获取,将目标资源的全文信息以PDF文档格式条理化、可视化地呈献给用户。用户可继续进行浏览、检索或其他操作等。并且.根据2/8原则,检索系统要对热点检索结果进行缓存操作,为之后的检索提高效率,提高系统的检索性能和可用性。取代先前简单的检索目录,用户即可获得与其查询内容相匹配的文献数字资源的全文信息PDF汇编文档,以期给用户带来更加智能化、便利化、柔性化的文献资源发现服务。

2.2系统实现

2.2.1数据收集

本文从Web of Science的“中国科学引文数据库SM'导出关键词为“数据挖掘”和“管理”的相关文献数据。其中收集关键字为“数据挖掘”的数据5000条和关键字为“管理”的数据5000条。提取这10000条文献数据的摘要,对这些摘要进行中文分词处理。

2.2.2中文分词

中文文本挖掘技术,都是建立在“词”的基础上,但汉语文字中没有类似英文文本中独特的切分标志——空格。在汉语中,每个词的长短不一,人在理解语义过程中,会下意识将词从句子中突显出来,分别进行理解,词的组合构成句子,最终理解一句话的语义。对于计算机来说,理解语义的能力还不够完善,需要一种其他的方式,对中文进行分词处理。本系统采用Jieba中文分词工具进行中文分词,该分词工具的中文分词技术将机械匹配、词频统计、人工智能的中文分词算法进行糅合,精确地将连续的字,切分成符合人理解的词语,对词进行切分的同时,对其打上词性标签。

1)机械匹配的中文分词算法

机械匹配分词技术采用人工创建词典,该词典中包含尽量多的词语以达到最大匹配。本系统对一系列字符串使用预先设计好的规则,通过最大匹配原则匹配字典中的词,机械地将字符串分割成子串,获得最终的词语序列。最大匹配原则使用简单,切词速度快,但由于词语二义性问题,切词的效果相对较差。

2)词频统计的中文分词算法

机器学习的方法让海量电子资源在没有词典的情况下也可以进行分词。词频统计的中文分词算法是以词为基础,词是较稳定的文字组合。如果汉字之间的共现频率较高,频繁地将它们组合在一起使用,便可将其整体作为一个语义单元进行处理。本系统依据词频统计结果作为是否最终将这些汉字划分到一个词语中(即作为分词)的依据。

词频统计的中文分词算法基于某一个词的出现概率只由当前词语所在的上下文语义或者其他特征决定,而与其它因素都无关的原理。N-gram是一种统计模型的分词手段,以词共现的概率为依据,计算出整个句子合理出现的分数值,确定一个满意分数值作为分界值,进行最终分词。如此进行的分词由于基于统计的方式.分词统计模型需要大量文本才可以获得较高准确率,这需要更大的语料库和更长的切词计算时间。

3)人工智能技术的中文分词应用

神经网络分词算法是扩展到文本分析领域的特殊应用。本系统使用神经网络算法将汉字组成复杂的神经网络,由句子的输入构建动态的链接表,经过计算获得最终有效的分词结果输出。该方法要求大数据集和较高的计算密集度。由于单机处理时间消耗多,一般作为分布式服务进行实施,且技术要求非常高。

2.2.3自动标引

自动赋词标引方法.可以自动地对切分好的文本标注主题词及词性,本系统采用比较常见的自动赋词标引方是tf-idf。tf指的是特定词在一篇文献中出现的频率,idf指的是该词在其他文献中出现的频率。如果某个词在全体文档语料集中出现的概率比较低而在当前文档中呈现的概率比较高,即tf越高、idf越低则说明此词在当前个别文档中比较重要,即可作为当前文档的主题词。使用该方法.可以很简便地获得一个文章或一段话的主题词。

为了协调知识检索“高召回率、高检全率”地目标,本系统要求语料切词粒度尽可能的细,达到词语全部切分;为了更贴近检索意图,本系统将多种方法融合并借助词典,获得折中的切词效果。

2.2.4特征提取与知识关联提取

本系统将经过中文分词后切分到的词语,使用语义系统进行标准化操作,筛选出系统可识别并具有代表l生的词语,作为最终特征,即进行自动赋词标引。而其他一些在中分词表中没有出现的词也同样可以作为主题词,这就涉及到自动增词标引,在标引词语的同时通过扩展重要词扩展字典,赋予系统相对成长性。由于词语间都会有有语义的相似性.一些词可以使用另一些词替换,来表示相同的含义。而主题词一般比较规范,本系统通过将一部分语义相同的词语转化成主题词,既缩减了文档向量空间的大小,降低计算复杂性.同时使得知识关联系统更加精炼,提高知识利用的效率。

本系统使用语义模型,提取出文档特征矩阵,使用特征矩阵进行知识关联隶属度从属关系挖掘,获得知识关联模型,详见图2。首先,使用KMeans对数据进行简单的聚类,将数据分成3类,可以将语义相似度较高的文档聚类到一起,从感性上理解各文档之间的区分度和关联程度。为了便于多维度数据的可视化,将高纬度数据经过PCA算法进行降维处理,获得二维数据,并进行可视化。

图2显示数据集之间没有十分明显的界限,验证了之前的假设,各学科相互融合的观点。通过KMeans聚类,将数据分成3类,同时在使用时候,可以划分为更多的类,缩小所寻找知识的范围。使用LDA主题分析,得到图3所示结果。

图中主题1,可以通过算法、数据挖掘、优化、等词语进行解释,解释结果详见图3。图3清楚地显示了被分到同一个主题的不同词语的比重,利用该结果.可以将同一主题的相关知识进行整合,并通过主题词共现方式提取知识关联。图3左侧圆表示各主题,圆的大小表示主题重要程度,右侧为解释某一主题对应的词,用一些词解释某一个主题。

本系统采用Doc2Vec模型,将语义蕴含在特征创建过程中,挖掘特征矩阵,获得特征矩阵,并可以通过不同方法验证各文档、各主题之间的关系。通过语义挖掘,挖掘出各主题知识之间关联,从而形象化的描绘主体间的关联,详见图4所示。图中展示的是各文档之间的关联.通过连线的粗细,可以将文档之间的关联通过线条链接起来,形成一个文档关联。

2.2.5语义检索

對于一般用户的检索过程来说,直接输入自然语言作为检索词被认为是自然而然的事情,但是这些非规范的检索词在检索系统中无法匹配到其所需要的信息资源。为了提高检索质量并为用户提供灵活的检索服务本系统采用语义检索的方式为用户提供服务.在语义检索过程中,使用向量空间模型(Vector Space Model)来判断检索词,即利用一个连续的稠密向量来刻画一个词的特征,该方法不但可以直接的刻画出词与词之间的相似度,而且可以建立一个从向量到概率的平滑函数模型,使得相似的词向量可以映射到相近的概率空间上。比如,在判断“一只猫在床上走来走去”这句话时,在系统库的语料中常出现“一只狗在床上走来走去”、“一只猫在床上跑来跑去”这样的句子,那么,即使没有见过这句话也可以从“猫”与“狗”(“走来走去”与“跑来跑去”)之间的相似性来判断这句话出现的概率。

借助语义挖掘模型.进行各文档之间通过相似度计算,可以获得相似矩阵,借助文档语义相似矩阵,构建语义挖掘系统。将主题词:“算法”、“医疗”、“规则”、“数据挖掘”、“效率”、“评价”、“模型”、“知识”、“仿真”、“异常”、“安全”、“预测”、“组合”、“评估”、“治疗”、“基因”、“融合”、“推荐”、“空间”导人模型,输出一个Term-document矩阵A,如图5上半部分所示。矩阵中的每一行A;,代表着词典里的一个词。矩阵的每一列A j,代表着语料里的一篇文献。Aji表示词wi在文献Di中的重要程度(类似于因子分析)。则可以提取行向量作该词的语义向量,列向量为文档向量。本文所统计的w;词频是收集的语料文献D;的摘要中统计的。

将主题词和文献都转换成Embedding的词向量与文档向量,通过计算余弦相似度,如图5下半部分所示,最后5行数字由两部分组成,“:”右半部分表示分档编号,左半部分表示相似度。每一行表示所输入的主题词与某一编号的文档所具有的相似度.根据相似度进行检索匹配保证了检索结果质量。

在实际的检索过程中,会得到数量极多的符合条件的记录,在一般的知识检索系统中,会反馈给用户关联度最强的前n条记录,例如知网,每次检索可以返回10、20、50条记录等,为了精准高效地完成此任务.本系统采用Top-K算法,根据关联度快速排序并获得前K条记录,即图5所示的相似度极大的前K条数据。收集用户浏览结果,记录浏览次数,从中挖掘出更深度的知识关联,用于用户检索过程中提高知识检索的准确度和效率。

通过知识关联揭示,使用计量分析、Kmeans聚类等方法,将知识中的显l生知识、以及难以发现的隐性知识一并挖掘、提炼出来后,通过有效的组织方式存储起来。在用户提出知识需求时,本系统从预先建立好的知识库中提取有效解决办法,再借助语义子系统的分析,获得切实可行的解决方案,并在方案实施过程中系统及时跟踪评价实施效果,最終高效解决用户的问题。

3结论

本文使用《中国分类主题词表》作为主题词受控词表,对文献摘要进行分词处理,选取文献的主题词并进行标引,提取文献核心主题词及文献特征,利用语义挖掘模型的分析技术对文献进行语义分析,并利用计量分析技术和聚类技术分析文献间特征的相似、相异水平,从更细的粒度层面对非相关文献之间的关系进行挖掘.揭示非相关文献的知识关联。将语义关联的文献进行组织,并存储。最后集成知识库为知识关联系统提供知识支持,为系统便捷高效的进行知识服务提供保障,通过语义子系统对用户检索词的分析与规范,经过规范化的检索词与知识库的知识特征进行匹配,采用TOP-K算法反馈用户精确、关联度高的前K条记录,实现知识服务的高质量化。

在下一步研究中可以考虑通过对用户信息的收集、分析提取出用户的特征,然后将用户的特征与文献资源特征进行相关匹配,实现知识的精准推送。