任恺
摘要:该文建立了一个无监督的词义排歧系统,并将它应用于生物医学领域的语料中。该系统使用未进行人工标注的语料进行机器学习,学习过程只需预先定义标准词义的数量,不需要其他人工干预。该系统使用了一种通常使用于图像识别领域的基于核的模糊C均值算法。该文针对文本应用改进该算法并将其应用在生物医学文本的词义排歧领域,并取得了较好的效果。
关键词:词义排歧;核模糊;C均值;聚类;无监督
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2015)34-0001-03
1 研究问题简介
词义排歧任务的目标是为多义词在当前上下文环境中选择合适的义项从而消除歧义。词义排歧是自然语言处理的基础工作,它是信息抽取、机器翻译、信息搜索等自然语言处理工作的基础。
目前主流的基于语意的词义排歧方法主要有两种:第一种是基于有指导机器学习的方法,该方法使用一部分预先标注好的语料进行机器学习,训练好的算法再之后用于测试语料测试。该类方法往往有较好的实验效果,但是存在的问题是需要大量的人工标注语料,人工语料的标注成本较高使得该方法应用有所局限。第二种方法是基于无指导机器学习的方法,这种方法直接使用原始语料进行训练学习,将训练好的算法用于测试语料,直接得到结果。
2 生物医学领域词义排歧研究现状
在自然语言处理中,词义排歧问题在很多领域都是一项具有挑战性的基础工作。词义排歧的准确性会直接影响机器翻译、信息检索等工作的最终效果。词义排歧算法在生物医学领域主要分为以下三种研究方法:有监督学习方法、无监督学习方法和基于知识的学习方法。
目前大量的工作是基于有监督的机器学习方法。Hatzivassiloglou et al.使用三种机器学习方法的组合,它们是简单贝叶斯,决策树以及总结的规则用来训练模型用于蛋白质、基因和mRNA的词义排岐工作。Gnter et al. 使用了一种统计分类的方法并且对词袋权重表示做了改进。他们将靠近歧义词的上下文赋予更高的权重,之后使用基于SVM的分类器进行分类工作,他们的将基因、蛋白质名称的词义排歧工作的准确率由79%提高到了82%。Leroy and Rindflesch 提出了一种有监督的词义排歧方法将歧义词的词义映射到了UMLS上词义上,该方法在生物医学词义排歧领域有广泛的影响。在非生物领域也有些学者使用了一些核函数方法来提高词义排歧的效果。
第二类方法为基于特征的无监督学习方法。这类方法使用通用的词典义项作为词义排歧的目标,通常使用通用词典义项作为最终评估标准,或者使用不同词义类别的区分程度来评估词义排歧的效果。Agirre et al. 提出了一种基于图的方法实现了为另外一种常见的无监督学习思路。Duan W et al. 提出了一种最大边的图模型无监督方法,在之前的方法基础上准确率有所提高。
第三类方法是基于大规模外部资源的方法。Wren et al. 提出了一个数据库包含缩略语和它们的完整义项。Jimeno-Yepes et al. 提出基于知识的词义排歧方法进一步提高的准确率。
目前生物医学领域词义排歧问题已经研究比较深入,各个大类方法都有学者做出了深入研究取得较佳的研究效果。我们将在前人的研究基础上开展自己的工作,将研究深入下去。
3 相关算法介绍
模糊C均值算法是经典的软聚类方法,它解决了传统K均值算法中聚类分割可能存在的问题。在近期的研究当中很多的学者将基于核函数的方法融入到其他算法中,对算法的改进提高有很大的帮助。
3.1 模糊C均值算法(FCM)
模糊聚类(FCM)[9]中,每个点都有一个属于各个类的度。按照模糊理论,每个点不会完全的属于某一个类,而是应该不同程度的属于各个类。一个点属于离它较远的类的程度较低,属于离它较近的点的程度较高。通常我们赋给一个点X到一个聚类C的权重度uic 代表X相对于C的隶属度。所有的uic之和为固定值1,参见公式(1)。针对每个X属于每个C的距离和权重的关系由一个参数m来控制。
具体的模糊C均值(FCM)算法步骤如下:
算法 1: 模糊C均值算法
1) 给出N个初始点
2) 初始化 U
3) 使用公式(4)更新V(t) = [
4) 使用公式(3)更新 U(t) =
5) 重复第3步和第4步直到 ||U(t)-U(t-1)|| < ε
6) 返回 U(t)
模糊C均值算法,有助于更好的聚类,在类的划分上有更灵活的方法,使得在界限边缘的聚类点能够在多次迭代后划分到更合适的类别当中去
3.2 核模糊C均值算法(KFC)
计算特征向量属于各个聚类的隶属程度
核模糊C均值算法在模糊C均值的基础上通过核函数将向量映射到了高维空间中进行划分,使得特征的划分比较更为清晰,同时保持了模糊聚类的优势,相对模糊C均值方法有一定的优势。
4 实验方案及结果分析
4.1 实验方法
本文采用的实验语料是美国国家卫生研究所提供的NLM-WSD语料。该语料包括有50个生物医学领域的歧义词,每个歧义词包含有100个上下文信息。提供信息包括歧义词本身的上下文、相关文献的标题、摘要、编号以及歧义词的出现位置等信息。我们选择了其中一个子集和其他的方法进行了对比实验。
实验开始我们首先对语料进行了一些预处理工作,比如停用词处理,标点符号处理,高频词处理,并通过TF-IDF方法生成特征向量。
针对不同算法我们比较设计了两组实验:模糊C均值方法(FCM)和核模糊C均值算法(KFC),核函数选择特征径向基核函数(Radial Basis Function),希望通过对比实验得到方法各自的优势,同时我们将实验结果和目前常见的方法得到的结果进行了对比。
实验在经典的L&R方法的歧义词子集上的对比实验。实验环境为WINDOWS7,文本预处理使用python平台,矩阵计算使用Matlab平台。
4.2 实验结果
在第一组中我们对比的Baseline为all-in-1和L&R两种经典的有监督算法,同时参照Sensational[6]方法的设定引入Sensational无监督方法作为参照对比。实验结果如下:
4.3 实验结果分析
在L&R数据集中(表1)我们的方法FCM和KFC高于基准方法55%达到63%和64%,其中KFC方法的准确率相对sensational方法提高了3%,KFC方法与无核函数的FCM算法相比平均准确率提高1%。实验结果 (KFC)略低于L&R的基准线66%,由于L&R方法为有监督的方法,本文实验方法为无监督方法,这个结果差距应当是相对可以接受的。
核函数的加入使现有的特征映射到了高维空间,对特征的划分起到了显著的帮助,和传统的无监督方法比较有一定的优势。实验的结果差于有监督的方法,可见人工标注数据的学习对实验结果会产生很大的帮助,这也符合我们普通的直观上的认识。
5 总结和展望
在本文中,我们对比了生物领域词义排歧问题的一些方法,包括有监督的和无监督的方法。这些方法有各自的擅长方面,在不同歧义词上效果各有优势。我们发现基于核的模糊C均值算法在无监督方法中,准确率结果有一定的优势,部分歧义词准确率和一些有监督方法接近。由于无监督方法不需要人工标注的语料进行学习,这在生物医学领域有很强的实用意义,因为生物医学领域有大量的未标注文献可以用来进行无监督的学习。在后期的工作中,我们将继续改进核函数方法,尝试引入多个核函数来进一步优化当前算法。同时我们会尝试将核模糊C均值的聚类的方法应用于其他生物医学领域,希望能够得到较好的结果。
参考文献:
[1] Hatzivassiloglou V, Duboue PA, Rzhetsky A. Disambiguating proteins, genes, and RNA in text: A machine learning approach. Proceedings of the Ninth International Conference on Intelligent Systems for Molecular Biology. 2001.