孟旭阳 白海燕 梁 冰 王 莉
(中国科学技术信息研究所 北京 100038)
Automatic Indexing Concept Selection Method of English Documents Based on Semantic Perception
Meng Xuyang Bai Haiyan Liang Bing Wang Li
(Institute of Scientific and Technical of Information of China,Beijing 100038)
Abstract:[Purpose/Significance]In the era of resource digitalization, the literature service is changing to knowledge service. High-quality subject indexing is the foundation and key to improve the ability of literature knowledge services. Aiming at the low accuracy of automatic indexing of English scientific and technological literature, a concept selection optimization method based on semantic perception is proposed.[Method/Process]Based on the automatic subject indexing of knowledge organization system, word embedding in natural language processing is used to represent the semantic vector of concept and literature content, and then perform semantic perception and evaluation to achieve the selection of concept indexing results at the semantic level. This method adopts a technical method based on the combination of knowledge organization system and natural language processing, which makes up for the lack of semantic level, further reduces the impact of unrelated concepts, and improves the accuracy of concept indexing results.[Result/Conclusion]The experimental results show that the method in this paper has good semantic perception performance, effectively reduces irrelevant concepts, greatly improves the relevance of indexing results and literature, and provides valuable reference and support for the construction of scientific and technological literature resource knowledge service and related research.
Keywords:automatic indexing; concept selection; semantic perception; word embedding
近年来,随着信息资源的迅速增长以及科技文献服务需求的日益知识化,对科技文献主题自动标引的准确度提出了更高的要求。文献主题的自动标引是对文献数字资源进行组织的有效手段,标引的质量直接影响到数字资源的质量和利用[1],也是知识化服务重点需要解决的问题之一,具有重要的研究意义和较高的实用价值。
基于知识组织系统的自动主题概念标引可以建立不同术语表达形式的一致性规范概念,为不同术语之间提供语义关联,能够提高概念的知识化关联,实现资源的组织化。然而,目前的文献主题概念标引结果并不理想,以基于英文超级科技词表(STKOS)[2]的英文文献主题概念自动标引系统[3]为例,经统计分析发现,在英文科技文献自动标引的概念遴选步骤中,一些与文献主题内容不相关的概念却被保留在最终标引结果中,忽略了概念结果与文献之间的语义相关性分析,是自动标引质量不佳的重要及主要原因。
为了进一步提高标引结果与文献内容的相关性,本文基于英文超级科技词表(STKOS)的英文文献主题标引,提出了基于语义感知的自动标引概念遴选优化方法。首先,通过运用自然语言处理技术,训练科技领域的词向量的语言模型,建立了词本身与文献内容之间的语义联系。其次,构建了基于多层注意力加权的文献语义表示模型对文献进行表示。然后,对概念标引结果和文献内容的两个语义表示进行感知评估,最后,基于语义相关性强度实现概念结果的遴选,从而获得与文献主题相关性高的优选概念。在NSTL中随机抽取的英文科技文献数据上进行的实验表明,本文方法在原标引结果的基础上可以有效地去除与文献内容不相关的标引,提高概念标引的质量。
本文研究涉及到基于词表的主题标引和词与文本语义表示的相关研究,分别总结这两个领域相关工作。
1.1基于词表的主题标引基于词表的概念标引的基本流程为候选术语提取、规范概念映射、概念遴选[3-4]。在候选术语提取方面,抽词技术的研究较多且较为成熟,包括基于统计学习方法[5-7]、基于语言分析方法[8-10]、基于统计和语言分析的混合方法[11-12]、基于机器学习和人工智能的方法等[13-15],能够较好的提取关键词。规范概念映射,该过程主要依赖词表进行。即首先将候选术语原型与词表中的规范术语原型进行匹配,获得规范术语,其次根据词表中已建立的术语与概念的对应关系,实现术语到规范概念的映射,形成规范概念集。在概念遴选方面,现有方法根据术语来源位置、抽取频次等统计特征和语言学规则计算得到的权重大小来确定概念与文献的关联强度,通过设置权重阈值、标引深度阈值等遴选最终标引的概念词。此外,还利用禁用词表、通用词表等过滤领域相关性不高的概念词,从而降低通用概念等噪音对标引结果的影响[16]。这些概念遴选方法在一定程度上提升了标引的效果,但经统计分析,该步骤结果中仍有较多与文献主题内容语义不相关,甚至是强不相关的概念结果被保留了下来。如何从语义层面进一步去除这些与实际文献内容不相关的错误标引,对标引质量的进一步提升有着重要意义。
1.2词与文本语义向量表示文献的语义理解是提高自动标引质量的关键。在自然语言处理(Natural LanguageProcessing, NLP)领域,文本语义理解的首要任务就是词与文本的表示。
词是承载语义最基本的单元,传统的独热表示(one-hot representation),无法反映单词之间的语义关联,容易产生数据稀疏和维度灾难问题。近年来,深度学习技术席卷了自然语言处理领域,基于神经网络训练得到词向量的表示方法备受关注,该方法通过无监督的机器学习方法从大规模无标注语料中自动学习句法和语义信息,克服了传统独热表示的缺点。目前流行的词向量表示模型有Mikolov等[17-18]提出的Word2vec 模型,Pennington等[19]出的GloVe模型和Bojanowski等[20]提出的FastText模型。上述词向量模型能够利用语料中词的上下文信息将一个词转变成一个低维稠密向量,越相似的词在向量空间中距离越近,词的语义相关性可以很好的通过向量计算进行量化。基于词向量的神经网络模型也为多项自然语言处理任务带来了性能的提升,甚至在多项任务中达到了目前最好的效果,可见它对于语义理解的有效性及重要性。
文本语义向量表示是为了将文本表示为维度固定的向量,主要分为两大类方法:第一类为基于统计方法的文本向量表示。如,TF-IDF为代表的词袋子模型,潜在语义分析模型(LSA)[21],概率潜在语义分析(PLSA)[22]和隐狄利克雷分布(LDA)[23]等。这些方法依赖于特征项的选择和词的独立性假设,且没有合理有效地利用词的语义信息。第二类为基于词向量的神经网络模型等方法。词向量模型有效捕捉了词义信息,在此基础上通过神经网络模型学习文本整体的语义表示。相比于统计模型,这种端到端的学习方式降低了对特征选择的要求并且语义学习能力更强,但模型的复杂度较高并且训练往往依赖GPU。目前也有很多学者将句子中所有的词向量直接相加或求平均的方法对文本表示,在文本分类等自然语言处理任务中也有很好的准确率,还大大减少了模型复杂度和训练时间[24],但这种方法没有考虑到不同词、句、段落甚至是文本结构的特点及贡献度。
综上所述,基于词表的主题标引中,抽词技术的研究较多且较为成熟,候选术语提取效果良好。但在概念遴选方面研究较少,遴选结果仍存在较多与文献主题内容语义不相关的标引结果,不能对标引概念与文献内容的语义相关性进行评估。然而,在NLP领域词与文本语义表示和理解上近年来取得了丰硕成果,为我们在语义层面的工作提供了宝贵经验。基于上述主题标引中存在的问题和NLP在语义相关技术的快速发展,本文提出了基于语义感知的自动标引概念遴选优化方法,从语义层面去除不相关概念,提高概念标引结果的文献相关性。
本文基于前期研究成果“基于英文超级科技词表(STKOS)的英文文献主题概念标引”[2],文献[3]对该标引方法进行了详细的描述,由该文献的概念标引统计结果可看出,在标引出文献相关主题概念词的同时存在很多的误标引现象,即误标引了很多与文献内容不相关的概念。本文在该方法得到的概念结果集基础上提出了基于语义感知概念遴选方法,以获得更高质量的标引结果。
“语义感知”指通过语义表示和语义计算等相关技术,对概念和文献主题内容进行语义表示和语义计算,根据两者的语义相关性计算结果对两者进行评估,从而判定概念与文献主题内容是否相关,即是否为正确的标引。
2.1概念遴选框架基于语义感知的概念遴选框架如图1所示,主要包括词向量模型训练和语义感知遴选两个部分。
图1 基于语义感知的概念遴选框架图
a.词向量模型训练。选择一定量的英文科技文献并抽取文献的标题、摘要、关键词信息作为训练语料。首先对英文文本信息进行预处理、分词、词形还原等标准化操作,然后采用准备好的语料训练词向量模型,并针对不同的模型、实验参数和评测数据对其语义表达性能进行对比分析,选择最佳的词向量模型。
b.语义感知遴选。基于训练好的词向量空间,首先对概念进行语义表示(详见2.2节)并构建基于多层注意力加权的文献语义表示模型对待标引文献进行语义表示(详见2.3节)。然后,基于两者的表示对其进行语义评估,按语义相关度由大到小对概念结果排序。最后,基于语义相关强度阈值对概念结果进行遴选,获得与文献内容语义强相关的概念标引结果集。
2.2概念语义表示知识组织系统中的概念是规范化的表达,抽象程度和语义专指性较高。但在英文文献中,不同学者对同一事件或一个意思的描述用词千差万别,而且使用的词和短语并不一定是规范的概念词。若直接通过词向量空间得到概念的向量作为概念的语义表示,将不能很好的解决这种一义多词现象。因此,需要对概念进行语义扩充。对概念进行语义扩充不仅能够增强概念表达向量的适应性,也更加明确概念的内容,使得概念向量表示具备更好的语义性能。
科技知识组织体系 (Scientific & Technological Knowledge Organization Systems, STKOS)是“十二五”国家科技支撑计划立项支持建设的超级科技词表,覆盖理、工、农、医四大领域。其中,规范概念库包含了概念形成过程中所有来源词表中涉及的词型规范、意义规范以及具有相同涵义术语形成的同义词集合。
本文利用STKOS中规范概念库的优势,在概念扩充时考虑概念的同义、近义词的表达。将每个标引概念与其同义、近义的词看成一个整体,记为Concept={concept,term1,term2,…, termN}。其中,termi(i=1,2,…,N)为概念concept的同义、近义词,N为concept的同义、近义词个数。
在深度神经网络中,经常对所有特征向量进行池化(pooling)操作,能够提高所提取特征的鲁棒性。因此,本文在进行概念语义表示时,借鉴深度神经网络中的pooling操作来给定概念表示中每一维度的值,这样每个维度的特征值就是对Concept中concept本身和所有termi(i=1,…,N)向量的池化操作后的值。由于概念词本身与其同义、近义词都在一定程度上反映了该概念的语义信息,为了使概念表示更加明确和详细,对语义有更好的描绘和揭示,此处使用平均池化方法得到最终合成的概念语义表示c,如式(1)所示。
(1)
其中,c′表示由词向量空间得到的规范概念词concept本身的语义向量,t′表示termi的词向量。
这种概念表示方法在一定程度上解决了一义多词的语义相似性表达问题,得到更高层次的、泛化的概念语义表达。
2.3基于多层次注意力加权的文献语义表示模型词向量技术可以从无标注的文本中自动学到语义和语法信息,为文本表示学习提供了基础,通过组合文本中的词向量,可以得到更深层的文本语义表示,更好地处理相关的语义任务。相关研究[25]表明,考虑了单词和句子重要性的文本表示具有更好的性能。
本文着眼于英文科技文献文本的语义表示学习,考虑到科技文献标引源的特殊层次结构(标题、摘要、关键词),为了更好的对文献的语义进行表达,本文提出了基于多层次注意力加权的文献语义表示方法,如图2所示。注意力加权是对文本中不同部分的重要性体现。在建立词向量的基础上,对单词、句子和结构共3个层次进行注意力加权,综合考虑了单词重要性、摘要中各句子重要性和文献层次结构的重要性。
图2 基于多层次注意力加权的文献语义表示模型
如图2所示,对于每篇文献可以表示成D={title, abstract, keywords},其中,title={t1,t2,…,tlt},lt是标题的长度。abstract={s1,s2,…,sla},la是摘要中句子的个数。keywords={t1,t2,…,tlk},lk是关键词的长度。首先对文献进行预处理、分词、标准化(词形还原),然后通过训练好的词向量模型将每个词ti表示成一个维度为n的向量,记为wi。
2.3.1 单词注意力动态加权 本文利用经典的TF-IDF算法在衡量单词重要程度上的优势,对单词的词向量进行动态加权表示。
对于单词ti,利用TF-IDF算法计算其在目标文献中的重要性加权值为Wti。由于同一单词在不同文献中的TF-IDF权重是不同的,是因文档内容不同而动态可变的,因此称为单词注意力的动态加权。
将文献D的title与keywords的单词注意力加权表示分别记为p1和p3,如公式(2)(4)所示。abstract由多个句子组成,每个句子的单词向量注意力加权表示记为si,如公式(3)所示。
(2)
(3)
(4)
其中,Wti表示单词ti在文献D中的TF-IDF权重。wi1为title中单词ti的词向量;wi2为abstract句子中单词ti的词向量;wi3为keywords中单词ti的词向量,ls是句子si的长度。
2.3.2 句子注意力加权 文献摘要部分是对文献内容的简短陈述,能够获得文献的必要信息。通常英文文献的摘要表达内容较为固定,主要包括3部分内容:a.研究的背景意义,说明了研究问题提出的缘由,揭示了研究的范围和重要性(通常为首句,记为ABS)。b.研究方法过程,简要阐述了研究的思路、设计和方法(通常为中间部分,记为ABM)。c.研究结论,表明了研究的成果、发现和价值等(通常为尾句,记为ABE)。每部分内容的语义对文献主题语义的贡献程度不同,为此将摘要进行句子切分,对摘要进行句子的静态注意力加权表达。
对于每篇文献D,abstract向量句子注意力加权表示记为p2,如公式(5)所示。
其中,la为摘要中句子个数,si为第i个句子基于单词注意力加权后的向量表达。ABS、ABM和ABE结合专家意见及经验值分别设定为2,1,2。
2.3.3 结构注意力加权 文献的标引源具有特殊的层次结构,每个部分的特点不同。标题从总体的角度,用简明、精确的词汇表达了文献的主题内容;摘要用简洁的语言全面陈述了文献研究的背景意义、方法过程和研究结论等主要信息,是整个文献的浓缩;关键词是文献作者挑选的反映文献核心思想或内容的单元,能够准确反映文献特征内容,通用性较强,在表征文献核心思想和主题内容上则显得更重要。
标题、摘要、关键词三个部分的内容侧重不同,因此对各部分进行注意力加权得到整个文献的语义表示,分别记为W_t、W_a、W_k,结合专家意见和经验得到最佳取值分别为2,1,3。经过结构注意力加权得到的文献的语义向量表示记为d,如公式(6)所示。
(6)
2.4基于语义相关强度的概念遴选为进一步降低不相关概念标引,提高概念标引结果与文献内容的相关性,采用基于语义相关强度的概念遴选,即根据初步标引概念结果集中的概念与文献内容之间的语义相关强度来进行概念遴选。
对于一篇文献D,设初步标引得到的概念结果集为(C1,C2,…,Cm),其中m为概念结果的个数。根据2.2和2.3节方法分别得到每个概念Ci的语义向量表示ci和文献的语义向量表示d。概念Ci和文献D的语义相似度记为rel(Ci,D),通过NLP任务中常用的余弦相似度算法进行相似度计算,如公式(7)所示。
(7)
其中,n表示向量的维度,cik、dk分别表示ci和d在第k维度上的值。
本文将通过实验获得最佳的语义相关度阈值,将超过语义相关度阈值的概念作为最终的遴选结果,增强全局语义把控能力和标引精度。
3.1实验数据
3.1.1 词向量训练数据 实验数据来源于NSTL,抽取规则和数据量如表1所示,根据馆藏单位和中图分类号抽取理工农医4个领域各20万篇英文文献,共80万篇英文文献数据作为词向量训练的语料。
表1 数据抽取规则
3.1.2 词向量内部评价数据 为评价各词向量模型的语义表达能力,在词向量的内部评价中通过语义相似性/相关性实验进行评价。采用英文词向量评测的金标准数据集进行评测,主要包括以下8个数据集:EN-WS-353[26](该数据集也被分为两部分EN-WS-353-REL和EN-WS-353-SIM)、SimLex-999[27]、MTurk-287[28]、MEN-TR-3k[29]、MTURK-771[30]、RG65[31]、MC-30[32]。
3.1.3 自动标引实验数据 在基于语义感知的概念遴选方法的验证上,从上述抽取的80万篇英文文献数据中,随机抽取理工农医各1 000篇文献,共4 000篇文献数据,进行自动标引实验分析。
3.2词向量表示的实验分析
3.2.1 实验设置 为了选择更适合科技领域语义表达的词向量模型,本节在相同的语料下,针对不同的模型、实验参数和评测数据对其语义表达性能进行对比分析,具体实验设置如表2所示。
表2 词向量对比实验设置
3.2.2 评价指标 该任务是为了评估词向量模型在两个词之间的语义紧密度和相关性的能力,采用的评测方法如下:
首先采用余弦相似度计算各个评测数据集中所有词对的相似度Y,然后计算Y和对应评测数据中已标注的相似度分数X这两组数据之间的斯皮尔曼相关系数(ρ)(Spearman's rank correlation coefficient) 作为评价指标,记为 rho。它利用单调方程评价变量X和Y之间的相关性,计算如公式(8)所示。当ρ接近0则表示两个变量无相关性,ρ接近1或-1则表示两个变量强相关。
(8)
3.2.3 实验结果与分析 各词向量模型在不同词向量维度下各标准评测数据集的Rho均值对比结果如图3所示。
图3 各模型在不同向量维度下评测数据集Rho均值
由图3可以看出,不同模型在同一向量维度的语义相关性效果差异较大,Word2vec模型在各个向量维度上的平均相关系数均最高,GloVe次之。由此说明在本文科技领域的英文文献数据集上Word2vec评估词间的语义紧密度和相关性上能力最优。Word2vec在维度为200时的性能最佳,因此选择训练好的200维的word2vec词向量模型作为本文的词向量表达工具。
3.3概念遴选实验分析
3.3.1 评价方法及指标
本节重点对基于语义感知的概念遴选方法的有效性进行实验论证。主要包括两个部分:语义感知性能评价;遴选结果评价。
a.语义感知性能评价。为说明语义计算效果和语义感知的性能,针对每篇文献D,我们对语义感知前原标引系统按权重由大到小排序的概念标引结果C={ C1,C2,…,Cm}和语义感知后按语义相关度由大到小排序的概念标引结果SC={ SC1,SC2,…,SCm}进行对比。首先由人工标注出原有标引结果C中与文献内容不相关的概念集P,分别计算每个不相关标引Pi∈P在C、SC中的排序位置LC,LSC,则定义语义感知性能评价指标为Sp,其计算如公式(9)所示。
Sp=LSC-LC
(9)
Sp表示语义感知前后不相关标引概念的排序变化,其大小反映了语义感知性能的高低。若Sp>0,则说明语义感知有效,即不相关概念标引经过语义感知后,降低了权重,排在了结果中更靠后的位置,值越大说明语义感知性能越高。反之Sp<0则说明语义感知无效。
b.遴选结果评价。遴选结果评价主要是对遴选前后的结果进行评价,看是否提升了标引结果的文献内容相关性,统计指标如下表3所示。
表3 遴选结果统计
遴选结果的评价指标为准确率P(Precision)、召回率R(Recall),F1值。其计算如公式(10)、(11)、(12)所示:
(10)
(11)
(12)
3.3.2 语义感知性能试验分析 根据3.1节描述的实验数据,对4 000篇文献数据开展主题概念标引实验。
为说明语义计算效果和语义感知的性能,针对每篇文献D,分别统计每个不相关标引Pi∈P在语义感知前后排序结果C、SC中的排序位置LC,LSC并计算排序变化差值Sp,结果如图4所示。
图4 语义感知前后不相关标引排序变化差值Sp
如图4所示,横坐标为不相关标引概念,纵坐标为Sp。可看出绝大多数的Sp值在0值以上且数值较大,说明经过语义感知后,绝大多数的不相关概念标引降低较大的权重,排在了结果中更靠后的位置。然而也有一小部分的Sp<0,即经过语义感知,小部分不相关标引反而权重增大排在了结果中更靠前的位置,通过分析发现,学科/领域不同,感知的效果有一定的差异,后续需要结合不同学科的特点进一步优化。
3.3.3 遴选结果实验分析 通过语义感知后,需要根据标引概念与文献语义相关性强度对概念结果进行遴选,选择优质概念,滤除无关概念。为了选择最佳的语义强度阈值,我们对3.1节所介绍实验数据在不同阈值R(0~0.3)下遴选结果的P、R、F1均值进行了对比分析,如图5所示。
图5 不同阈值下语义感知遴选后概念标引结果的P、R、F1均值对比
由图5可看出,随着阈值R的增大,准确率P一直在上升,召回率R一直在下降。这说明,随着遴选阈值的不断增大,不相关标引基本上能够很好的去除,但过大的阈值会导致部分相关标引结果被去除。因此,需要选择最合适的阈值保证两者之间的平衡。由图5可看出当R=0.1时F1值最高,效果最佳,因此阈值R设定为0.1。当R=0.1时,各篇文献经过语义感知遴选前后的概念标引结果的平均准确率如图6所示。
图6 R=0.1下语义感知遴选前后概念标引平均准确率
由图6可看出,经过语义感知的概念遴选结果明显较之前的结果在准确率上有较大的提升,增强了概念的文献内容相关性。
为了观察不同学科/领域下该遴选方法的效果,在最佳阈值R=0.1下,分别对存在不相关标引的文献进行语义感知遴选前后的结果统计,结果如表4所示。
表4 遴选结果统计
由表4可看出,经过基于语义感知的概念遴选后,共1768个不相关标引减少了897个,减少不相关标引个数过半,再次充分说明了本文遴选方法能够大大减少标引结果中不相关的标引。同时也可以看出,各学科的遴选效果有一定的差异,单从减少的不相关标引个数来看,理科最高。从减少的比例来看,农学最高。由此说明虽然本文方法具有各学科的普遍适用性,但不同学科之间的特点不同,对遴选结果有较大的影响,下一步的研究也将聚焦特定领域进一步分析优化。
本文针对现有基于知识组织的英文文献主题标引系统得到的标引概念文献相关性低的问题,为进一步降低不相关概念的影响,提出了基于语义感知的自动标引概念遴选优化方法。通过训练科技领域的词向量空间,对标引概念和文献内容进行语义表示并进行语义相关度评估,实现了概念在语义层面的遴选。通过相关实验验证了语义感知遴选方法的有效性,能够大大减少概念结果中不相关的标引,更好的反映了文献主题内容,而且方法具有各学科的普遍适用性,为进一步深层次的知识关联服务奠定了基础。
本研究在基于知识组织标引系统优势的基础上结合语义理解技术,从语义层面对遴选优化进行了探索性研究,能够较好的去除部分不相关概念标引,但仍存在一定的局限性,下一步将对方法和模型继续完善优化,主要工作包括:a.增大词向量训练数据的规模进一步提升语义表达能力;b.考虑引入深度学习模型优化,进一步深入语义分析;c.不同学科文献具有各自的特性,聚焦特定领域,进一步揭示不同学科领域的文献最佳表示、最优模型和最优参数设置等以期进一步提升主题标引准确率。