基于统计和知识的产品部件信息抽取

2018-06-13 11:36王铁铮白宇张桂平
中文信息 2018年4期
关键词:知网

王铁铮 白宇 张桂平

摘 要:随着社会产品的多样变化和大数据时代的发展需求,产品信息抽取有着重要的研究意义。针对抽取过程中过多的人工参与和抽取准确度不高的情况,提出一种基于统计和知识相结合的产品部件信息自动抽取方法。为确保抽取的相关性,采用词频剪枝过滤干扰词,使用双向长短期记忆模型将词进行分布式表示并计算语义相关度;为确保抽取的完整性,引入知网知识库,根据詞语首义原的分类来验证抽取结果是否为部件类概念词。实验在120万篇产品专利摘 要上进行词向量训练,分别对运输交通设备、通讯电子设备、仪器仪表和机械器材四类产品进行测试,证明了模型的可行性和算法的有效性。

关键词:信息抽取 双向长短期记忆模型 分布式表示 知网

中图分类号:V263 文献标识码:A 文章编号:1003-9082(2018)04-00-03

引言

我们随着科学技术的蓬勃发展、新产品的不断涌现,使得描述产品部件信息的词汇集合处于不断扩大并更新的状态,因此以往靠人工收集产品部件信息的方式显然已经满足不了人们的需求,利用计算机自动抽取这些信息已成为必然。信息抽取[1]是对文本中包含的信息进行结构化处理,再对其进行存储的过程,在这个信息爆炸的时代,信息抽取能够帮助我们完成对信息的快速整理和分析,提高工作效率。

产品部件信息抽取,是信息抽取的一种形式,其是将不同文本对于某一产品的部件信息集中起来,能从不同的角度反映产品的相关组成信息,对产品的部件进行抽取有助于全面地了解这些产品。例如,有关介绍电脑的文本中提到“一种用于电视游戏机的电脑控制器,是利用电脑主机的插头嵌设在游戏机的主体上的插槽中”,在描述中可知,“控制器”和“主机”是电脑的组成部件,如何在文本中,准确高效的获取到产品的组成部件信息,就是本文的主要解决的问题。

一、相关研究

目前产品部件信息抽取的方法主要分为三种:基于语言规则的方法[2]、基于统计的方法,以及规则和统计相结合的方法。基于语言规则方法具有明显的缺陷,即难以用少量规则覆盖复杂的存在规律,以及当规则数达到一定数量时产生的相互冲突问题。基于统计的方法主要的统计策略有互信息[3,4]、词频、连续指数、左右熵[5]、log-likehood、TF-IDF等。这些统计策略各有优缺点和适用对象,没有一个方法能独立使用即可抽取出各种类型的信息并达到良好的效果,因此融合多统计特征的统计模型是目前比较主流的统计方法。而基于规则和统计相结合的方法则[6-10]可以取长补短,是目前广泛采用的方法。结合的方式通常有两种,即先规则后统计和先统计后规则,采用何种方式需要根据具体应用和算法效果而决定。

本文提出了一种基于统计和知识相结合的抽取方法,为了可以全面准确的获取产品部件信息,本文在众多的信息源中,选择专利文献为抽取对象,为获取与产品相关的候选词,采用基于统计的方法,利用词频剪枝和双向长短记忆模型计算语义相关度;为从相关候选词中准确获取产品部件概念词,采用基于知识的方法,引入知网知识库,根据对词语首义原的分析进一步验证抽取结果,两种方法相结合,为产品部件信息的抽取提供一个新的思路。

二、基于统计和知识的产品信息抽取方法

本文实现一种基于统计和知识相结合的产品部件信息抽取方法,本文第一步是对产品专利摘要进行分词,词性标注和去停用词的预处理;第二步是过滤非名词词性和词长为1的干扰词;第三步是通过词频剪枝,保留词频较高的候选词;第四步是利用双向长短记忆模型方法将词表示成向量形式,计算产品与候选词的余弦值,过滤相关度较低的干扰词;第五步是引入知网知识库,通过验证候选词在知网中首义原的定义,来判断其是否为产品部件概念词,本文方法框架如图1所示。

1.基于统计的方法

1.1 词频剪枝

词频剪枝是一种词汇分析研究方法,通过对一定长度文本的词频进行统计、分析,进而描绘出词汇规律。词频从一定程度上可以描述词汇的重要程度,在抽取产品部件概念词过程中,依照词频的排序去除干扰词是很基础但是效果很好的一种方法。词频计算公式如下2-1所示,本文设定了一个词频阈值,高于阈值的候选词,表示是该产品专利的重要词;低于阈值的候选词,表示是该产品专利的非重要词,通过词频剪枝,过滤掉非重要的干扰词。

其中:di是计算词频的目标词;count(di):是统计目标词di的出现频数;dict:是候选专利中所有词汇的字典;P(di):则是最终得到目标词的概率。

1.2 双向长短记忆模型实现Word Embedding

本文使用深层神经网络中双向长短记忆模型[12](Bi-LSTM)实现Word Embedding的训练, Bi-LSTM是一个多层的神经网络,采用随机初始权重,每次训练只得到一个局部最优解,直接训练词的N维实数向量与内部节点向量的条件概率,并使用一系列优化方法以提高训练效率,虽然是基于CBOW模型结构,但是将原来的在固定窗口内对Word Embedding取平均作为语境模型替换了,替换为一个更有效的神经模型,通过将它们嵌入到相同的低维空间中来学习上下文和目标词表示,其中通过对数线性模型将目标词预测为目标词,利用更多的强大的参数模型来捕捉上下文的本质。

Bi-LSTM神经网络的输入是关键词所在的句子的两个上下文向量,一个是由从左至右句子(“汽车”)的LSTM形成的,另一个是由从右至左句子(“正常启动”)的LSTM形成的,这两个网络的参数是完全独立的,如下图2示例,为了表示句子中目标词的上下文(例如,对于“汽车[发动机]启动正常”),首先连接代表右-至-左向量与左-至-右向量,目的是捕捉相关的上下文信息,即使它远离目标词,矢量表示公式如2-2所示:

接下来将连接向量馈送到多层感知机中,以便表示上下文的依赖关系,该层的输出是围绕目标词的联合上下文信息的向量,表示公式如2-3所示:

其中,MLP代表多层感知机,ReLU是激活函数,Li(x)=Wix+bi全连接线性操作,将连接后的向量输入到多层感知机。

最后,为了学习网络的参数,使用CBOW模型的负采样目标函数,表示公式如2-4所示:

其中,t表示求和遍历训练语料中的每一个词和c则是它所对于的句子语境,σ表示sigmoid函数。

训练结果后,任意两个词的语义相关程度可以通过计算两个词对应向量的余弦相似度得到,计算公式如2-5所示。计算的结果很好的反映了两个词向量的相关度,余弦值接近1,表明两个词的相关度高;余弦值接近-1,表明两个词的相关度低,通过将计算的结果根据余弦值由高到低的顺序排序,为下一步验证提供了与产品相关的候选词。

其中V1代表产品的词向量;V2代表候选产品部件概念词的词向量。cos(V1,V2)代表产品与候选产品部件概念词的余弦相似度。

2.基于知识的方法

知网是中文使用最为广泛的可计算语义词典[13]。知网[14]认定的七个最上层的类别,分别是:事件类、万物类、属性类、属性值类、部件类、空间类和时间类。

对于产品组成部件,正好可以通过知网对万物定义的首义原来进行分类,虽然在知网知识库中,已经在DEF中定义了“part-whole”这种存在关系,然而在知网知识库所包含的197704个定义中,存在“part-whole”关系的定义只有12034个,其中和产品有关的,只有飞行器,船,车,电脑四种产品的285个定义,所以只依靠知网现有的“part-whole”的关系提供产品的组成信息可能远远不够用户的需求。

本文根据知网对世界万物定义的七种类别,发现产品的部件概念词不一定只存在具有“part-whole”关系的定义中,除了部件类以外,万物类中也存在着大量的产品部件概念词,所以本文将万物类和部件类视为研究的对象,通过大量观察产品部件概念词在知网中的定义,发现产品部件概念词集中分布在万物类和部件类定义的词中,本文设定部件、用具和机器这三个义原为部件特定首义原,验证流程如图2所示。

三、实验设计与结果分析

1.实验数据

本文训练集采用的是120万篇专利文章,数据规模为分词后833M。本文分词和词性标注任务,使用的中科院分词工具为ICTCALS。停用词表使用的是“哈工大停用词词库”。开发集是在10种不同类产品(不包含测试集)相关的10000篇专利摘要。测试集是运输交通设备、通讯电子设备、仪器仪表和机械器材四類产品相关的2000篇专利摘 要,人工抽取每种产品中10个关键的产品组成部件概念词作为所要抽取的目标词。

2.实验步骤

本文的实验数据是相关产品的专利摘要,为了得到更好抽取结果,首先是对训练语料进行预处理,包括分词、词性标注和去停用词。根据词频由高到低的排序,过滤掉低于阈值的候选词,本文通过10种产品设定不同阈值的对比实验,实验数据(如表1所示)表示的是每种产品在设定不同的过滤词频阈值时,候选词中出现人工抽取目标词的个数,发现阈值设定为4%时,确保目标词全部出现在候选词中。

通过词频剪枝得到的候选词,作为Word Embedding的输入,本文通过10种产品设定不同相似度阈值的对比试验,实验数据(如表2所示)表示的是每种产品在设定不同的相似度阈值时,目标词占候选词的比例,发现相似度阈值设定为0.2时,目标词占候选词的比例较高。

3.结果分析

本文通过三个指标评价实验的性能,分别是准确率(3-1)、召回率(3-2)、综合指标F-值(3-3),如下式所示。

本文选择的baseline是汤青[15]采用的一种统计的部件抽取方法,主要根据产品部件具有的领域聚合特征,在某一领域中词频较高或只出现在某个领域中,而在不相关领域中词频相对较低,除此之外还考虑了词性特征。本文采用的统计和知识相结合的抽取方法与baseline方法进行比较,抽取结果平均准确率、召回率和F-值分别提高了3.1%、4.5%和3.7%,实验结果如表3所示。

结束语

本文提出了一种基于统计和知识相结合的产品部件信息自动抽取方法,首先通过对产品专利摘要进行预处理,过滤掉非名词词性的和单字的干扰词;然后通过词频剪枝和使用Bi-LSTM模型高效准确的将词进行分布式表示,获取与产品相关的候选词;最后采用基于知识的方法,利用知网知识库对候选词定义的首义原进行验证,准确高效的抽取了候选词中的产品组成部件概念词。本文通过结合统计和知识的方法,既满足了抽取的相关性,又确保了抽取的完整性。通过考察实验的准确率、召回率以及F-值发现,表明实验方法具有实用价值。

参考文献(Reference)

[1]樊梦佳,段东圣,杜翠兰等. 统计与规则相融合的领域术语抽取算法[J].计算机应用研究.2016,33(8):2282-2285.

[2]Sui Z, Chen Y, Wei Z. Automatic recognition of Chinese scientific and technological terms using integrated linguistic knowledge[C]//Proc of International Conference on Natural Language Processing and Knowledge Engineering. 2003: 444-451.

[3]刘剑, 唐慧丰, 刘伍颖. 一种基于统计技术的中文术语抽取方法[J].中国科技术语, 2014, 5(2): 10-14.

[4]吴海燕. 基于互信息与词语共现的领域术语自动抽取方法研究[J].重庆邮电大学学报: 自然科学版, 2013, 25(5): 690-694.

[5]闫琪琪, 张海军. 中文领域术语自动抽取方法进展研究[J].电脑知识与技术:学术交流, 2014, 21(10): 6716-6718.

[6]胡阿沛,张静,刘俊丽. 基于改进 C-value 方法的中文术语抽取[J].现代图书情报技术, 2013, 29(2): 24-29.

[7]李丽双, 党延忠, 张婧, 等. 基于条件随机场的汽车领域术语抽取[J].大连理工大学学报, 2013, 53(2): 267-272.

[8]何琳. 基于多策略的领域本体术语抽取研究[J].情报学报,2012,31(8): 798-804.

[9]李丽双. 领域本体学习中术语及关系抽取方法的研究[D].大连:大连理工大学, 2013.

[10]熊李艳, 谭龙, 钟茂生. 基于有效词频的改进 C-value 自动术语抽取方法[J].现代图书情报技术, 2013, 29(9): 54-59.

[11]Geoffrey E.Hinton. Learning distributed representations of concepts[R]. IEEE Transactions on Knowledge & Data Engineering,2001,13(2):232-44

[12]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural computation,1997,9(8)

1735-1780.

[13]孙茂松,陈新雄.借重于人工知识库的词和义项的向量表示:以知网为例[J].中文信息学报, 2016, 30(6):1-6.

[14]董振东,董强,郝长伶. 知网的理论发现[J], 中文信息学报. 2007, 21(4):3-9.

[15]汤青,吕学强,李卓. 领域本体术语抽取研究[J]. 现代图书情报技术. 2014, 30(1) :43-50.

猜你喜欢
知网
基于知网的国内微电影文献计量分析
基于知网的翻译研究方向毕业论文写作
近三年维吾尔语言研究情况综述
利用词汇分布相似度的中文词汇语义倾向性计算