面向农业图书资源语义挖掘的主题模型应用设计研究

2018-04-18 08:04崔运鹏中国农业科学院农业信息研究所
图书馆理论与实践 2018年3期
关键词:贝叶斯文档语义

龚 浩,崔运鹏,钱 平(中国农业科学院农业信息研究所)

1 引言

21世纪第二个十年即将走完,文献计量三大定律依然发挥其重要的计量指导作用。布拉德福定律是由英国著名文献学者B.C.Bradford于20世纪30年代率先提出的描述文献分散规律的经验定律。其文字表述为:如果将科技期刊按其刊载某学科专业论文进行统计并以递减顺序排列,那么可以把期刊分为专门面对这个学科的核心区、相关区和非相关区。各个区的文章数量相等,此时核心区、相关区和非相关区期刊数量成1:n:n2的关系。[1]洛特卡定律是由美国学者A.J.洛特卡在20世纪20年代率先提出的描述科学生产率的经验规律,又称“倒数平方定律”。[2]它描述的是科学工作者人数与其所著论文之间的关系:写两篇论文的作者数量约为写一篇论文的作者数量的1/4;写三篇论文的作者数量约为写一篇论文作者数量的1/9;写N篇论文的作者数量约为写一篇论文作者数量的1/n2……,而写一篇论文作者的数量约占所有作者数量的60%,该定律被认为是第一次揭示了作者与数量之间的关系。1932年,哈佛大学的语言学专家齐普夫在研究英文单词出现的频率时,发现如果把单词出现的频率按降序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系,这种分布就称为齐普夫定律,[3]它表明在英语单词中,只有极少数的词被经常使用,而绝大多数词很少被使用。实际上,包括汉语在内的许多国家的语言都有这种特点。[4]这个定律后来在很多领域得到了同样的验证,包括网站的访问数量、城镇的大小和每个国家公司的数量。各类图书资源增长依旧符合文献三大定律,呈指数增长趋势,时至今日,传统的分类已经无法满足其处理任务,就像农科院农业图书馆这样的传统图书馆,如何结合现代的物联网技术、适应现代数字化要求的问题丞待解决。

2 农业图书资源分类的机遇与挑战

数字化的要求已经日益广泛,各高校以及科研院所纷纷投入巨额资金来建设数字图书馆,以应对学者以及科研人员对于扩张性增卡的电子资源的需求。1999年物联网概念提出时,各互联网跨国巨头企业就开始倡导全球互联,以IBM为代表的互联网科技公司提出了“智慧地球”。这一概念由IBM的CEO彭明盛提出,“智慧地球”指的是将传感器嵌入或者装备到电网、铁路、桥梁、公路、家庭设备、移动设备和航空器等物体上,形成所谓的“物联网”,目的在于实现全球物体和信息的共联与交互。以中国农业科学院为例,每年国家农业部以及研究生院投入几百万甚至上千万的资金,力图打造面向农业科研人员的数字图书馆,尽管目前还在艰难建设中,但各院所对农业图书馆电子资源的建设积极支持,其效益有待进一步提升。因此,为加紧数字图书馆的建设,院所构建数据共享平台,并采购物联网设备,利用RFID射频技术对原有文献资源进行数据收集,[5]然而利用物联网技术,必然对传统的图书分类编码技术提出新的要求。过去图书管理人员按照《中国图书馆分类法》或者《中国科学院图书馆分类法》,对图书文献进行必要的编码,如今图书以在线出版为主,且符合大数据的四大特征。借鉴人工智能进行文献分类,是开发面向农业图书资源语义挖掘自然语言处理系统面临的新挑战。

3 语义挖掘的主题模型衍变

在自然语言处理方面,主要有两种思路:① 传统的语言学处理流派认为,语义理论和逻辑符号理论可以指导计算机进行学习并处理自然语言;② 基于统计学的概率论流派,他们认为计算机可以从文档集和文本语料等训练数据集中学习自然语言处理。自20世纪80年代各学者针对自然语言处理提出自己的观点以来,其发展热度至今未见减弱,其中Deerwester等人提出的 LSI,[6]Hofmann 等人提出的pLSI,[7]David Blei等人提出的 LDA 模型[8]应用较为广泛。

S.Deerwester等研究了信息检索中用户检索词序列与文档词序列匹配时存在的基本问题,他们提出借助文档内部隐含的高阶“语义结构”提高检索的查准率。先将文档表示成向量空间模型,使用词频-倒文档频率TF-IDF将文档集表示成以文档为行、单词为列的矩阵,再利用奇异值分解(SVD)方法进行降维,SVD基本公式:N=U∑Vt,此时U和V是正交矩阵,UtU=VtV=1,∑是对角矩阵,包含N的奇异值。[1]从绘制类似于词频向量的高维词向量空间,转而向低维潜在语义空间转变。最终的目标是在语义空间中,找到词与词、词与文档、文档与文档之间的邻域的语义关系。他们以MED语料库实验证明,利用LSI去除不相关文档后,文档维度越高检索匹配效果越好,冗余度减少后数据压缩量越有优势。但作者也承认目前概念模型很难解决一词多义现象,其次方法论基础有待进一步完善;SVD方法在概率统计学上存在高斯噪声假设的可疑性,而这导致很难在可数的文本变量中验证其结果准确性的问题。LSI的基本思路是从绘制类似于词频向量的高维词向量空间,向低维潜在语义空间转变,最终的目标是在语义空间中,找到词与词、词与文档、文档与文档之间的邻域的语义关系。它存在如下缺点:首先,方法论基础有待进一步完善;其次,SVD方法在概率统计学上存在高斯噪声假设的可疑性;最后,LSA所具有的概念模型很难解决一词多义现象。

由此,T.Hofmann提出引入概率统计推断的pLSI,针对同样的文档检索匹配问题,pLSI旨在改进LSI模型最终结果缺乏概率解释的问题,它继承了LSI的自动文档索引、文档降维和构建语义空间的优点的同时,利用潜在的层次模型提供概率混合组成分解,以似然函数的最优化作为结果,配合退火EM算法适应模型拟合,提供了检索匹配结果在统计推断上更加合理的方法。[2]作者分别以LOB语料库、MED文档作为测试数据,[6-9]以复杂度为测量指标,对比评价了LSI和pLSI,发现pLSI模型的匹配准确率更高。存在的缺点如下:① 模型中的参数数量会随着文本语料的增长而增长,这会引起过度拟合的问题;② 如何分配训练文档以外的文档概率不甚明确。pLSI的启示主要有以下两点:① 它有效消除了一词多义的语义分歧问题;② 它通过把具有相同主题的词聚类以揭示主题的相似性来解决同义词的问题。文档信息检索的重要应用模型就是VSM(向量空间模型),使用的方法是TF-IDF。它存在的缺点如下:① 模型中的参数数量会随着文本语料的增长而增长,这会引起过度拟合的问题;② 如何分配训练文档以外的文档概率不甚明确。

图1 pLSI概率图

随着主题模型的发展,研究人员发现了pLSI中存在的问题,并逐步开始改进,其间产生了很多优秀的算法模型,其中以Blei的博士论文提出的LDA模型最为优异。LDA是一个三层贝叶斯模型,可用于分类、新颖性检测、总结、相似性和相关性判断。[3]适合于文档建模、文档分类和协同过滤等领域,Blei认为Hofmann的pLSI没有解决文档间层次的概率模型的问题,他基于词包假设,即词在文档中的顺序对文档检索没有影响,[10]在LDA文章中使用了变分法近似估计[11]和EM算法推断经典的贝叶斯参数。[12,13]基于经典的Finetti定理,[14]可以发现文档内部混合分布的统计结构,更好地解决文档建模、文档分类和协同过滤等问题。[15]在文档建模方面,测试语料库选择的是TREC AP语料库,测试指标是对比平滑混合一元模型和pLSA模型复杂度,结果显示LDA复杂度最低,模型表现最好。[16]在文档分类方面,测试文档是路透社新闻语料,指标是精确度和复杂度,依然显示LDA模型表现最好。[17]LDA的基本思路是:文档群由随机潜在主题构成,而主题是由其中的词项分布来组成。LDA认为文档d是从语料D中这样生成的:①选择N~泊松分布(ξ);② 选择θ~狄利克雷分布(α);③ 对于每一个词Wn,Wn>选择主题Zn~多项式分布(ρ),Wn> 从ρ(Wn|Zn,b)选择Wn

值得提醒的是LDA模型区别于一般的狄里克雷多项聚类模型,狄里克雷多项聚类模型的文档一般是单主题,而LDA模型的文档可以是多主题的。LDA比相关潜在模型优势之一就是它对于原先没有见过的文档也能提供较好的推理程序。它存在的劣势在于它的基础词包假设允许多个词从同一个主题产生,同时这些词又可以分配到不同的主题。为了解决这个问题,我们需要扩展基础的LDA模型,释放词包假设,允许词序列的部分具有可交换性或马卡洛夫链性。

4 农业图书资源语义挖掘主题模型设计浅析

目前,国内语义挖掘的系统或者说平台较成功有中科院语义挖掘平台与哈工大的自然语言处理平台,两者在语义挖掘方面各有千秋,[18]但是其中的缺憾是农业领域的自然语言处理缺乏针对性,其次在图书分类方面尤其是农业文献分类方面的信息资源管理大有提高的空间。下面先以一般的自然语言处理流程出发,然后再借助目前算法及机器学习等文本语义挖掘技术,开发出小型的面向某科研机构农业图书资源的自然语言处理系统,结合目前的自然语言处理系统实验评估方法检测其性能。

自然语言处理的流程包括词项选择、分词处理、词性标注、文法表示、语义挖掘。[19]相应地,语义挖掘的自然语言处理系统应该包括以下的基本步骤:得到一个训练的文档数据集、确定包含所有可能的模型的假设空间、确定模型选择的准则、实现求解最优模型的算法、通过学习方法确定最优模型、利用学习的最新模型预测或处理最新的文档数据集。

图2 LDA主题概率图

4.1 主题模型算法

在相应的算法中,输入与输出进行相应的比较,只有在误差小于某一特定统计量允许范围时,该算法提出的模型才是有效的,否则即抛弃。LSA之前的TF-IDF确定的VSM(向量空间模型),在诸多学者验证之下,[6-8,20-24]对文档分类检索来说其精确度与召回率都不是很理想。因此本文在朴素贝叶斯的算法理念上使用更成熟的LSA、更进一步的EM算法上的pLSA以及进化版EM算法上的LDA模型。LDA的推理算法有拉普拉斯估计[25-26]、多项式估计[27]以及最著名的马卡洛夫链蒙特卡洛。[28]

EM算法的流程如下:① 初始化分布参数;②迭代更新直至收敛。

>(E步):对每个文档来说,若参数θ已知,根据训练数据找到隐变量Z最优值。

>(M步):若Z值已知,则方便最大化对模型参数的极大似然估计。这与发现每个文档的充分统计数据的最大期望估计有关,这一估计与E步骤计算的后验概率有联系。

传统的语义挖掘的主题模型参数估计算法较为著名的有变分贝叶斯EM算法[29-31]、马尔科夫链蒙特卡洛方法的吉布斯抽样[32-33]、层次贝叶斯算法[8,34-36]等。其中应用最广泛的是EM算法,利用EM算法迭代计算贝叶斯后验分布的概率,优点在于其速度较快,缺点在于计算量大,且模型计算的参数不准确;而利用马尔科夫链蒙特卡洛方法的吉布斯抽样模型参数估计较准确,但收敛速度较慢,终止条件不明确。

4.2 主题模型实现

目前较成熟的文档处理模型是LDA模型,虽说现在在朴素LDA模型上已经有了很多改进版本,[37]但是毫无疑问都是LDA的版本,以Blei和Hoffmann来说,他们于2010年合作开发的Online-LDA模型,[38]证明的LDA模型的成功之处。LDA处理的问题领域有文档建模、文档分类和协同过滤。具体以文档分类为例,本文中的系统具体可以实现文档模型语位学模块、形态规划形态学模块、词汇与语法句法模块、话语背景语义、领域知识推理模块。

文档模型语位学模块,可以实现文档层分析、文档形态合成,借助Python模块的Gensim与NLTK实现。形态规划形态学模块,可以实现形态与词法分析、形态实现功能,这一模块的实现主要依靠Python的Scikit-learn与gensim的word2vec实现。词汇与语法句法模块,可以实现话语背景语义,这可以用于物联网的语音收入设备,实现解析和句法分析的功能,利用Java实现的weka分析其统计量,句法实现交给numpy、scipy以及NLTK模块包。话语背景语义模块,可以达到上下文推理和话语规划的功能效果,这在系统中显得至关重要,利用Scikit-learn中相应的推演算法可以实现,当然需要NLTK的辅助实现。应用推理模块,借鉴哈工大以及中科院自然语言处理系统的成功点,实现本系统。

关键的难点在于其模型的参数估计,对于主题模型和其他流行的贝叶斯模型,模型的参数很难精确计算,研究者一般诉诸于大致的后验概率推断。较普遍的后验概率推断算法包括两类:取样接近和最优化接近。取样接近一般基于马卡洛夫链蒙特卡洛取样(MCMC);最优化接近基于变分推理,在贝叶斯层次模型中使用称为变分贝叶斯(VB)。经验表明,VB比MCMC效率高而且精确度一样。

4.3 模型的性能评估

赫尔伯特·西蒙(Herbert A.Simon)曾对“学习”给出以下的定义:“如果某个系统可以通过执行某个过程改进它的性能,这就是学习”。[39]按照这一观点,自然语言处理的性能改进也就是模型“学习”的过程。其中语言模型的性能通常用交叉熵和复杂度(Perplexity)来衡量。

交叉熵的意义是计算文本识别的难度,从压缩的角度来看,每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数,其倒数可视为每个词的平均概率,复杂度越高,模型的性能越低。平滑是指对没观察到的N元组合赋予一个概率值,以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和 Kneser-Ney平滑。[40]

歧义的描述和消除是制约计算语言学发展的瓶颈问题。将交叉熵引入计算语言学消岐领域,采用语句的真实语义作为交叉熵的训练集的先验信息,将机器翻译的语义作为测试集后验信息,计算两者的交叉熵,并以交叉熵指导对歧义的辨识和消除。实例表明,该方法简洁有效,易于计算机自适应实现。交叉熵不失为计算语言学消歧的一种较为有效的工具。

pLSA与一般的一元混合模型(LSA)都包括了过度拟合问题,虽然原因大小不一。以一元混合模型为例,过度拟合是训练数据集峰值后验概率的结果。这一现象与朴素贝叶斯模型类似,在E步中训练文档中聚类的不变性造成了M步中词项概率的趋同性。一个原先没有在训练文档中出现的文档可能很好地拟合了混合模型,但是其中的可能未出现在训练模型中的词项被分配了很小的概率,这导致了随着文档主题数的增加,其中包含未知词项的概率增多,最终导致复杂度或者说困惑度的激增。

[参考文献]

[1] S.C.Bradford.Sourcesofinformationon specific subjects[J].Journalof Information Science,1934,10(4):173-180.

[2] Lotka A J.The frequency distribution ofscientific productivity [J].Journal of theWashington Academy of Sciences,1926,16 (12):317-323.

[3] Zipf G K.Selected studies of the principle of relative frequency in language[J].Language,1933,9 (1):89-92.

[4]王崇德.文献计量学教程[M].天津:南开大学出版社,1990:51-52.

[5]卓文飞.中国农业数字图书馆信息集成服务系统研究[D].北京:中国农业科学院,2008.

[6] DeerwesterS,etal.Indexingby latentsemanticanalysis[J].JournaloftheAmerican Society for Information Science,1990,41(6):391-407.

[7] Hofmann T.Probabilistic latentsemanticanalysis[J].Uncertainty in Artificial Intelligence,1999,7(3):289-296.

[8] BleiDM,etal.Latentdirichletallocation[J].Journal ofMachine Learning Research,2003,3 (1):993-1022.

[9] Papadimitriou CH,etal.Latentsemantic indexing:A probabilistic analysis[C]//Symposium on Principlesof Database Systems, New York: ACM Press, 1998:159-168.

[10] Salton G,McGillM J.Introduction tomodern information Philadelphia,PA [J].American Association forArtificial IntelligenceRretrieval,1983,47 (158):112-125.

[11] Blei D M,Jordan M I.Variationalmethods for the Dirichletprocess[C]//Proceedingsof the Twenty-first International Conference on Machine Learning,New York:ACMPress,2004:12.

[12] Cheeseman P,etal.AutoClass:Abayesian classification system [J].Machine Learning Proceedings,1988(9):54-64.

[13] NealRM,Hinton G E.A view of the EM algorithm that justifies incremental,sparse, and other variants[M].Berlin:Springer,1998:355-368.

[14] DiaconisP.Recentprogresson de Finetti’snotionsof exchangeability [J].Bayesian Statistics,1988,3:111-125.

[15] Hill BM,De FinettiB.Theory of probability[J].Journalof the American Statistical Association,1975,17(2):126-127.

[16] BleiDM,JordanM I.Modelingannotated data[C]//International Acm Sigir Conference on Research and Ddevelopment in Information Retrieval, New York:ACMPress,2003:127-134.

[17] Baker LD,Mccallum A.Distributional clusteringof words fortextclassification[C]//InternationalAcm Sigir Conferenceon Research and Development in Information Retrieval, New York: ACM Press, 1998:96-103.

[18]徐戈,王厚峰.自然语言处理中主题模型的发展 [J].计算机学报,2011,34(8):1423-1436.

[19]孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007,2(9):49-53.

[20] Dickey JM.Multiplehypergeometric functions:Probabilistic interpretationsand statisticaluses[J].Journalof the American StatisticalAssociation,1983,78(383):628-637.

[21] DumaisST.Latentsemantic indexing (LSI):TREC-3 report[J].NistSpecialPublication SP,1995,57 (134):219-219.

[22] JoachimsT.Making large-scale SVM learningpractical[R].Dortmund:Universita..tDortmund,1998.

[23] WolfeM BW,etal.Learning from text:Matching readersand textsby latentsemanticanalysis[J].DiscourseProcesses,1998,25 (2-3):309-336.

[24] Hofmann T,et al.Learning from dyadic data[C]//Advances in Neural Information Processing Systems,Cambridge,MA:TheMITPress,1999:466-472.

[25] CaniniK,etal.Online inferenceof topicswith latent Dirichlet allocation[C]//Artificial Intelligence and Statistics,Cambridge,MA:JMLR,2009:65-72.

[26] BraunM,McAuliffe J.Variationalinference for large-scalemodels of discrete choice [J].Journal of the American StatisticalAssociation,2010,105(489):324-335.

[27] Florentin JJ,etal.Handbook ofmathematical functions[J].American Mathematical Monthly, 1966,73(10):1143.

[28] JordanM I,etal.An introduction tovariationalmethods for graphical models[J].Machine Learning,1999,37(2):183-233.

[29] Dempster A P,etal.Maximum likelihood from incompletedatavia theEM algorithm [J].Journalofthe RoyalStatisticalSociety,1977,39 (6):1-38.

[30] SatoM A,IshiiS.On-lineEM algorithm for thenormalized Gaussian network [J].Neural Computation,2000,12(2):407-432.

[31] Liang P,Klein D.Online EM forunsupervisedmodels[C]//Human LanguageTechnologies:Conference of the North American Chapter of the Association of ComputationalLinguistics,NewYork:DBLP,2009:611-619.

[32] Liu JS,Chen R.SequentialMonteCarlomethods for dynamic systems[J].Journalof theAmerican StatisticalAssociation,1998,93(443):1032-1044.

[33] HastingsW K.Monte Carlo samplingmethods using Markov Chainsand theirapplications[J].Biometrika,1970,57 (1):97-109.

[34] Chang J,etal.Reading tea leaves:How humansinterpret topicmodels[C]//Advances in Neural Information ProcessingSystems,New York:Curran Associates Inc.,2009:288-296.

[35] Song X,etal.Modelingand predicting personal information dissemination behavior[C]//Proceedingsof theEleventh ACMSIGKDD InternationalConferenceon Knowledge Discovery in Data Mining, New York:ACMPress,2005:479-488.

[36] Griffiths T L,Steyvers M.Finding scientific topics[J].Proceedingsof theNationalacademyofSciences,2004,101(s1):5228-5235.

[37] Yao L,etal.Efficientmethods for topicmodelinferenceonstreamingdocumentcollections[C]//Proceedingsofthe15th ACMSIGKDD InternationalConference on Knowledge Discovery and Data Mining,New York:ACMPress,2009:937-946.

[38] Hoffman M D,et al.Online Learning for Latent DirichletAllocation[C]//Neural Information Processing Systems, New York: Curran Associates Inc.,2010:856-864.

[39] AnzaiY,Simon H A.The theoryof learningby doing[J].PsychologicalReview,1979,86(2):124.

[40] Chen S F,Goodman J T.An empirical study of smoothing techniques for languagemodeling[J].Computer Speech&Language,1999,13(4): 359-394.

猜你喜欢
贝叶斯文档语义
真实场景水下语义分割方法及数据集
浅谈Matlab与Word文档的应用接口
有人一声不吭向你扔了个文档
基于贝叶斯解释回应被告人讲述的故事
语言与语义
基于动态贝叶斯估计的疲劳驾驶识别研究
Word文档 高效分合有高招
批评话语分析中态度意向的邻近化语义构建
“吃+NP”的语义生成机制研究
基于互信息的贝叶斯网络结构学习