基于LDA模型的中药专利内容热点领域分析方法

2019-06-07 15:08丁鹏斐吴建德

软件导刊 2019年1期

关键词：三七

丁鹏斐吴建德

摘要：为解决中药材相关专利分类粗泛性、热点研究领域不明确的问题，提高其主题分类时效性和科学性，分析明确中药相关热点领域。通过引入LDA主题模型对中药材相关专利内容进行分析，对中药专利主题进行划分，以中药材“三七”为例，使用1万条专利数据进行实验。实验结果表明，专利主体得到明确划分，实现了热门研究领域分类。基于LDA主题模型方法分析中药相关专利，实现中药专利领域主题细分、热点子领域判断，揭示了中药专利热门研究领域，实现了中药相关产业未来发展趋势的预测。

关键词： LDA主题模型; 热门技术领域; 中药专利内容分析; 三七

DOI：10. 11907/rjdk. 181746

中图分类号：TP319文献标识码：A文章编号：1672-7800（2019）001-0148-04

Abstract： To solve the crudeness of related patent classifications of Chinese herbal medicines and the unclear issues in the research field of related patent hotspots for Chinese herbal medicines， improve the timeliness and scientific nature of its subject classification， and identify the hot areas related to traditional Chinese medicine， this article analyzes the patent content of Chinese herbal medicines by the LDA theme model and divides the patent subject of traditional Chinese medicines. Taking Panax notoginseng as an example， 10 thousand patents are used for experiment. After analyzing traditional Chinese medicine patent content of Sanqi by LDA theme model， we can achieve the subject division of Chinese medicine patents and issues will be resolved such as the overly broad classification of past patent topics， poor timeliness， and lack of scientific. Based on the LDA theme model， the hot research fields of Chinese medicine patents are portrayed and the development trend of traditional Chinese medicine is indicated.

0 引言

我国在中药现代化过程中，除利用现代科学技术解释古老的中医药原理外，还应具备创新思维，积极发现新药、新用途，才能保持勃勃生机。国家知识产权局规划发展司2013年12月发布《中国区域产业专利密集度统计报告》，在全部41个工业大类中，医药制造业分别以2007-2011年28.6l件/万人和2008-2012 年39.59件/万人的专利密集度名列第5位，细化到与中药直接或间接相关的工业种类时，专利密集度也在全部20个工业种类中名列前茅[1]。与中药直接或间接相关专利的专利密集度在所有工业种类中属于前列。目前对于中药相关专利主题的分析研究通常以专利数据结构化信息挖掘为主，而进行文本分析时，关键词分析是最常见的主题分析方法，但是在专利文献中并不包含关键词字段，所以研究人员通常采用专利分类代码进行分析研究[2]，或对中药材相关专利采用专利分类代码替代专利关键词进行技术主题分析[3]。这些方法主要存在以下局限性：中药专利分类代码不能与相对应的技术领域充分契合，分类过于粗泛，需要深入专利文本内容进行挖掘分析[4-7]。

本文采用LDA 主题模型可判断文本的相关程度，从而识别大数据语料集背后潜藏的主题信息，其效果优于混合主题模型等其它主题划分方法[8-10]。LDA 模型对新兴领域潜在主题分析研究具有明显优势，在中药相关专利新领域中所体现的前沿技术主题分析上也具有优势。本文采用LDA 主题模型与中药材相关专利文本相结合，解决以往专利主题分类中的问题，采用语义分析的文本挖掘研究方式对中药材相关专利进行文本分析研究。

1 中药材专利主体分析

1.1 LDA主体模型

LDA （Latent Dirichlet Allocation）是一种文档主题生成模型，是一个包含词、主题和文档3层结构的贝叶斯概率模型[11-12]。其中文档与主题、主体与主题词分别服从多项分布。LDA是一种非监督机器学习，在训练时不需要人工标注训练集，只需要指明文档的主题数就可以分析识别潜藏在大规模文档集或语料库中的主题信息。LDA采用词袋模型，即每一篇文章都是由一组词构成的集合，且词与词之间是无序的，词的无序性降低了整个问题的复杂度[13]。在LDA模型中每一篇文檔代表一些主题所构成的概率分布，在每一个主题中主题又代表了很多单词所构成的一个概率分布[14]。主题模型的主要前提假设是，一系列主题链接了一系列词和文档集合，而主题则可以理解为是字和词的一种概率分布，采用概率推断算法，是一种全概率生成过程[15]。每一篇文档可以包含多个主题，文档中的每一个词都由主题生成。LDA是目前主要的主题生成模型，与其它生成式概率模型相比，使用Dirichlet 分布作为主题分布信息的先验知识。文档、主题以及词可以表示为图1。

图1中，K为文档主题个数;M为文档总数;Nm为第m个文档的词的总数; [β]为每个主题（Topic）下词的多项分布的Dirichlet先验参数;[α]为每个文档下主题的多项分布的Dirichlet先验参数;Zm，n为第m个文档中第n个词的主题;Wm，n为第m个文档中的第n个词;[θm]为第m个文档下的主题的分布;[φk]为第k个主题下词的分布[16]。

1.2 LDA主体模型应用于专利文本

专利文本是一种比较特殊的文本，与一般文本相比具有结构特殊、专业性强、领域词汇较多等特点，因此与传统文本分类方法相比，专利文本需要采用更有针对性的文本分类方法和文本分析方法[17]。在文本分析中，文本的表示直接影响到特征值选取，好的特征值选取方法可以提高分类方法效率，目前专利文本分类方法的文本表示都基于向量空间模型（Vector Space Model，VSM）算法[18]。本文采用LDA主体模型对专利摘要进行分析。深入挖掘专利文本间内在关系，需要对当前专利中所展现的技术特征应用领域作进一步分析，有助于了解各细分主题专利主体的发展方向，判断各细分市场专利知识主体地位，了解当前领域内技术发展动向。在LDA主题模型中分析计算的基数是词频，因此专利文件的词频可以被看作是表现专利主题的重要特征，而专利文献的数据具有多元性，可进一步挖掘中药材相关专利主题、专利技术应用领域的潜在关系。通过LDA主题模型得到专利—主题、主题—特征词的概率分布，从多个角度深入分析专利文本，得出专利技术发展动向。

1.3 中药专利LDA主体模型应用实现

专利文本的特殊性使其并不具有类似于期刊论文的关键词字段，从而需要从专利文本中提取主题词。根据专利文本特性，着重对专利摘要进行分析。专利摘要包含其所属技术领域、需解决的技术问题、主要技术特征和用途。本文对从专利数据库中获取的“三七”相关专利数据摘要进行处理。

首先对专利数据进行去噪。由于检索式不精确，从数据库中获取的“三七”中药材专利文献中有少数不相关专利数据。因为对具有大量数据的专利数据进行人工去噪，将会浪费大量时间，所以本文以字符串对比的方法进行初步数据处理，通过对比剔除摘要中明显不属于“三七”专利的文本数据。中药材专利摘要中存在许多特定的词汇、单位、数字，例如外观设计、设计、第一、当归、甘草、黄芪、红花等，会严重影响LDA主题分析，对分析热门技术领域有很大影响，所以需要对初步去噪的摘要文本进行去停用词分词。本文采用jieba分词对文本进行处理，将专利文本中常用的不具有实际意义的量词、连接词、专用词组去除，切割形成一个“三七”摘要的词频矩阵，运用LDA对专利摘要进行处理，提取出“三七”专利的主题模型。然后对“三七”专利主题模型的特征词进行评估，如果特征不明显或者有明显错误则对所采集专利数据进行再清洗，直至得到准确明显的特征词。专利文本分析具体流程见图2。

2 实验与分析

以含有“三七”中药材的专利数据为研究对象，在智慧芽数据库中，以“主题=三七 AND”为检索式进行检索，“时间跨度=所有年份”，更新至2018年3月20 日，下载“三七”直接相关技术10 000 项。通过该数据将LDA主题模型应用于中药相关专利分析，并进行可操作性和有效性检验。

2.1 数据来源

研究数据来自于智慧芽专利数据库。该数据库包括中国、美国、欧洲专利局、世界知识产权局等专利信息，涵盖了全球一亿多个专利数据。采用该数据库的主要原因是：数据库提供专利的所有字段信息，且提供完整的摘要和全文，并对以上专利信息进行了标准化处理。采用该数据库，便于获取专利摘要、权利要求等文本的标准化信息，能够有效提高提取专利中技术词的效率，因此能够使专利主题词抽取结果更有意义，直接影响用LDA模型对专利文本数据处理分析的结果。

2.2 文本聚类分析

以往对专利文本处理通常使用文本聚类的方法。本文采用文本聚类中非常成熟的K-means算法，对“三七”专利摘要进行聚类，提取“三七”目前的主要热门技术。为了尽可能区分“三七”不同的研究领域，根据其主流研究方向将聚类个数设为6个，通过对“三七”摘要文本的聚类，测试K-means算法是否符合目前几大研究方向。聚类结果见图3，不同颜色和形状的标志代表各个不同类簇（彩图见封底）。

由图3可以看出聚类效果并不明显，几个簇是相交包含关系，不能清晰区分出目前“三七”专利主要涉及领域，不能有效指出“三七”热门技术领域。通過聚类分析可以看出，传统的文本聚类方法具有不确定性，聚类结果不稳定，达不到对具体研究领域细分的效果。

2.3 LDA模型分析结果

本文以中药材“三七”的专利数据作为研究对象，以验证LDA对整个中药专利技术热点的分析结果。通过对实验数据处理，再以LDA主体模型进行测试，得出“三七”专利数据摘要中的高频主题词。高频主题词主要为：混合物、制剂、提取物、止血、止痛、系统、饲料、种植、毒副作用、保健、食用、人参、药物。这些高频词反映了目前“三七”应用研究的主要领域，所以通过对“三七”专利摘要进行分词抽取能很好地反映专利主题内容。

LDA主体模型是全概率生成模型，对“三七”相关专利进行主题划分，主题数通常由人为定义，所以定义主题数可能会严重影响实验结果。本文对“三七”专利数据主题划分设立了8个主题，通过实验比较发现主题数设为8时，其主题见表1。

通过对比发现，当主题数设为6时，其主题主要体现了药用、保健饮食、“三七”加工设备、“三七”制备工艺、养殖种植等领域，没有体现“三七”在生活用品中的应用;当主题数小于6时，主题区分度过低，且不能充分反映“三七”专利包含的技术领域;当主题数大于9时，就会出现多个主题相近、主题区分过细、多个主题属于一个大主题的情况。所以主题数设为8个，刚好反映了当前“三七”中药材相关专利所包含的主要应用领域，并且细分了三七作为医药对应的几个主要应用领域，为分析“三七”当前研究的热门技术领域提供了充分支持。