廖列法++勒孚刚
〔摘要〕[目的/意义] 运用概率主题模型全面研究专利文献主题演化,分析专利技术发展过程及趋势。[方法/过程]LDA模型按时间窗口对专利文本建模,困惑度确定最优主题数,按专利文本结构特性提取主题向量,采用JS散度度量主题之间的关联,引入IPC分类号度量技术主题强度,最后实现主题强度、主题内容和技术主题强度3方面的演化研究。[结果/结论]实验结果表明:该方法能够深入挖掘专利文献的主题,可以较好地分析专利技术随时间的演化规律,帮助相关从业人员了解专利技术的演化过程及趋势。
〔关键词〕专利文献;LDA;JS散度;IPC分类号;技术主题强度;专利技术演化
DOI:10.3969/j.issn.1008-0821.2017.05.003
〔中图分类号〕G25553〔文献标识码〕A〔文章编号〕1008-0821(2017)05-0013-06
Research on Patent Technology Evolution Based on
LDA Model and Classification NumberLiao LiefaLe Fugang
(School of Information Engineering,Jiangxi University of Science and Technology,Ganzhou 341000,China)
〔Abstract〕[Purpose/significance]This paper used the probability topic model to study the evolution of patent literature,and analyzed the development process and trend of patent technology.[Methods/process]The LDA model modeled the patent text by time window,confusion degree method was used to determined the optimal number of topics,extracting topic vectors according to the structural characteristics of patent text,used the JS divergence to measure the association between topics,introduced IPC classification number to measure technical topic strength,finally,the evolution of topic strength,topic content and technical topic strength were studied.[Results/conclusion]The experimental results showed that this method could deeply excavate the topic of the patent literature,and could analyze the evolution of patent technology over time and help the practitioners to understand the evolution process and trend of patent technology.
〔Key words〕patent literature;LDA;JS divergence;IPC classification number;technical topic strength;patent technology evolution
專利文献是技术情报的载体,它的文本中隐藏了大量的技术情报信息,是技术情报的最佳情报来源。从2011-2016年我国专利申请数量已经连续5年蝉联全球专利申请量之首,因此,从海量的专利文献中挖掘专利发展趋势具有重要的研究意义。专利技术演化分析是专利文本分析的重要研究方法。技术演化分析是指技术变化过程的发现和描述,进而进行技术发展趋势预测等内容。全面、深入和准确地分析技术发展情况,可以帮助国家制定科学技术发展规划,帮助企业了解市场发展动态和制定正确的市场技术路线,还可以帮助科研人员从技术的发展趋势中获得启发与借鉴。
本文针对专利文本结构特点[1],提出基于LDA和分类号的专利技术演化模型。首先该方法在文本建模时,考虑专利文本内容的权重差异;其次结合专利文本权重提取专利文档的主题概率分布,然后在文本演化分析中,分析主题的主题强度和主题内容演化,及结合专利的IPC分类号分析技术主题强度。最后实验表明,该模型能够较好地分析出专利文本的主题强度、主题内容演化和技术主题强度演化过程及趋势。
1相关研究
因专利技术演化分析能够探索和挖掘专利文本中的一些潜藏信息[2-4],故已成为该领域对特定技术发展研究的重要手段,国内外研究者对专利技术演化做了大量的研究工作[5-9]。根据技术演化分析方法中利用专利文献中的不同信息,可以将专利技术演化分析方法分为3类。
11基于专利分类号的技术演化
专利分类号(IPC分类号、德温特手工代码等)是对专利技术内容的反映。基于专利分类号的技术演化分析方法[10]是通过时间窗口切分专利文献,依据专利对应的专利分类号,在各时间块内对专利进行统计分析,常见的专利分类号统计方法有:根据专利分类号对同类专利统计数量,分类号的频次统计分析、共现统计分析等。通过统计分析专利分类号随时间的演变,来揭示某技术领域的技术演化过程及发展趋势。这类技术演化分析方法虽然能够在一定程度上分析技术的演化过程,但是并没有深入到专利文本的内容,只停留在宏观表面上,不能够全面深入地分析技术发展演化过程及趋势。
2017年5月第37卷第5期现?代?情?报Journal of Modern InformationMay,2017Vol37No52017年5月第37卷第5期基于LDA模型和分类号的专利技术演化研究May,2017〖〗Vol37No512基于专利引用关系的技术演化
专利之间的引用关系使专利之间产生了关联,构造成专利引用网络,通过对专利关联和网络的研究,分析专利技术之间的联系和演进关系。侯彼蓉、司有和和吴海燕[11]提出基于引文路径分析的专利技术演进图的描绘,利用医学内窥镜专利技术进行实案论证。Changwoo Choi和Yongtae Park[12]提出一种利用专利引用网络对技术发展过程进行分析的方法,分析技术变化、明确技术发展路径及预测技术发展趋势。分析专利引用关系能够发现不同专利之间的相互关系及演化过程和趋势,但是此类算法存在两个明显的缺陷:①专利引用体系不完整,不易发现所有专利之间的引用关系;②引用关系同样停留在宏观表面,没深入到专利文本内容,不能发现专利内在联系。
13基于专利文本的技术演化
早期基于专利文本的技术演化分析方法是通过人工阅读来完成的,但随着专利文本数量的陡增,人工阅读的成本也在迅速增加,因此采用机器学习文本挖掘算法是一种必然的趋势。该类方法利用文本挖掘算法提取专利文本中的文本信息,然后根据文本信息进行技术演化分析,其中专利的文本包括名称、摘要、主权项等。Young Gil Kim等[13]提出一种关键词语义网络的构建方法,对专利文本进行聚类,根据不同簇关键词的共现及首现时间,构建关键词语义网络,分析技术主题变化过程。方曙等[14]在分析现有方法不足的基础上,提出一种更完善的基于专利文本的技术演化分析方法。该方法结合专利文本信息,能更直观深入地表达专利的内在信息与联系,最终更好的发现专利技术演化过程和趋势。基于专利文本的技术演化研究常用方法有:专利词频统计方法,空间向量模型等,其中对概率模型方法涉及很少,故本文利用概率主题模型结合专利分类号来分析专利文本的技术演化过程及趋势。
4实验及结果分析
41实验环境及数据集
实验是在CPU为Inter(R)E5-2620 v2@210GHz、内存为16G、操作系统为64位的Window8的PC机上运行。
本文利用从专利局获取的稀土专利数据进行实验。实验数据集包含2007-2015年共31 000篇稀土专利文献[21],时间窗口的长度划为1年,根据专利的申请时间将专利文献分到对应的时间窗口。利用困惑度函数确定各个时间窗口的最优主题数,具体的数据情况如表2所示。
42实验设置
实验分词采用R软件的Rwordseg包中的segmengCN方法[22],由于专利文本具有专业性强、领域词汇多的特点,若直接采用R软件进行分词效果不是很好,需要扩充分词表的词库,故在搜狗词库中下载相关的专利词语词库,使像“金属氧化物”、“二氧化钛”等日常少见的词汇能正确被表2数据集各时间窗口具体数据情况
年限文档数词汇数最优主题数20076814 1945620081 7346 3066120091 9406 4515920102 2097 0856520112 4076 9627020123 7818 2907820134 5068 5747220145 4409 4068520156 1799 78582
切分,提高分词正确率,并为后续分析提供好的实验数据。
在LDA建模过程中,参数估计采用MCMC方法中的Gibbs抽样算法,根据经验设置α=50/K、β=001,Gibbs抽样的迭代次数参数iteration为1 000,保存迭代参数save step为800。其中各时间片的具体最优主题数如表2所示。
43实验结果及分析
LDA模型根据表2各时间片的最优主题数分别建模,选取各个主题中分布概率前10的关键词表示主题内容。2015年热点主题的分布情况如表3所示:表32015年热点主题
Topic 0Topic 8Topic 9Topic 11Topic 13Topic 39合金催化剂磁体荧光发光玻璃熔炼烟气粉末荧光粉转换掺杂铝合金活性烧结发射吸收陶瓷铸造催化汝铁硼发光红外线透明融化净化磁性激化可见光制备铁合金浸渍粘结化学余辉石英精炼助剂磁场红色紫外线摩尔镁合金废气铁氧体绿色磷光烧结浇铸尾气温度波长彩色折射率铸锭催化活性扩散二极管颜色抗热
根据表3可知,2015年專利文本的主题集中在合金材料、催化剂材料、磁体、发光、荧光和玻璃等。通过对这些热点主题的具体内容含义分析,可以了解2015年专利大概的申请情况。主题0主要是合金方面的内容,包括铝合金、铁合金、镁合金等的合成等;主题8主要是催化材料方面的内容,侧重对各种工业废气、发动机尾气和烟气的处理及净化;主题9主要是磁性材料方面的内容,磁性材料的主要对象还是汝铁硼永磁材料的研究;主题11主要是荧光领域的内容,重点在各种颜色光波长研究;主题13主要是发光领域的内容,发光领域包括发光、荧光材料等方面;主题39主要是玻璃材料方面的内容,包括玻璃的掺杂、烧结、抗热和折射率等,侧重在玻璃材料创新方面。
431专利的主题强度演化结果
依据LDA模型提取的文档-主题和主题-词汇概率分布,计算主题在各个时间片上的主题强度,分析主题强度随时间的演化趋势。下面以稀土行业中的几个热门主题进行分析,具体的演化情况如图3所示:
图3为主题的主题强度随时间的演变情况图,依据图可以清晰地看出各主题的主题强度随时间变化的情况。从图中分析各主题强度演变得出:主题0的主题强度一直很高,在2012年和2015年热度达到最大值,主题0的整体主题强度有一个上升的趋势,说明合金方面的内容一直是稀土技术研究的热点;主题8是有关催化材料方面的主题,整体主题的主题强度是一个上升过程,这跟时代需求有关,随着各种废气、尾气处理净化的要求,引发了该类技术的研究热潮;主题9的主题强度整体是个下降趋势,说明在磁性材料方面的研究达到了一定技术瓶颈,研究热度慢慢下降;主题11和13事关于发光领域的内容,随着时间主题的强度值跨度较大,呈现一个大的上升趋势,随着近些年国家飞速发展,这方面技术是一个较新的研究领域;主题39是关于玻璃材料领域的内容,主题的强度波动不大,说明该领域研究稳定。
432专利的主题内容演化结果
对各个时间窗口建模,获取主题-词汇概率分布,在不同的时间窗口中同一主题的内容是不一样的,根据JS距离公式,得到主题相似性度量结果。下面列举了合金主题的内容变化情况。具体情况如表4所示:
表4合金主题的内容变化
20072008〖〗2009201020112012201320142015合金铝合金合金合金合金合金合金合金合金原料合金熔炼熔炼镁合金杂质熔炼熔炼熔炼制备保温镁合金性能熔炼镁合金铸造铝合金铝合金真空温度性能铸造杂质热处理熔化铸造铸造熔炼熔化高温试样退火强度退火融化融化氢气工艺热处理提高余量熔炼精炼浇注铁合金保护熔炼提高变质精炼含量浇注精炼精炼破碎冷却铸造铁合金变形镁合金镁合金镁合金镁合金氩气升温元素磨损热处理高强浇铸退火浇铸融化精炼精炼工艺挤压微量铸锭钛合金铸锭
实验提取主题概率分布前10的关键词作为该主题的表示形式,从主题强度图中可以分析出,合金领域的主题强度一直很高,是近些年的研究热点,而主题的内容是变化的,从表4中可以看出合金技术在内容上,从各种熔炼慢慢集中在各类金属的合成上,这正和近些年合金技术发展相吻合,说明这主题内容演化很好的论证技术方向的发展。
433专利技术组主题强度演化结果
依据IPC分类的特性,对小组分类的同类技术进行技术主题强度演化分析。下面列举了近些年一些热门技术的主题强度演化情况,具体情况如图4所示:
图42007-2015年技术主题主题强度演化趋势
图4宏观上描述技术主题强度随时间演化趋势图,随着近些年环境污染的日益严重,使得有关环保节能方面技术成为研究热点,图中纯稀土合金节能环保制备技术和废汽车尾气净化剂制备技术的主题强度随着时间呈现一个强势上升趋势,这和实际情况相吻合;近些年稀土提取技术主题强度曲线波动较大,因为它相对其他专利的申请量在减少,但它的量是在稳步上升的;各种光照技术在飞速提升,因为这是当前各企业研究的热点,也是商业竞争的关键技术,图中光电器件制备技术和照明光源制备技术由2011年后是一个稳步上升的趋势,符合当前专利技术发展实情。
5结论与展望
本文利用LDA模型对不同时间窗口的专利文献建模,提取各专利文档的主题,利用困惑度确实最优主题数,从主题强度、主题内容、技术主题强度等方面,全面研究了专利文献主题的演化情况。结论表明该方法可以较好地分析专利文献主题随时间的强度演化规律、主题内容演化趋势和技术主题强度演化情况。本文只考虑专利文本结合IPC分类号的专利技术演化分析,对于技术之间的相互引用、相互联系和相互作用等考虑不足,因此这是下一步的研究方向,以能够更全面深入地研究专利技术演化,使主题演化效果更真实反映专利文献的发展概况。
参考文献
[1]胡冰,张建立.基于统计分布的中文专利自动分类方法研究[J].现代图书情报技术,2013,29(7):101-106.
[2]祖坤琳,赵铭伟,林鸿飞.基于有序聚类的专利知识演化研究[J].计算机工程与科学,2016,38(4):785-791.
[3]魏景璇,鲁燃,张艳辉,等.基于动态阈值和命名实体的双重过滤话题追踪[J].计算机应用研究,2015,32(4):982-985.
[4]贺亮,李芳.科技文献话题演化研究[J].现代图书情报技术,2012,(4):61-67.
[5]胡阿沛,张静,张晓宇,等.基于专利文献的技术演化分析方法评述[J].现代情报,2013,33(10):172-176.
[6]秦晓慧,乐小虬.基于LDA主题关联过滤的领域主题演化研究[J].现代图书情报技术,2015,(3):4.
[7]李勇,安新颖.基于LDA的主题演化研究[J].医学信息学杂志,2013,(2):57-61.
[8]Sugimoto C R,Li D,Russell T G,et al.The shifting sands of disciplinary development:Analyzing North American Library and Information Science dissertations using latent Dirichlet allocation[J].Journal of the American Society for Information Science and Technology,2011,62(1):185-204.
[9]王金龙,徐从富,耿雪玉.基于概率图模型的科研文献主题演化研究[J].情报学报,2009,(3):347-355.
[10]栾春娟.基于专利共现的全球太阳能技术网络及关键技术演进分析[J].情报学报,2013,32(1):68-79.
[11]侯筱蓉,司有和,吴海燕,等.基于引文路径分析的专利技术演进图制作的实证研究——以医学内窥镜专利分析为例[J].情报学报,2008,27(5):788-792.
[12]Choi C,Park Y.Monitoring the organic structure of technology based on the patent development paths[J].Technological Forecasting & Social Change,2009,76(6):754-768.
[13]Kim Y G,Suh J H,Sang C P.Visualization of patent analysis for emerging technology[J].Expert Systems with Applications An International Journal,2008,34(3):1804-1812.
[14]方曙,胡正银,庞弘遷,等.基于专利文献的技术演化分析方法研究[J].图书情报工作,2011,55(22):42-46.
[15]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation[J].Journal of machine Learning research,2003,3(1):993-1022.
[16]王曰芬,傅柱,陈必坤.采用LDA主题模型的国内知识流研究结构探讨:以学科分类主题抽取为视角[J].现代图书情报技术,2016,32(4):8-19.
[17]Heinrich G.Parameter Estimation for Text Analysis[J].Technical Report,2005.
[18]李保利,楊星.基于LDA模型和话题过滤的研究主题演化分析[J].小型微型计算机系统,2012,33(12):2738-2743.
[19]李湘东,张娇,袁满.基于LDA模型的科技期刊主题演化研究[J].情报杂志,2014,(7):115-121.
[20]韩红旗,付媛,朱礼军.基于专利IPC分类号的技术竞争对象的群组分析方法[J].情报工程,2015,(4).
[21]于佳欣.2006-2010年稀土专利申请现状分析[J].稀土信息,2012,(4):38-40.
[22]Roberts M E,Stewart B M,Tingley D.stm:R package for structural topic models[J].R package,2014,(1):12.
(本文责任编辑:孙国雷)