刘晓英 文庭孝 孙玥莹
(1.中南大学图书馆 长沙 410013;2.中南大学信息安全与大数据研究院 长沙 410083)
技术挖掘(Technology Mining)是美国学者Porter提出的一种在已有科技文献的基础上分析当前技术现状和将来技术走向的方法,用于技术演变分析、技术监测、技术管理、技术评估、技术竞争情报分析等[1]。专利文献是一种重要的技术文献,蕴含丰富的专利技术信息,成为技术挖掘的重要对象。
对专利文献和专利数据中的技术信息进行综合挖掘和分析,宏观上可应用于技术演变和预测研究等;中观层面上可协助研究部门进行技术监测与管理、竞争情报分析等;微观上可以为特定领域的技术创新和研发提供知识服务,为专利改良或新专利发明创建基础[1-2]。专利技术信息挖掘具有重要的应用价值,因此倍受国内外学者关注。
专利信息挖掘,也称为技术挖掘、专利挖掘、专利文本挖掘、专利数据挖掘等,是指在创意设计、技术研发、产品开发、技术贸易、专利诉讼等活动中,对所取得的专利技术成果从技术、法律、经济和战略层面进行剖析、整理、拆分和筛选,从而发现和获得有价值的专利信息的过程,其核心是专利技术信息、法律信息、经济信息和战略信息挖掘[3-5]。专利信息挖掘的核心是专利技术信息挖掘。
广义的专利信息挖掘包括专利检索、专利分析、专利地图、专利计量、专利数据挖掘和专利文本挖掘等内容,其本质都是有用专利信息的识别、发现、提取和利用,主要内容包括专利数据分析、专利信息挖掘、潜在规律发现、未来趋势预测等方面。而狭义的专利信息挖掘则仅指专利数据挖掘和专利文本挖掘,是利用数据挖掘和文本挖掘方法对专利进行研究。专利数据挖掘是指利用数据挖掘方法直接处理专利元数据,得到专利共现、共引或共类、时间序列和网络拓扑结构等方面的研究结果[6]。专利文本挖掘是指利用文本挖掘方法对专利文献的题名、摘要和权利要求等字段进行研究,得到专利术语、分类和聚类等方面的研究结果[3]。专利信息挖掘的目的在于通过规范、有效的专利数据和文本挖掘方法,使隐含在专利文献、专利数据库和互联网中的、有价值的专利信息显性化,并以专利的形式进行保护,或以资源的形式加以利用。
专利信息挖掘有助于从主题和内容角度对专利文献、数据库和互联网中包含的技术特征(术语、关键词等)和法律信息(权利要求等)及其组合形成的衍生经济信息(专利价值、同族专利等)和战略信息(专利布局、技术趋势等)等进行深层次分析,以测度专利文献间的相似性,发现技术特征关联、演变和规律等,从而有助于企业从宏观层面把握技术发展趋势,从微观角度把握技术创新细节,辅助企业技术创新决策[3]。因此,专利信息挖掘可以起到梳理技术创新成果、提升专利申请质量、提前规避专利风险、发掘未来竞争优势等作用。
专利文本中包含着专利申请号、申请人、申请日、发明人、分类号等结构化信息以及专利摘要、技术背景及权力要求等非结构化信息,人工阅读和分析这些文本信息十分耗时费力。而文本挖掘技术可以批量处理大量文本数据,从中提取有用的信息,从而发现潜在的知识或模式。专利文本挖掘涉及专利文本分类、文本聚类、技术主题识别、技术发展趋势分析、合作伙伴寻找等。结构化专利信息提取与挖掘研究已趋成熟,而非结构化专利信息提取与挖掘还处于探索之中。
目前国内外常用的专利技术信息挖掘方法主要有四大类,即基于网络、基于分类、基于聚类和基于信息抽取的专利技术信息挖掘方法。
(1)基于网络的专利技术信息挖掘方法。专利文献和专利信息在产生和形成过程中会形成各种网络关系,这些网络关系可以归为两类,即共现关系网络(包括专利发明人和专利权人合作网络、共类网络、关键词共现网络等各种专利外部特征形成的关系网络)和引证关系网络(包括专利共被引和耦合网络)。利用各类专利关系网络可以有效进行专利技术信息挖掘,并可以揭示技术演进路径[7-8]、挖掘关键技术子群[9],预测技术发展趋势[10]、分析技术发展态势[11-12]、验证技术创新网络[13]、绘制产业技术路线图[14]等。
(2)基于信息抽取的专利技术信息挖掘方法。专利文献的信息抽取是指将体现专利技术信息的结构化信息从非结构化的专利文本中抽取出来以构建结构化语义模型的过程。信息抽取是技术信息挖掘的基础,主要包括术语抽取和术语关系抽取两个部分。专利技术术语及其关系抽取质量直接影响专利技术信息挖掘的效果。用于专利术语抽取的方法和算法很多,如基于分词和词性标注的抽取方法[15]、基于专利术语边界标记集的抽取方法[16]、基于向量机(Support vector machine,SVM)的抽取方法[17]等。用于术语关系抽取的方法和算法较少,如基于维基百科特征关系模板、上下文向量相似度和向量机器学习识别上下位关系的抽取方法[18],基于相对修饰度识别上下位关系的抽取方法[19]等。
(3)基于聚类的专利技术信息挖掘方法。专利聚类常用的方法有层次聚类[20]、K-means聚类[21]、神经网络[22]、自组织映射[23]和多维尺度分析[24]等。另外,也可以利用专利特征信息共现、引用、共引和同被引关系等进行聚类[25-27]。其中关键词共现常被用于技术主题聚类和识别,是专利技术信息挖掘的重要方法[28-31]。
(4)基于分类的专利技术信息挖掘方法。专利分类主要有分类器和基于TRIZ理论的分类两种。分类器是一种专利自动分类工具,目前有基于KNN算法[32]、基于文本挖掘[33]、基于神经网络(RBFNN)算法[34]、基于SCS和ACS及决策树算法[35]、基于主动学习[36]、基于遗传算法(HGA)等的专利自动分类器。TRIZ(Theory of Inventive Problem Solving)理论是一种解决发明问题的框架,目前有基于TRIZ理论及用户与规则[37-38]、基于发明原理间相似性[39]、面向显性发明原理的专利自动分类[40-41]等。
常用的专利技信息挖掘工具主要包括两大类:面向英文专利技术信息挖掘的工具,如TDA分析系统、Thomson Innovation(TI)分析系统、Innography、OpenRefine等;面向中国专利技术信息挖掘的工具,如专利信息分析系统(PIAS)、东方灵盾中外专利分析平台、PatentEX、Patentool等。这些工具各有其优缺点,如表1和表2所示。
TDA、TI、Innography属于商业性专利技术信息挖掘工具,无论是在统计分析和引证分析方面,还是在文本挖掘和数据挖掘方面都比较成熟。此外, OpenRefine、BibExcel、Node XL、VOSviewer等面向英文的专利技术信息挖掘工具还可以解决专利数据清洗问题[42]。
我国的专利技术信息挖掘工具主要是基于专利特征信息统计分析的挖掘工具,在引证分析、文本挖掘和数据挖掘等方面都还存在欠缺。
文章的专利数据来源于中国知网的专利数据库,在专利名称字段中输入“行李箱”,IPC分类号限定为“A45C”,将专利申请日期设定为1987年1月1日至2016年12月31日,去掉“外观设计”专利,获得行李箱相关专利1 737条。将1 737条专利数据按5年一个时间段从数据库中分别用Refworks格式、Endnote格式和引文格式导出,便于专利分析和文本挖掘。
表1 国外专利技术挖掘工具
表2 国内专利技术信息挖掘工具
目前,国内外具有代表性的开源专利技术信息挖掘工具主要有Weka、LingPipe、 LIBSVM和ROST CM等。其中ROST CM6是由武汉大学ROST团队开发,并对中文专利技术信息挖掘支持性最好的工具[43]。因此,文章以ROST CM6为基础,结合Citespace对中文专利技术信息进行深度挖掘和实证分析。
1990—2016我国行李箱专利申请趋势如图1所示。由图1可知,从1990年到2016年26年间我国行李箱专利申请总量不大,2010年以前各年专利申请量都很小,处于平稳发展期。这主要是因为:一是我国行李箱市场需求不大,二是专利申请意识不强。2000年到2002年专利申请量有小幅增长,随后又回落到之前的水平,这说明传统的行李箱市场已经饱和,原有的行李箱技术已趋成熟,尚未出现新的技术增长点。直到2010年,行李箱专利申请量开始出现持续快速增长趋势,进入高速发展期。这主要是因为用户需求变化和新技术突破所致。
图1 我国行李箱专利申请趋势
将1987—2016年我国行李箱专利申请类别按5年一个时间段进行统计分析,如表3所示。为了更清晰地反映我国行李箱专利技术发展趋势,除了统计发明专利和实用新型专利外,还设计了实用新型与发明专利比这一指标,用于体现技术生长和技术成熟度。
从表3可以看出,行李箱实用新型专利申请量远远多于发明专利,实用新型专利从第一个5年到第三个5年都处于持续增长期,说明该领域技术改进占据主导。第四个5年实用新型专利申请所有下降,表明行李箱技术趋于成熟,尚未找到新的突破点。之后,实用新型专利申请量出现持续高速增长态势。而发明专利在前四个5年期都处于平稳发展状态,之后也开始持续快速增长,说明我国行李箱技术适应市场需求找到了新的突破口,行业发展也进入到了一个新的发展时期。实用新型专利申请量增长速度高于发明专利申请量,表明该技术、市场和产业成熟度不断提升。
表3 我国行李箱专利申请类别统计表
利用Excel的分类、汇总、统计功能将省区地理字段抽出,得到我国行李箱专利申请主要省区分表,如表4所示。
从表4可以发现,1992—2011年间,台湾、广东和北京三地行李箱专利申请最多,重点是行李箱结构和功能。而近10年来,沿海省份,如江苏、广东、浙江、上海、福建等,成为行李箱研发的主力军,发展最为迅速。沿海地区在技术、市场、人力、资源等方面有得天独厚的区域优势。
表4 我国行李箱专利申请主要省区分布
将从中国知网专利数据库中导出的Refworks格式专利数据导入Citespace,抽取“Author(作者)”字段(分析前务必将“FD”字段替换为“YR”字段),生成专利发明人合作网络图谱。如图2所示。观察各时间段的专利发明人合作网络,都比较松散,没有形成规模较大且有影响的发明合作群体。只有2012—2016年的发明人合作网络中出现了5个较为明显的专利发明人合作群体,最大的发明人合作群体是以黄定为代表的7人研发团队,重点技术研发领域是智能行李箱及包含移动平台的行李箱。第二大合作群体是以徐静为代表的6人研发团体,研发重心是自动控制和智能行李箱。其他3个合作群体都比较小。可见,我国的行李箱技术创新以个体独立研发为主,这可能与行李箱产品的结构简单、功能单一等特征有关。随着科学技术的发展以及人民需求的多样化,智能、多功能行李箱技术将成为技术创新和研发的重点,个人研发、独立作战将难以适应,团队合作、集体攻关将成为常态。
图2 2012—2016年行李箱专利发明人合作网络
用ROST CM6在进行专利申请主题分析之前,必须进行分词和抽词,否则显示的结果为乱码。
(1)分词。将导出的Endnote格式的专利文本数据进行“取消自动换行”设置,保证每个字段一行,确保专利名称、摘要等字段按行抽取。为了节省时间同时又能保证准确率,先用在线随机数生成器抽取200条专利申请数据构建语料库,然后再用200条专利申请数据进行测试,并补充语料库;最后对所有专利申请文本中的摘要进行分词。分词后,将六个5年的单个文档合并,复制粘贴到Word文档中,用“查找替换”功能对分词结果进行修改,主要是修改结构、技术、功能等方面的术语。
(2)抽词。在ROST CM中选用“辅助词群抽取”,对专利申请摘要中的术语进行抽取。先建立名为“%AB”的文本文档(TXT格式)作为词群文档,正文为“% AB”,是摘要字段分词后的结果。
(3)主题分析。修正分词并抽取摘要后,对每个时间段的摘要进行词频统计,然后使用“标签云”构建语义网络并进行可视化展示。如图3、图4、图5、图6和图7所示。在使用“标签云”时,可通过系统自带的、可编辑的“highfreinvalid”文本文档过滤掉无实际意义的词,以利于语义网构建和可视化展示。建议将“highfreinvalid”文本文档复制一份并另命名,如“highfreinvalid-1”,用于存放在任何领域均无实际意义的词,如“虽然”“但是”等,作为停用词。而“highfreinvalid”用于存放该技术领域有意义的词,如“行李箱”等。在进行语义网络构建时会自动使用“highfreinvalid”的文档,可以避免修改。备份文档可用于其他领域分析时补充扩展。
图3 1987—1991年行李箱专利语义网
图3表明,1987—1991年共申请了4件行李箱专利,早期的行李箱技术主要集中在行李箱构造以及稳固上,骨架、外壳和展开是行李箱构造的三个重要方面,而其中行李箱中央位置的刚性最受关注。
图4表明,1997—2001年间行李箱技术快速发展,出现了更多的行李箱专利术语,重点集中在“拉杆”“把手”“上锁”“伸缩”等方面的设计,以及“定位”“控制”“容量”等功能的改良方面,且术语在之后的15年中始终有较高的频次。
图4 1997—2001年行李箱专利语义网
图5表明,2002—2006年间行李箱技术重点在对行李箱功能进行改进方面。如果过滤掉一些如“行李箱” 等常见的高频词(分辨度小的词汇)后生成专利术语标签云可视化图,可以显示出一些新的行李箱技术领域。黑色框中的术语是这一时间段行李箱技术领域重点关注的专利申请动向,如“刹车”“弹簧”“减震”“折叠”“组装”“省力”“连接”等。而行李箱结构方面的技术已经成熟,这些词成为常用词出现,没有了分辨意义,因此可以过滤掉。
图5 2002—2006年行李箱专利术语的标签云
图6 2007—2011年行李箱专利术语的标签云
图6表明,2007—2011年间行李箱技术领域掀起“多功能”行李箱热潮,各种创新的功能组合涌现。黑色框中的“休息”和“座椅”,“楼梯”和“台阶”,“重量”和“防水”等功能,甚至出现了趣味性的“滑板”功能。市场需求表现多样化趋势,行李箱专利申请量也明显增加,实用新型专利申请量从第四个5年的90件激增至234件。与此同时,对行李箱 “拉链”等结构,以及“折叠”“支撑”“控制”等功能仍受到一定程度的关注。此外,“电动机”“充电”等一些新词汇出现,预计这些术语可能成为下一个5年的技术热点。
在知识经济时代,技术创新已成为企业发展的核心竞争。图7表明,如果去掉一些结构和功能方面的、常见的、高频且无分辨意义的术语后发现,2012—2016年间行李箱专利技术主要集中在电动、智能、安全、多功能等方面(用长方形直角框标注)。其中电动方面术语有“电机”“电源”“充电”等,智能方面的术语有“无线”“智能”“传感器”“信号”“电子”等。在当今信息技术高度发达的信息时代,智能化是行李箱技术发展的必然趋势。安全方面的术语有“防盗”“安全”“密码锁”“报警”等。安全功能贯穿整个行李箱的技术生命周期,在各个阶段都受到重点关注。因为消费者的安全需求对行李箱技术的发展起着决定性作用,可以预见,将来结合新技术的行李箱的安全设计仍会是专利申请的重点。多功能方面的术语有“滑板”、“重量”显示、爬“楼梯”等,但重要性下降,居于次要地位。此外,还出现一些新的术语,如“材料”“芯片”“手机”(用椭圆标出)等,会成为下一阶段行李箱技术创新的核心。将来行李箱可能会内置智能芯片或与“手机”等移动设备紧密结合,产生更加智能化、便捷、安全的多功能行李箱。随着国际市场竞争的加剧和新技术的挑战,我国的行李箱技术领域还有广阔的拓展空间。
图7 2012—2016年行李箱专利术语的标签云
目前专利技术信息挖掘的方法主要有专利特征元素统计分析、专利文本挖掘、专利数据挖掘(关联规则挖掘)、专利地图挖掘等,并涌现出大量成熟的专利数据库和专利分析工具,如德温特专利数据库(DII)及分析工具TDA,但这些分析工具不能分析中国的专利数据。我国国内也产生了一些专利分析工具,可以完成结构化的基本专利信息分析并提供可视化结果,但不能提供精确的专利分类分析以及从非结构化专利摘要和权利说明书中进行文本分析、关键词分析等功能。因此无法开展深入有效的专利技术信息挖掘。因此,找到一套合适的可以对中文专利摘要和权利说明书进行文本分析的方法与工具,并挖掘其中潜藏的技术信息具有重要的应用价值。
使用ROST CM6对专利文献中的技术信息进行挖掘,可以直接深入分析专利文本中的名称、摘要、权利要求书等内容信息,明确专利技术研发的重点。但ROST CM6也存在一些缺陷,如由于专利摘要中的信息过于细致,从而导致信息杂乱而分散,影响分析和判断的精确性,如果在分词过程中有类似于Mesh词表这样的专利技术术语表进行规范的话,会大大提升分析精度。
(来稿时间:2017年7月)
参考文献:
1. Alan L. Porter, Cunninggham S. Tech mining: exploiting new technologies for competitive advantage [J].John Wiley & Sons,2005:17-23.
2.吕详惠,仇宝艳,乔鸿,等.基于本体的专利知识发现体系研究[J].计算机与信息技术,2008(7):43-46.
3.马天旗.专利分析方法、图表解读与情报挖掘[M].北京:知识产权出版社,2015 .
4.杨铁军.企业专利工作实务手册[M].北京:知识产权出版社,2013 .
5.董新蕊,朱振宇.专利分析运用实务[M].北京:国防工业出版社,2016.
6.文庭孝.专利信息计量研究综述[J].图书情报知识,2014(5):72-80.
7.范维熙,费钟琳.基于德温特专利引文网络的技术演进路径研究——以太阳能电池技术为例[J].情报杂志,2014(11):62-66.
8.刘小玲,谭宗颖.基于专利网络的技术演进研究方法探索[J].科学学研究,2013(5):651-656, 731.
9.周磊,杨威.基于专利IPC的技术知识流网络挖掘[J].现代情报,2016(1):45-50.
10.张昕,姜马.基于专利技术共现网络的产业共性技术遴选研究——以我国生物产业为例[J]. 中国科技论坛,2015(1):73-77.
11.翟东,孙武,张杰,等.基于动态网络分析的LTE TDD技术专利分析[J].情报杂志,2014(7): 63-69, 43.
12.李登杰,崔东升,冯秀珍,等.基于动态网络的石墨烯专利技术分析[J].情报杂志,2015(10):52-58, 33.
13.刘晓燕,阮平南,李非凡.基于专利的技术创新网络演化动力挖掘[J].中国科技论坛,2014(3):136-141.
14.刘彤,侯元元,吴晨生.多重关系专利网络分析方法在产业技术路线图的应用[J].情报杂志,2015(3):65-70, 76.
15.曾镇,吕学强,李卓.一种面向专利摘要的领域术语抽取方法[J].计算机应用与软件,2016(3):48-51.
16.丁杰,吕学强,刘克会.基于边界标记集的专利文献术语抽取方法[J].计算机工程与科学,2015(8):1591-1598.
17.陈忆群,周如旗,朱蔚恒,等.挖掘专利知识实现关键词自动抽取[J].计算机研究与发展,2016(8):1740-1752.
18.曾镇.专利本体中术语及术语间关系抽取研究[D].北京:北京信息科技大学硕士论文,2015.
19.李军锋.专利领域本体学习方法研究[D].北京:北京信息科技大学硕士论文,2015.
20.蔡爽,黄鲁成.基于聚类分析的专利申请组合研究[J].科技管理研究,2009(4):269-271.
21. Kejzar N, Korenjak Cerne S, Batagelj V. Clustering of distributions: A case of patent citations[J]. Journal of Classification,2011, 28(2):156-183.
22.田冬阳.基于M3-DGMF的专利数据聚类方法研究[J].计算机应用与软件,2013, 30(3):297-303.
23. Huang Suhsien, Ke Haoren, Yang Wei pang. Structure clustering for Chinese patent documents[J].Expert Systems with Applications,2008, 34(4):2290-2297.
24.郝智勇,贺明科,谭文堂,等.基于多维标度法的专利文本可视化聚类研究[J].计算机应用研究,2010, 27(12):4606-4607.
25. Chang Shann bin, Lai Kuei kuei, Chang Shu min.Exploring technology diffusion and classification of business methods: Using the patent citation network[J].Technological Forecasting &Social Change, 2009, 76(1):107-117.
26. Lai Kuei kuei, Wu Shiao jun. Using the patent co-citation approach to establish a new patent classification system[J].Information Processing and Management,2005, 41(2):313-330.
27.李睿, 张玲玲,郭世月.专利同被引聚类与专利引用耦合聚类的对比分析[J].图书情报工作,2012, 56(8):91-95.
28. Kang I S,Na S H, Kim J. Cluster-based Patent Retrieval[J].Information Processing& Management, 2007, 43(5):1173-1182.
29. Kim Y G, Suh J H, Park S C. Visualization of Patent Analysis for Emerging Technology[J]. Expert Systems with Applications, 2008,34(3):1804-1812.
30. Wang M Y, Chang D S, Kao C H. Identifying Technology Trends for R&D Planning Using TRIZ and Text Mining[J].R&D Management, 2010, 40(5):491-509.
31. Yoon J, Kim K. Detecting Signals of New Technological Opportunities Using Semantic Patent Analysis and Outlier Detection[J].Scientometrics, 2012, 90(2):445-461.
32. 苑迪文.基于KNN的专利文本分类算法研究[D].焦作:河南理工大学硕士论文,2012.
33.马芳.基于神经网络的文本挖掘在专利自动分类中的研究与应用[D].淄博:山东理工大学硕士论文,2009.
34.梁静,徐亮,程文堂.机器学习算法在药物专利分类中的应用研究[J].计算机与应用化学,2007, 24(10):1341-1344.
35.叶志飞.并行化最小最大模块化支持向量机及其在专利分类中的应用[D].上海:上海交通大学硕士论文,2009.
36. Zhang Xiao yu. Interactive patent classification based on multi-classifier fusion and active learning[J].Neuro computing,2014, 127(1):200-205.
37. Loh H, He Cong, Shen Li xiang. Automatic classification of patent documents for TRIZ users[J]. World Patent Information,2006, 28(1):6-13.
38. He Cong, Loh H. Pattern-oriented associative rule-based patent classification[J]. Expert Systems with Applications, 2010, 37(3):2395-2404.
39. He C, Loh H T. Grouping of TRIZ Inventive Principles to Facilitate Automatic Patent Classification[J]. Expert Systems with Applications, 2008, 34(1):788-795.
40.翟继强,王克奇. 依据TRIZ发明原理的中文专利自动分类[J].哈尔滨理工大学学报,2013, 18(3):1-5.
41.袁力,陈阳,赵勇.面向TRIZ理论使用者的多标签专利分类[J].计算机科学,2013(11):255-258, 266.
42.彭茂祥,李浩.基于大数据视角的专利分析方法与模式研究[J].情报理论与实践,2016(7):108-113.
43.张雯雯,许鑫.文本挖掘工具述评[J].图书情报工作,2012(8):26-31, 55.