文/李 更 汪 凯 邹中华(安徽省科学技术情报研究所)
构建融合TRIZ 的专利信息检索分析系统是一个具有发展前景的思路,近些年国内外有一些相关研究文献的报道。如河北工业大学的江屏、王川等人利用IPC 聚类分析与TRIZ 结合,可以满足一些专利规避设计需求[1];四川大学的李睿、萨日娜等人在新能源汽车充电技术的研发中实现了基于TRIZ 的专利信息组织[2];中国科学院成都文献情报中心、中国科学院大学等单位的胡正银、刘春江、隗玲等人分析了3 种典型的专利分析工具,指出其都存在对专利技术内涵的揭示不足的问题[3];东北林业大学的王克奇、于江涛等人认为通过挖掘专利说明书所涉及的创新方法,可以启发新的创新[4];Choi S、Kang Dongwoo、Lim Joohyung等人优化了基于功能的文献检索方法FOS(Function—Oriented Search)[5];安徽省科学技术情报研究所的研究团队也曾就将TRIZ 创新流程与专利检索相结合以辅助创新,提出过自己的设想[6]。可以看出,专利信息服务以数据库为核心,而专利分类法作为专利分类的依据,是专利数据库收集和管理专利信息的基础。因此将TRIZ 理论引入专利分类法,对专利信息进行标引,形成基于TRIZ 理论的专利知识库,能够更好地发挥专利检索对创新研发的支撑作用。
TRIZ 理论创新方法与专利信息相结合,就是要提取专利文本中技术方案所运用的原理、手段和改进的参数、功能,这是现有的专利检索系统所挖掘不到的。建立TRIZ 理论和专利信息的融合模型如图1 所示,具体环节为:将专利文献进行文档格式转换,生成本地文件,将专利号、申请日、摘要、权利要求、IPC 分类等专利基本信息分段存储。深入阅读专利文献中权利要求、说明书、实施方案等关键技术描述,理解专利所涉及的技术手段、原理方法、实现的功能等隐性技术内容。运用TRIZ 理论重新解读专利,确定现有技术所存在的矛盾参数,提炼出专利技术可能涉及的创新原理,将专利中蕴含的创新思维与技术手段用TRIZ 理论的形式呈现出来。将上述环节提取的专利文献显性技术内容和隐性技术内容,融合到一起,构建基于TRIZ 的专利数据库,并提供技术人员进行检索的入口。技术人员在使用创新方法解决技术问题时,能够通过创新原理、矛盾参数、专利改写等字段对基于TRIZ 的专利数据库进行检索。
图1 基于TRIZ 的专利知识库作用模型
在上述模型的基础上,选取研究的数据既要保证一定的数量,也要考虑数据的稳定性,因此选择某省1985—2014 年的机械、电子类的发明专利(包括失效的发明专利,因为只要曾被授予发明专利,就认为其技术方案对于启发创新是有意义的),总计检索出专利3771 条。
其中标引和复核的准确度打分,由低到高按1 至5 分记分,如果文献难以理解,可标为1 分,如果对标引结果比较有把握,可以标为5分。
专利标引的流程如图2 所示,包括:判断是否具有TRIZ 理论重新解读的可行性——确定专利技术方案的研究对象——针对技术背景及现有方案的不足,确定待解决问题和已有方案的缺陷——确定创新原理、矛盾参数——进行审核,判断是否逻辑自洽——TRIZ 理论改写专利——导入基于TRIZ 的专利数据库。
图2 专利标引流程图
本项目引入闭环管理的理念,进行标引质量控制,确保标引的质量。闭环管理的原理所确定的闭环管理的程序是:确立控制机制——评定活动成效——纠正错误手段——消除偏离标准和计划的情况。为此,我们在数据库中设计了标引人员、审核人员、准确度、复核准确度四个字段。
在人工标引的基础上,技术团队尝试采用基于机器学习的中文文本分类技术实现专利TRIZ 理论的自动标引[7]。
计算机辅助标引的流程如图3所示。
结构化建模模块:主要完成专利文本的非结构化自然语言形态到结构化形态的建模。主要包括:文本预处理、特征提取与选择、语义建模等部分。在准备数据源的时候,专利的摘要部分是可以批量下载的,其它如背景、技术方案等部分不支持批量下载,因此,我们利用专利的摘要部分作为待分析的专利文本。
图3 计算机辅助标引系统框架
训练模块:分类判别的前提是已知若干个样品的类别以及每个样品的特征,在此基础上才能对待测样品进行分类判别,因此对分类问题需要建立样品库。根据这些样品库建立判别分类函数,这一过程是由机器来实现的,称为学习过程,然后对一个未知的新对象分析它的特征,决定它属于哪一类。
训练模块利用机器学习算法对已标注数据进行学习,得到分类判别模型。尝试不同分类器如支持向量机(SVM)、朴素贝叶斯(Naive Bayesian)等,针对TRIZ 原理和工程参数,分别生成三个独立的分类器(分别用于TRIZ 原理、改善参数、恶化参数的分类)。
预测与反馈模块:实现对目标的分类预测,计算出目标属于不同分类的概率。可以根据结果调整特征提取的算法,提高准确率。
在实际研究中,辅助标引与人工标引是同步进行的,在标引过程中,标引的工作人员可以提供对机器标引的逻辑的意见,或者向专业的编程人员提出用户需求、最终目标、修改意见等。
结构化建模模块包括文本预处理、特征提取与选择、语义建模等环节。
(1)训练模块。本项目中,用于训练的分类样本为不同领域的专业人员进行人工标引的专利数据,并且设置了准确度评分标准,因此作为用于机器训练的样本,具有较高的可信度。项目的专利语料库共计2804 篇专利,包含专利摘要和部分专利说明。其中TRIZ 原理有效标注数量为2671 个,改善参数有效标注数量为2266 个,恶化参数有效标注数量为2370 个,测试样本数150 个。
训练模块利用机器学习算法对已标注数据进行学习,得到分类判别模型。尝试支持向量机(SVM)分类器、朴素贝叶斯(Naive Bayesian)分类器,针对TRIZ 原理和工程参数,分别生成3 个独立的分类器(分别用于TRIZ 原理、改善参数、恶化参数的分类)。
(2)分类结果及分析。程序采用Java 语言编写,训练结束后,信息显示框出现测试数据的分类信息(分类类别及可能类别的排序),同时训练文件自动打开,显示分类结果如图4、图5 所示。
通过运行上述程序,分别选用不同的分类器、特征提取方式,分别对TRIZ 原理、改善工程参数、恶化工程参数进行自动分类。得到的分类结果统计如表1 所示。
从表1 中可以看出,从分类器选择的角度看,分别采用SVM 分类器和朴素贝叶斯分类器的情况下,对于TRIZ 原理、改善参数、恶化参数的分类准确度差别不大;从标引正确率的角度看,对TRIZ 原理的自动分类准确度,前5 个类别平均达43%、前10 个类别达64%,具有一定的参考价值。
基于自然语言的分类,天然存在准确性的瓶颈。在本项目中,由于研究时间和工作量的限制,自动分类算法受到一些因素的影响,如训练样本数量不足、分类结果数量多等。在提高标引准确率方面,需要在今后的工作中加以完善的地方包括:改善模型:特征选择、特征权重、参数适当调整;在训练环节采用更多的人工分类的样本;降低分类结果数量,将相近的结果并入同一分类;从专利文献的其它章节(不仅限于摘要)抽取文本进行分析。
在专利标引的研究中,进行了专利标引格式和流程的设计、专利标引结果的质量控制等研究。在待标引的专利数据来源方面,充分考虑了数据的可靠性和完整性;在标引格式设计方面,在专利文献已有属性字段的基础上增加了用于标引TRIZ 信息的若干字段,设定了每个字段所代表的意义,并充分考虑了计算机处理的需求,对字段内容和文本格式做了规范化处理;在专利标引的规则方面,制定了规则并通过咨询TRIZ 理论专家,得到了可行性的认可;在标引结果的质量控制环节,引入闭环管理的理念,采用标引人——审核人机制并辅以客观的质量评分规则,确保标引的质量。
图4 自动标引分类结果界面1
图5 自动标引分类结果界面2
表1 计算机辅助标引分类正确率统计表
在计算机辅助分类的研究中,采用模式识别技术对专利的摘要部分进行基于自然语言的自动分类,分别尝试了不同的分类模型、特征提取模型等,并采用Java 代码实现上述模型,进行了实例验证,基于上述研究,提出了提高计算机辅助TRIZ 分类的准确率的建议。