段庆峰+蒋保建
[摘要]SAO三元结构具有易于理解和表达的语义关系,将其作为挖掘分析的基本单元,深度分析专利文本蕴含的技术语义有助于揭示技术功效关系。从SAO结构的定义及特征出发,提出了基于SAO结构的专利技术功效图构建的思路、流程及方法,采用基于SAO结构的共现关系构建技术功效矩阵,探讨了基于SAO结构的技术主题、功效主题分析方法。通过石墨烯传感器领域为例的实证研究验证了方法的有效性。
[关键词]专利;技术功效图;SAO结构;主题聚类
DOI:10.3969/j.issn.1008—0821.2017.06.008
[中图分类号]G255.53 (文献标识码]A [文章编号]1008—0821(2017)06—0048—07
作为外界公开的技术知识产权信息载体,专利是目前最常用和有效的有价值技术内容获取来源途径。如何有效分析和理解海量专利大数据中的技术本质是科技研发人员及有关管理决策者面临的重要问题。在各种技术分析和管理工具中,技术功效图具有表现直观、语义清晰的优点,是应用广泛的专利分析手段。技术功效图的完成并不是一件简单和容易的工作任务,工作量大、依赖专家、技术的复杂性等都制约了其绘制的效率和效果。
准确而高效地界定、识别专利的技术和功效维度特征是构建技术功效图的關键环节,自然语言处理、专利语义识别、数据挖掘、数据可视化等技术与工具已经成为支撑技术功效图自动或半自动化构建的基础。比如,王丽等提出了基于文本挖掘技术的主题词自动标引方案,以此为基础说明了具有自动化特征的技术功效图构建系统Patent-TEM。陈颖等从专利文本的结构分析出发,借鉴TRIZ理论中的物一场模型,提出了识别专利文本中技术与功效部件的方案,归纳了技术词与功效词的识别规则。翟东升等将数据仓库、大数据分析框架应用于技术功效图构建,从数据组织及计算框架的角度分析了技术功效图中的关键技术。陈颖等提出了面向技术功效矩阵构建的词汇模型,能较好满足专利技术功效矩阵分析的多技术主题、分析任务临时性强、主题范围可选等特点。尽管基于文本挖掘分析的技术功效分析框架获得了一定程度进展,但如何准确界定、理解技术词汇依然较为困难,需要能够解析文本词语背后所表达的潜在技术特征及内涵。进一步,深度的技术语义分析和理解是提升和优化技术功效分析系统的重要基础。
近年,学者开始关注专利文本中的SAO(Subject-Ac-tion-Object)结构特征,为识别出隐含的技术语义提供了一种研究途径。通常的主题词标注方法将技术与功效属性分别抽取与识别,可能忽略了内在的关联性。SAO不但显式地包含了技术主题,而且保持了技术属性间的内在关联,蕴含了有价值的技术性启发信息。基于SAO结构的技术语义分析已被迅速应用到多个应用领域,例如R&D合作伙伴识别、技术路线分析、技术形态识别、技术预测、技术演化、技术机会等。理论上,TRIZ理论凝练了发明创新的一般原理,提供了认识技术内在本质的思维视角,同SAO语义分析技术相结合,形成了面向技术创新分析的语义TRIZ分析框架,能够借助于语义关系映射并揭示出技术要素间的内在关系和动态。
面对大数据分析的需求,尽管有学者及分析人员探索技术功效图构建的自动化或半自动化解决方案,但依然面临语义模糊、分析效果不佳的困难。文本分析的范畴中,共现关系是分析技术与功效要素之间内在关联的常见方法,但简单的共现关系并不能等同于两者之间存在技术语义联系,比如共同出现在一个句子中的技术主题词与功效特征词可能没有直接语义关系。以句子或段落为单元的技术与功效要素共现计数可能会高估两者间的语义关联性。而从语义结构的角度开展分析,能够在很大程度上解决上述问题。一方面,SAO结构为理解深入技术功效本质提供了丰富的语义信息;另一方面,相对与基于全文或句子的分析,SAO结构提供了一种更为细粒度的语义结构,有助于更为深入地挖掘和理解专利文本中蕴含的技术内涵。
纵观有关文献,通过SAO技术语义分析手段指导技术功效图构建的研究还很缺乏。深入分析数据中隐含的技术语义特征能够很大程度上提高技术特征识别效果。因此,本文拟将语义TRIZ的分析框架应用于技术功效图的构造,通过SAO结构更加准确地发现专利数据中的技术一功效关系,进而促进该工具的更广泛应用。
1构建方法
1.1 SAO语义结构
SAO结构由三元组(Subject、Action、Object)构成,从句子语法结构看,SAO三元组可以对应句子中的主语Sub-ject、谓语Verb和宾语Object结构;从语义的角度,S和O可以代表系统的组件或技术,A用来描述如何实现功能。通常,句子中S和O表现为名词短语,A表现为动词。特定的S-A-O组合反映了技术系统的内在关系及特征。如果能够从句子中抽取出的三元结构,分析S、A、O在专利句子中的共现模式,则可以进一步推断技术要素间的关联。
SAO语义分析有助于理解技术系统的结构及功能。在一些场景下,SAO结构被理解为问题一方案(Problem-So-lution)模式,S代表有待解决的技术问题,AO代表问题的解决方法和可能,PS语义模式直接地给出了技术需求与技术解决方案的线索。进一步,有学者细分SAO结构的语义类型,比如:问题(Problem)、方案(Solution)、功能(Function)、效果(Effect)。SAO三元结构的组合可能代表了不同的技术特征模式,例如:问题P或方案s语义类型的SAO结构中,S或O可能代表技术或系统部件;功能F或效果E语义类型的SAO结构中,AO组合则可能代表技术的功能、状态及效果。
技术功效图由技术和功效构成了二维技术空间,快速而准确地凝练出技术主题与功效主题,并发现二者的语义关联是关键。技术与功效词语内嵌在SAO结构之中,SAO的语义结构为发现技术功效内在关系提供了良好的途径。技术词语与功效词语的抽取及凝练可以建立在SAO基础之上,根据其特定的语义类型,可以解析得到技术功效关系。
1.2一般流程
从SAO结构分析出发,本文提出了采用文本挖掘技术构建技术功效图构建一般流程,划分为6个阶段,如图1所示。
1)选取有关专利数据库,采集专题技术领域专利文本信息。各个国家都有相应的开放性专利检索系统可以作为专利数据源,例如美国专利数据库USPTO、欧盟专利数据库ESPTO、中国专利数据库SIPO。专利文本中包含丰富的结构化信息,尤其专利摘要包含了重要而精简的技术内容,是本文中抽取SAO结构的来源。
2)SAO结构的抽取及语义标注。采用自然语义处理NLP技术,从专利摘要文本中抽取SAO技术三元组,通常的软件包都可以满足一般应用需求。分类并标注SAO结构通常可以依据线索词的特征进行识别,尤其SAO三元结构中的Action的词性及含义。比如,Increase、Low、Reduce、Great等是常见的表征技术效果词语,Function as、Use as等则表达了技术功能。通过线索词可以初步筛选出SAO结构的语义类型,进一步结合专家意见可以识别技术的效果、功能及用途等。
3)建立技术与功效词库。借助于SAO结构的语义标签,从中分别抽取出代表技术与功效的词语,过滤后形成词库。技术词语通常表现为名词,可以由SAO结构中的S和O中抽取。功效词通常是动词或形容词,可以由代表功能或效果的SAO结构中抽取A或AO组合。技术词及功效词的过滤及筛选可以结合专家意见及语义分析手段,分析备选词语与技术领域核心词语的语义关系,通过多轮动态优化,形成精炼的词库。
4)技术和功效主题凝练。词库中的技术词语与功效词语可能数量庞大而杂乱无章,甚至包含噪声数据,需要进一步的主题提炼。本文中技术主题与功效主题采用类似的凝练策略,即基于网络关系的主题聚类;但是,两者采用了不同的网络构建技术。针对技术词语,根据技术词语在SAO结构的分布特点,分析技术词语在SAO结构中的共现关系,构建技术共现网络;针对功效词语,根据功效词语在WordNet词典中的语义关系,分析功效词语的语义相似度,依据技术词语的语义距离构建功效词网络。以技术词语和功效词语为节点构建的网络可以为主题聚类分析提供依据?基于网络关系的聚类分析可以揭示出技术词语和功效词语的内部关系,结合专家意见,凝练得到技术和功效主题。
5)技术功效矩阵构建。技术主题与功效主题分别构成了技术功效矩阵的两个维度,矩阵中的每个单元格内容代表了该位置对应的技术主题、功效主题的共现专利个数。这里,共现关系的计算借助于SAO结构。如果某技术主题和功效主题共同出现在同一SAO结构中对应位置,则认为有1个专利的某技术主题具有相应的功效特征。显然,通过SAO语义结构能够更为有效地分析技术和功效的关系。
6)选取合适的绘图工具,依据技术功效矩阵内容,进行定制化的技术功效图绘制。
1.3关键技术
1.3.1技术主题
技术主题可以借助聚类方法,从数量庞大的技术词语中分析得出。通常认为,如果两个技术词语共同出现的频率越高,则它们的语义可能越接近。本文中的共现关系定义以SAO三元结构为基础,相对于基于专利文本全文的共现关系,更能细致而准确地展现出技术词语的语义联系。针对某个三元组(Subject、Action、Object),如果技术词语T1和T2分别出现在同一SAO三元组的Subject和Object中,则定义T1和T2存在共现关系。
2实证研究
2.1数据准备
选取石墨烯传感器为研究技术领域,采用自编Python程序抽取美国专利数据库USFID中的有关专利内容。专利的检索策略采用关键词匹配的方法,检索专利标题及摘要中同时包含“Graphene”和“Sensor/Sensors”的专利集,检索表达式为“ABST/(Graphene AND(Sensor OR Sensors))”。检索时间为2016年8月,剔除无关专利,最终得到51条结果
2.2 SAO结构语义类型分析
采用斯坦福大学推出的开源软件Open IE,对专利数据摘要文本进行分析。该软件包采用Java语言编写,采用自然语言处理技术,从英文文本中抽取SAO三元结构。运行软件,分析得到158条SAO结构,部分结果如表1所示。根据三元结构中Action部分的词语特征,可以对原始SAO三元结构进行初步语义标注。例如,专利9178129中分析得到两条SAO结构,其中一条Action属性为Increase,而Object属性为Response,反映了响应时间增加的含义,是典型的效果语义类型;而另一条Action属性为Use as,反映了技术的用途,表达了功能语义。通过分析SAO三元结构集合中Ar-tion属性词语,基本可以较好地归纳出P、S、F、E 4种语义类型,其中代表E语义类型的SAO结构更适合于功效词语的研究,其中蕴含的语义信息可用于技术功效图的构建。
2.3技术、功效主题聚类
借助SAO三元结构的不同语义类型,有助于抽取技术词语。对于体现效果E模式的SAO结构,Subject可能代表了技术或系统部件;对于其它3种语义类型的SAO结构,Subiect和Obiect中可能代表了技术或系统部件。因此,技术词语可以从这些相应的语义结构中进行抽取和分析。通过自然语义处理NIP方法,技术词语可以由这些内容中分析得到,通过分词、词干还原、去除噪音等处理过程得到技术词语。本研究抽取了出现频率大于4次的词语,经过过滤,得到253条技术词语,构成技术词库。
為了凝练出技术主题,对技术词库中的技术词语进行可视化聚类分析。技术词语作为网络节点,技术词语在SAO中的共现关系为边,构建无向加权图。网络构建前,删去了某些特定的高频但并缺乏具体技术语义的词,例如“Graphene”、“Sensor”等。为了便于展示,删去了权重小于0.01的边,然后提取出最大连通子网,选取可视化软件包Pajek输出网络,采用Kamada-Kawai布局算法,最终结果如图2所示。
显然,观察分析技术词语的分布关系,可以发现形成了4个大的技术聚类。聚类1代表了石墨烯光学传感器主题,聚类2代表了石墨烯压力传感器主题,聚类3则属于石墨烯传感器传感技术的一般性原理。相对其它聚类,聚类4的分布更为稠密和更高的连通性,进行一步将其细分为2个子聚类。子聚类Ⅰ代表了石墨烯气体及环境传感器主题,子聚类Ⅱ代表了石墨烯电传感器主题。
聚类分析重点考查了最大连通子网,但可能漏掉某些重要的词语节点。因此,结合有关技术文献及专家意见,进行一步分析最大连通子网络之外其它词语,新增两个主题一石墨烯化学传感器和石墨烯磁性传感器。最终,技术主题归纳为石墨烯气体传感器、石墨烯磁性传感器、石墨烯化学传感器、石墨烯电传感器、石墨烯压力传感器、石墨烯光学传感器、材料、通用方法。
为了凝练出合理的功效主题,分别抽取出SAO三元组中的A和AO模式作为网络节点,计算节点间的语义相似度,进行语义聚类分析。
抽取所有SAO三元组中的动词(A)部分,选取高频率出现的前100个作为节点,按照公式(2),通过多次实验选取阈值δ为0.9,计算它们之间的语义相似度,删去语义相似度小于0.2的节点之间的连边,构建功效词语义距离网络。为便于展示,抽取其中的最大连通子图,采用Kamada-Kawai布局算法,结果如图3所示。通过观察,可以大致归纳出6个聚类。聚类3凝聚了最多比例的表达功效含义的词语,例如降低(be low in)、兼容性(be compara-ble with)等,聚类1中分布了少量的表达功效的词语,例如增加(increase in)。其它聚类则更多地包含了表达问题、方案、结构、整体部分等含义的词语,例如聚类4代表了系统部件的包含关系,聚类2、5和6代表了技术或部件的功能。因此,应该重点从聚类1和2中去筛选词语,进而结合有关信息分析和凝练出恰当的功效主题。
抽取SAO三元组中的AO组合作为节点,按照公式(1)计算节点的语义相似度,其它按照与图3类似的构造思路及过程,构建语义网络,结果如图4所示。通过观察,亦可以大致归纳出6个聚类。图中的聚类2基本包含了大部分表达技术或部件效果的词语,其它聚类(如聚类1)存在个别的功效词语,但基本代表的是技术的方案、部件间关系等主题。可以看出,图3与图4具有良好的对应性,尤其图3中的聚类3与图4中的聚类2具有高度的一致性,说明通过A和AO组合构建的两个网络得到的分析结果比较稳定和可靠。深入分析图3中聚类2词语,结合有关技术文献,综合归纳出9个功效主题,具体包括高传导性、低能耗、低成本、体积小、敏感性、可靠性、高性能、易用性、宽频带。
2.4技术功效图绘制
采用公式(4),计算8个技术主题与9个功效主题组合的出现频次,得到技术-功效矩阵,通过Excel输出结果,如图5所示。总体上,石墨烯传感器的发明创新还处于初始阶段,专利申请的数量不多,研究较多集中在石墨烯传感器的导电性及高性能方面,尤其在导电膜泵方面的研究最为热门。更多的专利内容集中在石墨烯传感器的基本原理及方法层面,在特定的具体应用实践中的研究有限。虽然新型的石墨烯材料在传感器方面具有显著的优势和极大潜力,但作为典型新兴技术领域,技术还需进一步向成熟进化.专利的整体布局上还存在很多薄弱甚至空白区域。通过技术功效图,有助于科技决策者从宏观上理解和把握石墨烯传感器领域的研发热点及技术机会。
3结论
本文通过分析专利文本中的SAO结构,提出了新型的技术功效图的构建方法。具体地,从思路、流程、方法方面开展了系统探讨,并以石墨烯传感领域为例进行了实证分析,验证了方法的有效性。该解决方案综合了文本挖掘及语义分析手段,能够从专利大数据快速抽取、分析和凝练出技术和功效的二维属性特征及关系,形成的专利深度语义挖掘分析体系不但能够用于技术功效图绘制,而且扩展后也可以应用于其它技术创新分析应用。
该方法的特点在于将SAO结构分析引入基于文本挖掘的专利分析框架。一方面SAO作为反映技术特征关系的基本单元,所蕴含的语义信息为深度技术分析提供了基础;另一方面,相比于全文或句子,SAO結构提供了更为细粒度的分析单元,引致的共现分析也更为准确和有效。不足之处在于分析效果一定程度上依赖于自然语义处理NLP的分析结果,比如SAO结构的抽取分析及主题词的凝练,而且主题的凝练具有一定主观性,需要借助专家经验。后续研究需要开展SAO结构的深度语义分析,对主题的提炼进行优化。