基于专利的技术机会识别:深度学习领域的案例分析

2021-07-19 07:21王楚涵陶琬莹
科技管理研究 2021年12期
关键词:离群向量专利

杨 辰,王楚涵,陶琬莹,耿 爽

(深圳大学管理学院,广东深圳 518060)

1 研究背景

随着科技和信息水平快速发展,企业的创新能力逐渐成为其竞争力的一个重要衡量标准。作为技术研发和创新的前提,技术机会识别逐渐受到企业的重视。黄鲁成等[1]指出,技术机会可以被划分为某领域前所未有的新技术或是在现有技术基础上改进的新技术,通过对这些技术进行分析,可以为企业提供重要的研发情报和参考方向。

技术机会识别指在特定技术领域内发现潜在的技术趋势和方向,而技术机会的获取和识别往往需要挖掘并分析海量的期刊、专利、报告等数据库,其中专利文献作为技术宝库,承载着人类技术创新的进步与发展,蕴含丰富的技术情报、研究成果和前沿信息;同时,因其具有内容可靠、数据海量、格式规范等优点,在学界和工业界广泛应用。面对海量的专利数据集,仅靠人工判断很难得到全面而客观的结果,因而一些研究借助数据挖掘等手段应用于专利分析,例如卞秀坤等[2]、马婷婷等[3]和冯仁涛等[4]采用专利数据制定研发战略和产品布局,分析一定时期内的技术发展状况和趋势,寻找潜在的技术机会。

异常检测旨在识别离群值,即发现与群体差异较大的个体。常见的异常检测应用包括网络检测、用户异常行为检测等,例如,费欢等[5]基于传感器网络多模态数据,提出了一种对传感器异常数据的检测方法;宋海涛[6]等针对用户行为特点,提出了一种基于模式挖掘的行为检测方法。对于技术机会的识别问题,关杏彬[7]指出早期阶段的技术创新或改进往往区别于主流技术,而这将伴随离群专利的产生。因此,通过异常值检测的手段识别离群专利,有利于识别潜在的技术机会。

为此,本研究采用文本挖掘和异常值检测的方法,帮助企业进行潜在技术机会识别,为企业的技术研发和创新提供方向,并通过实例分析验证该方法的有效性。

2 国内外相关研究

2.1 专利文本挖掘

现阶段专利分析常通过专利统计、计算机等手段对专利文件的信息进行处理和分析,进而收集到有价值的情报以支持决策过程。近年来,文本挖掘技术在专利分析领域得到广泛应用并快速发展,这是因为该技术可以快速、高效处理大批量文本数据,提取和挖掘潜在的信息和模式。如,陈伟等[8]提出一种关键共性技术识别框架,首先采用隐含狄利克雷分布(latent Dirichlet allocation,LDA)主题模型对专利摘要文本进行主题建模,得到详细的技术主题分类,然后利用PageRank 算法衡量技术主题的关键性;Kim 等[9]结合深度学习提取专利文本的特征,以实现专利的向量表示,然后采用深度嵌入的聚类方法实现专利的自动聚类;王京安等[10]提出了基于专利的技术趋势分析框架,引入面向服务的架构(SOA)对专利之间的相似度进行计算,然后采用聚类和专利地图等工具对液晶材料技术领域的技术趋势进行实证分析。

2.2 异常值检测

异常检测方法主要分为监督、半监督、非监督3 种基本方法,这3 种方法的主要区别在于使用标签的程度。徐琴珍等[11]提出了一种有监督的局部决策分层支持向量机检测方法,该方法结合二叉树结构和信息增益准则,实现了在局部决策监督下具有稳定性和有效性的异常检测学习模型。Li 等[12]考虑到真实场景中的标签训练样本有限,将半监督学习方法应用于异常检测系统,利用未标记数据来自动标记数据,节省了昂贵的数据标记成本且通过实验证明该方法优于传统的有监督分类器。但是由于技术机会未知,并无任何标签提前标注,因此识别技术机会常采用非监督的异常检测算法,例如,Wang 等[13]结合基于角度的异常点检测方法和采用可视化工具缓解了词汇不匹配的问题,并可以在高维数据空间对非结构化专利数据进行分析,最终识别出技术机会以帮助企业制定技术战略;翟东升等[14]通过专利摘要构建相似度矩阵进行多维尺度分析,然后结合3 种无监督的异常检测算法和发明问题解决理论(TRIZ)挖掘出技术机会。

3 研究方法与模型

3.1 研究框架

本研究结合Doc2vec 技术和LOF 算法对专利文本数据进行挖掘和分析,以探索潜在的技术机会,研究模型框架如图1 所示。首先,通过专利数据库进行专利检索和筛选,形成最终的专利数据集,然后对专利的摘要文本进行一系列预处理,以标准化文本数据提升后续文本分析性能;其次,采用Doc2vec 对专利文本进行表示学习得到专利的向量描述,以反映专利文本的语义信息和语序信息;最后,采用基于密度的离群值检测算法识别异常专利,以探索目标领域潜在的技术机会。本研究以深度学习领域为例,对上述潜在技术识别方法进行案例分析。

图1 研究模型框架

3.2 Doc2vec 文本建模

Doc2vec 建立在Word2vec 基础上[15],该算法采用无监督算法对不同的文档进行表征学习。与Word2vec 相似,Doc2vec 的两种训练方式为句向量分布记忆模型(distributed memory model of paragraph vectors,PV-DM)和句向量分布词袋模型(distributed bag of words of paragraph vectors,PVDBOW),PV-DM 模型根据上下文预测目标词概率,而PV-DBOW 模型由目标词预测上下文。Doc2vec 与Word2vec 不同之处在于,其输入层增加了一个新的文档向量,在多次训练后该模型可以得到词向量和文档向量。与传统的词袋模型相比,Doc2vec 在构造文档向量的过程中考虑到单词的顺序和语义信息,在解决文本分类、情感分析等问题上应用广泛。

由于PV-DM 算法表现优于PV-DBOW,因此本研究选取PV-DM 作为训练框架,如图2 所示,其基本思路是根据上下文词和文档信息预测当前词的概率。PV-DM 算法的目标函数为:

图2 Doc2vec 的句向量分布记忆模型

3.3 局部离群因子(LOF)算法

离群点检测的主要目的是有效地识别出数据集中的异常数据,基于这一思想,本研究旨在通过识别异常专利以挖掘潜在的技术机会。常用的无监督离群点检测方法包括基于距离、基于聚类、基于密度等方法,其中LOF 算法是较为具有代表性的基于密度的方法,该算法为每个数据点分配一个基于邻域密度的离群因子,根据阈值进而判断该点是否为离群点[17]。相比于传统的基于距离和聚类的算法,LOF 算法克服了其他算法没有考虑数据不同密度区域的短板,且能对每个数据点的异常程度进行量化,因此我们考虑将该算法应用于专利离群值点检测中。

基于 LOF 的异常检测算法的局部离群因子由局部可达密度决定,局部可达密度定义如下:

以上通过Doc2vec 得到专利文档的表示向量后,将专利文档向量的每一维度视为该文档的不同特征,然后采用LOF 算法对专利异常点进行定量描述。

4 案例分析

4.1 专利检索

采用欧洲专利组织(EPO)提供的全球专利统计数据库(PATSTAT)作为数据源进行检索,该数据库对全球100 多个国家或组织的专利信息进行收录,其提供的专利情报具有高度的权威性,在学术界得到广泛应用。以深度学习为检索对象,相关专利检索主题为“deep learning”,检索的专利数据包括专利号、申请日期、标题、摘要等内容。同时通过国际专利分类(IPC)表对检索领域进行范围限制,采用的分类号及相关说明如表1 所示。对标题和摘要的检索重点为深度学习领域,检索时间设定在2014—2019 年,专利的申请机构选取为美国。结果共检索出468 条专利记录,通过筛选摘要为空专利,进一步得到458 项专利(以下简称“样本”)。

表1 国际专利分类类目说明

4.2 专利数据文本分析

采用Python 编程实现对专利数据的文本分析。首先,采用Re 和Nltk 库对专利的摘要文本数据进行预处理,包括去除停用词、小写化、去除特殊符号、词形还原等操作。其次,使用Gensim 和Sklearn库实现Doc2vec 建模、PCA 降维等功能,通过上述Python 库对专利文本信息进行预处理。之后,根据本文实验和以往经验,分别设置模型参数,对Doc2vec 设置模型为PV-DM,窗口长度设定为7,每个专利文档的向量长度设置为100 维,即每一个专利被表示为100 维向量,词最小出现次数为2,同时设置epochs 为30 以提升计算准确度。租后,采用LOF 算法进行异常值检验,分别设置最近邻k取5、10、20,根据不同最近邻取值k并选取LOF 阈值为1,得到不同专利的离群点。但是对于这些异常点代表的专利,还不能认为就是潜在技术机会,这是由于本研究采用的算法可能存在一定噪声,因此,综合不同取值为k的异常点专利进一步进行人工核查后,对潜在技术机会进行总结。

Pouyanfar 等[18]指出,深度学习技术在自然语言处理、图像处理、语音处理和其他领域广泛应用,本研究借鉴这些应用分类方式作为本文的分类标准,对收集得到的离群点专利进行归类,然后对深度学习领域的潜在技术机会进行归纳总结,如表2 所示。其中:

表2 基于样本专利识别的潜在技术机会

(1)自然语言处理旨在帮助计算机理解人类语言,相关的任务包括机器翻译、文档分类、语义分析等。如专利US10579729 提出一种快速、自适应纠正拼写错误的方法和系统,利用基于上下文敏感的深度学习模型,为企业搜索引擎的拼写检查提供支持[19];专利US15/690721 提出一种根据电子医疗记录文本总结和预测医疗事件的系统,根据系统汇总的健康记录训练深度学习模型,以预测未来的临床事件[20]。

(2)在图像、视频等视觉数据处理上,以卷积神经网络为主的深度学习技术广泛应用,主要内容包括图像分类、目标识别、视频处理。如专利US10402649 提出一种结合深度学习的增强现实显示装置,通过多个传感器接收不同类型的传感器数据,然后通过神经网络实现光照检测、面部识别、对象检测等任务[21];专利US10402653 设计了一种基于视频的异常检测的摄像机,配备基于高阶卷积神经网络的处理器,以对即将发生的异常任务进行预测[22]。

(3)语音处理指对电信号或模拟信号进行操作的过程,相关应用包括语音理解、语音识别、机器合成等。如专利US10445597 利用车辆传感器收集音频数据,采用深度学习算法对音频数据进行分类,以识别物品的形状和大小特征[23];专利US10540957 设计了一种端到端的语音转录系统,无需对模拟环境音的组件进行人工设计,而是通过循环神经网络处理较为复杂的噪声环境[24]。

(4)随着深度学习展现出更强的学习能力和适应能力,一些特殊领域结合深度学习算法和技术以解决现实问题,同时围绕特定领域而设计的专利相对较少,存在大量发展空间,因此也可视为潜在技术机会。如专利US15/682698 利用大数据和深度网络对目标区域的犯罪概率进行预测[25];专利US10198693 通过交通监控系统获取车辆运行和驾驶环境数据,利用深层神经网络提取驾驶员的驾驶行为特征并进行分析[26];专利US10255628 采用基于深度学习模型和基于分解的协同过滤,为用户提供商品推荐[27];专利US10935940 提出一种建筑管理系统,包含距离度量计算、回归模型预测和神经网络模型预测模块[28]。

综上所述,本研究利用文本建模和异常检测识别深度学习应用技术的潜在技术机会,在一定程度上为企业和研发机构提供了高效的技术创新参考方向,研究结果反映了该方法的有效性。

5 结论与展望

本研究提出一种基于专利文本数据的技术机会识别方法。首先,采用Doc2vec 技术对专利摘要文本进行建模,以表示潜在的语义和语序信息;然后,根据专利文本表示向量,采用基于密度的离群值检测算法识别出异常专利;最后,以深度学习领域潜在技术识别为例,构建检索式并收集458 条专利文献作为数据集,并在此基础上通过进一步评估,总结出深度学习的潜在技术机会,为企业和组织的相关技术应用和开发提供指导。

本研究存在一些不足之处,如采集的数据局限于专利数据,因此采集到的总体数据集较少,这可能影响研究模型的效果;同时研究模型所含参数较多,因此需要根据不同的参数对结果综合考虑。未来的研究可以结合学术文献、引文网络等多方面信息进一步探索。

猜你喜欢
离群向量专利
一种基于邻域粒度熵的离群点检测算法
向量的分解
聚焦“向量与三角”创新题
一种相似度剪枝的离群点检测算法
从数学的角度初步看离群点检测算法
候鸟
向量垂直在解析几何中的应用
向量五种“变身” 玩转圆锥曲线
2007年上半年专利授权状况统计