基于专利语义表征的技术预见方法及其应用

2021-11-28 11:55赖朝安高晗
中国集体经济 2021年36期
关键词:自然语言处理

赖朝安 高晗

摘要:技术预见是支持政府制定产业政策、企业进行战略布局的重要手段。当前广泛采用的技术预见方式是基于专家经验的定性方式,易受到专家水平和观点的影响,定量分析相比定性分析更加科学准确。文章对Doc2Vec模型进行改进,提出KWE-Doc2Vec模型,使用该模型提取专利摘要的编码表示,计算得出专利相似度,以此为基础提出一种技术预见分析框架。并结合自然语言处理领域的发展状况进行实证研究,识别出该领域的技术发展路径,对未来的技术机遇进行了预测。

关键词:专利挖掘;技术预见;Doc2Vec;自然语言处理

一、研究背景

技术预见是一项社会系统工程,通过前瞻性战略研究,对未来的发展中具有重要战略地位的研究领域做出预测。其综合了科学、技术、经济和社会多方面的因素,确定在未来的发展中能给经济、社会带来最大化利益的研究领域与技术,对有限资源的优化配置提供相应的决策依据,以期实现经济与社会利益的最大化。自20世纪90年代以来,无论是英、美等发达国家,亦或是发展中国家,都积极地开展了大量的技术预见活动,俨然已成为世界潮流。这一潮流的形成主要是因为,近年来科学技术的发展呈几何式增长,人们的生产方式也因此进入了快速而深刻的变革。国家在国际舞台上的竞争力很大程度上取决于核心科技的掌握以及技术创新的能力。如何快速定位最具发展潜力的领域成为政府和企业关注的核心问题。

目前的技术预见已经形成了一套较为系统的理论体系,通常采用基于专家主观经验的定性方法,主要有头脑风暴法、德尔菲法、同行评议法、专家咨询法等,这些方式依赖于专家学者的讨论,因此其客观性、科学性往往难以保证,从而导致技术预见结果的可靠性不高。将技术预见与定量的统计学模型相结合,有助于提升技术预见的效率与质量。Lintonnen等在2014年组织芬兰的43名药物专家组建了一个德尔菲专家小组,对芬兰2020年的药物形式变化趋势开展了预见研究;王金鹏在2011年研究了在技术预见的过程中引入科学计量方法的必要性,并通过实证分析论证了科学计量方法在技术预见中应用的可行性和有效性;韩毅等利用了基于引文的主路径方法分析了富勒烯领域的演化结构,证明了主路径分析方法的独特性;Yoon等在2010年开发了一个基于關键词的科学地图,用于制定支持有前景的研发领域的政策和计划。表1展示了本文采用的研究方法与经典技术预见文献采用的研究方法的对比。

据研究表明,专利反映了最新的科学技术与商业信息,包含了世界全部科技知识的90%~95%,如果能够将其中蕴含的知识资源充分利用,识别出核心技术,挖掘其中的潜在价值,在此基础上进行技术创新活动将会极大地提升创新的成功率。对于专利信息的分析,一方面可以对专利的被引次数、引用关系网络、创新度或者中心度评估等文献计量学的视角进行研究。但上述方法对于专利的分析粒度较粗,往往只能得出宏观上的普遍规律,难以起到具体的战略指导作用。另一方面,专利的标题、摘要、说明书中有大量的文本内容,对技术的使用场景、具体方案、原理、效果的详细描述,对于专利中的大量的非结构化数据分析,需要采用文本挖掘的方法,从专利中抽取有价值的知识信息。然而原始的文本内容无法直接参与到数学模型构建过程中,需要将文本转化为特征向量才能进行各种交互运算。目前较为成熟的专利特征提取方式有基于关键词的分析法(keyword-based-analysis,KWA)以及SAO分析法(Subject-Action-Object)。关键词法本质上是将专利当做词袋模型进行处理,选取出该领域的关键词,忽略专利文本中的词语的顺序,只记录关键词出现的次数,以此构建专利的空间向量模型。而SAO分析方法是提取出专利文本中的“主-谓-宾”结构,使用该种结构以及单词的相似度从而计算出专利之间的相似度。得到专利之间的相似度后,通过专利网络或者专利地图进行降维处理,将高维的专利数据映射到二维平面之上,采用可视化的方式展现专利簇中的核心专利以及专利地图空位,作为技术演进趋势分析、技术机遇预测的依据。

但是上述两种文本表征方式都存在着一些不足之处。KWA方法中的关键词往往都是名词或者名词词组,所以这种方法容易损失掉词语之间的关联信息,并且忽略语序也会导致语义的偏差,而SAO分析方法也无法表征出特定场景下词语的含义变化,并且将专利分解成一个个SAO结构,反映的是碎片化的信息,无法从整体上对专利信息做出良好的表征。为了克服上述两种文本表征方式的缺点,本文采用Doc2Vec算法从专利摘要中提取特征向量,该算法在提取特征时不仅考虑到了词语的语序,并且摘要中的所有内容都会经过模型的编码输出最终的特征向量,包含了摘要中全部的语义信息,能更好地对文本内容做出表达。

二、研究设计

本文的研究路线如图1所示。首先通过专利平台收集特定领域的专利数据构建了该领域的专利数据库,通过KWE-Doc2Vec算法将所有的专利摘要及题目编码成为固定长度的向量,使用该向量作为专利的表征,以此为基础计算专利之间的相似度,构建专利的关联矩阵。然后结合社会网络学的理论,将高维的专利数据进行降维操作,映射到二维的知识图谱中。在可视化的图谱中,可以从海量的专利信息里提取出核心专利,识别技术空位,将其中所蕴含的有价值的信息分析归纳,对自然语言处理领域的发展脉络、技术路径以及未来技术机遇做出预测,为政府的产业规划以及企业的发展战略制定提供有力的支撑。

文本是一种非结构化的数据,在进行规模较大的文本挖掘任务时,需要将大量的文本数据转化成为计算机可以直接处理的数字类型的数据。为了对大量数据进行批量的快速处理,往往会对数据格式有更高的要求,需要固定数据的维度。因此提取出专利的合适的表征是本方法的核心部分。本文中使用的Doc2Vec算法是一种无监督的算法,经过在由本文的专利数据库构建的语料库训练后,可以将每一篇专利的摘要提取成特定长度的稠密向量表示,使用该向量表示继续进行下游的任务。

(一)特征提取算法

Doc2vec算法是受到一些关于使用神经网络学习词向量表征的工作启发,对Word2Vec的模型结构进行简单改进从而使得模型在学习词向量的同时可以得到整个段落的向量表征。本文中针对专利数据的特征对普通的Doc2Vec算法进行了改进,提出了附加关键词扩展的KWE-Doc2Vec算法。

1. Word2Vec

最为流行的提取词向量算法框架如图2所示。此算法的任务是,给出上下文中的其它单词,去预测尚未给出的单词。每一个单词都会被映射成一个唯一的向量,由在矩阵W当中的某一列表示。该列由单词在词汇表中的位置编制索引,然后将向量进行拼接或者求和,用来预测句子中的下一个单词。

具体地,给定一句话,可以将其视为由单词w1,w2,…,wn构成的序列,算法的目标函数即为最大化如下对数平均概率:

词向量对于很多自然语言处理任务如语言模型、自然语言理解、机器翻译、关系抽取等都会有很大的增益效果。

2. Doc2Vec

词向量的初始化是随机的,但是作为预测任务的间接产物,词向量最终会捕获单词的语义信息,段落向量的获取方式也是利用了相同的思想。段落向量也被用来参与到下一个单词的预测任务。

Doc2Vec的算法框架如图3所示,每一个段落都被映射成一个唯一的向量,由矩阵D中对应的某一列表示,同时每一个单词也被映射成一个唯一的向量,由矩阵W中的某一列表示。段落向量和词向量会被拼接在一起用来预测上下文中的下一单词。与Word2Vec算法的模型相比,Doc2Vec仅有的改动在于公式(1),其中的h由矩阵W和矩阵D共同组成。段落的向量表示可以被认为是另一个特殊的“单词”,其作用相当于是一个存储了模型丢失掉的上下文信息或者段落主题的“缓存”,因此该算法被称为分布式段落记忆向量模型(PV-DM)。

在使用Doc2Vec提取文档表示向量时,常常会使用PV-DM算法与PV-DBOW算法相结合的方式。该模型能够表征段落的语义信息,并且在训练时考虑了词序,对语义信息的表征会比词袋模型更为精确,将高维稀疏向量转化成为了低维的稠密向量。更重要的是这是一种无监督的算法,在没有足够的有标签数据时也能发挥作用。

3.  基于关键词扩展(KWE)的Doc2Vec模型改进

Doc2Vec模型在提取文档向量时考虑到了专利摘要中的全部单词的语义信息,但是专利文本作为专业性很强、技术内涵丰富的特殊语料,为数不多的关键词当中有时会蕴含重要的技术信息,因此应当在特征提取时占有较大的比重。Doc2Vec模型在进行训练时会对所有的单词同等对待,因此会将潜在的重要关键词做出一定的“稀释”,无法突出专利的重点。因此本文提出的KWE-Doc2Vec算法在原有算法的基础上做出了一些改进,使得模型提取的文本向量中包含了关键词的特征信息,从而使得专利相似度的计算更加准确。

Doc2Vec模型在训练完成时,不仅会获得段落向量,同时也会获得词向量。由于词向量是在特定技术领域的语料库上完成的训练,因此会更适合在该领域下完成下游的任务。KWE-Doc2Vec在提取出文档特征向量的同时,将专利题目中的关键词向量也提取出来并与文档向量进行拼接,作为最终计算专利相似度的特征。

首先对专利题目进行去停用词的处理,只保留有实际含义的单词。用KW={w1,w2,w3,…,wn}表示题目中去掉停用词后剩下的关键词,wn表示其中的第n个单词,使用emb()来表示单词的词向量转化函数,经过词向量平均后,可以得到题目T的编码信息:

用题目T的编码信息作为关键词向量,与文档向量p完成拼接,得到最终的专利表征向量z:

z=[p;T]

4. 实验分析

为进行实验分析对比KWE-Doc2Vec算法的与KWA、SAO算法的优劣,本文通过Innography专利分析平台以artificial intelligence(人工智能)为关键词检索并下载了实验数据,由于人工智能的概念更宏观,涵盖的技术范围更广泛,因此相关专利的IPC分类体系中相对分散,适宜作为实验数据进行算法有效性的验证。

从下载的数據中选取数量较多的G分部(物理)20000条以及H分部(电学)5000条专利数据进行建模预测。将数据按照8:2的比例进行训练集和测试集的划分。分别使用KWA模型、SAO模型以及KWE-Doc2Vec算法从专利中提取文本的向量表征,然后将提取出的表征作为特征输入到一个简单结构的神经网络当中。网络具有一个维度为32的隐藏层和一个维度为2的输出层,输出的是专利属于某一类的概率。经过训练后,采用ROC曲线对模型效果在测试集上进行评估,将三种特征提取方式模型的ROC曲线绘制成如图4,可见KWE-Doc2Vec模型的ROC曲线完全可以包裹住其他两条曲线。经过计算KWE-Doc2Vec模型的AUC(Area Under Curve)为0.891,显著高于KWA模型(0.818)以及SAO模型(0.845),证明了KWE-Doc2Vec模型对于文本信息的特征提取更为准确,能够精确地对文本的语义信息作出表征,因此基于该方法提取出的特征向量计算专利之间的相似度能够得到更为有效的度量结果。

(二)专利距离计算

在使用KWE-Doc2Vec算法将专利编码成为固定长度的向量之后,可以基于该向量表征计算得到专利关联矩阵,本文中采用欧氏距离来衡量专利之间的关系远近。假设专利A和专利B经过KWE-Doc2Vec的编码分别得到了维度为n的两个向量A=(a1,…,an),B=(b1,…,bn)可以使用如下公式来计算专利AB之间的相似度:

三、实证研究

(一)专利库建立

本文通过Innography专利分析平台进行专利的检索,检索式为:(@(abstract,claims,title)“nlp” OR“natural language process*”OR“nlu”OR“natural language understand*”)下载到本地数据库后,共得到专利22297条。剔除掉专利强度过低的无效专利,删除IPC不符合要求的,重复、信息缺失的专利,经过数据清洗之后共得到10540条数据进行后续的分析。

(二)行业技术发展阶段分析

对于自然语言处理领域专利每年申请数量以及专利权人数量进行统计分析,得到年份分布如图5所示。由于专利的申请到公布一般需要一年以上的时间,所以近两年的专利数据可能并不够完备,没有展示在折线图当中。

根据图5中的专利申请数量以及专利权人数量变化特征,本文将自然语言处理技术的发展划分为三个大的阶段:一是萌芽期(1983~1996年):自然语言处理领域专利最早出现在20世纪80年代,处于技术发展的初期,关于自然语言处理的技术仍不够成熟,没有太多的可以直接落地的场景,相关的专利数量较少,一直处于一个低速的缓慢增长状态。二是快速发展阶段(1997~2011年):随着互联网的兴起和高速发展,自然语言处理领域迎来了他的第一个发展机遇:在信息爆炸的年代,一切自然语言处理技术的基础——语料库得到了极大的丰富,在大数据时代向来都是得数据者得天下,加之计算机硬件不断更新完善,理性主义的思潮成为主流,基于统计的方法也逐渐替代了基于规则的方法。在这个阶段,基于数学和统计模型的方法使得自然语言处理技术取得了一些实质性的突破,已经可以从实验室走出,走向工业界的实际应用。三是井喷爆发阶段(2012年以后):随着计算机算力的大幅提升,基于深度学习的自然语言处理技术迎来了爆发。有了GPU计算速度的加成,使得RNN、LSTM、GRU等模型的大规模矩阵运算成为可能。深度学习与自然语言处理的结合,在机器翻译、机器阅读等细分领域都取得了很大的成功。甚至可以利用深度学习技术将自然语言处理任务进行端到端的训练,免去了传统的pipeline方法的麻烦。

(三)关联矩阵计算

本文提取出所有专利的摘要和标题作为KWE-Doc2Vec模型训练的语料库。使用python编程语言调用开源的第三方自然语言处理工具包gensim来进行Doc2Vec模型的训练,设置模型的迭代次数为100,输出向量的维度为10,再提取出专利标题的特征向量并进行拼接。使用欧氏距离计算两两专利之间的距离,得到专利之间的关联矩阵。

(四)基于专利网络的分析

使用可视化网络分析工具ucinet,对自然语言处理领域的专利数据绘制专利网络。每个节点的大小代表专利的中心度,即与该专利相连的其它专利数量,中心度越高的专利在图中的节点越大,通过该指标可以识别专利群中的核心专利。调整专利网络的距离显示阈值以及展示节点的中心度阈值,可以画出自然语言处理领域的专利网络如图6。

在自然语言处理技术发展的早期,相关的概念提出较早,但是实验室中的技术还没能转化为可落地的生产力。早期的核心专利主要是一些基础性的工作,涉及到的多是语法、句法分析,基于规则的方法仍然是主流,有时会辅助以基于统计的方法。该阶段的另一大特点是,专利往往以搭载了自然语言处理技术的某种设备或终端的形式展现,主要有微型计算机、显示器或者音频交互设备,技术的研究本身并不是目的,最终都是要服务于人,在该阶段便初步产生了通过自然语言处理技术进行人机交互的趋势。直到20世纪90年代中期,得益于计算机运算速度以及存储设备容量的大幅增加,自然语言处理技术的物质基础有了极大的改善,同时Internet的商业化进程快速启动以及网络技术的发展使得自然语言处理技術所需的语料数据呈现指数级的增长,语料库技术成为自然语言处理领域较为重要的技术之一。大规模的真实语料,经过不同程度的加工,为研究自然语言的统计学性质提供了必要的基础,使得该领域的研究方式不用再像以前的那样,针对少量词条或者典型句子抽取规则,而是可以采用基于统计的技术方法,从真实的数据中学习规律。同时为某些特定专业领域编制定制化的计算机可用词典对于下游的自然语言处理任务的提升也是非常之大。另一方面,随着互联网的普及,海量的网页催生了自动检索技术。并且在这一阶段的末期,已经有少量的专利尝试将深度学习、迁移学习技术应用于自然语言处理任务。根据摩尔定律的描述,处理器的性能每过两年翻一倍,在2012年后,深度学习这种需要大规模计算能力的技术蓬勃发展,使得自然语言处理技术与深度学习的技术融合成为可能。在这一崭新的阶段,各种网络结构如CNN、LSTM、GRU在自然语言处理领域的应用层出不穷,并且都取得了不错的效果,同时将研究者从繁琐的手工设计、提取特征工作中解放出来。在深度学习基础上发展出来的预训练模型,融合了超大规模的语料库当中的语义信息,相当于为模型注入了类似于人类常识一样的背景知识。2018年谷歌发布具有划时代意义的预训练模型BERT并且刷新了自然语言处理领域的11项任务的最好成绩,从此BERT成为各项任务的baseline。另一方面,深度学习技术的引入使得自然语言处理技术的许多应用得以走出实验室,成为正式的可商用的产品,落地比较成功的应用包括机器翻译、搜索引擎、对话机器人等。从中可以发现一个较强的趋势,自然语言处理技术正在迅速与人工智能领域的其它技术如计算机视觉、语音识别、语音合成等技术进行深度的融合交互。谷歌、微软、Facebook 和百度均拥有能够让用户搜索或者自动整理没有识别标签图片的技术。商业化落地比较成功的对话机器人也已经能够完成语音识别—自然语言理解—自然语言生成—语音合成的一整套流程,用户完全可以只通过说话的方式完成与机器人的交互。

自然语言处理领域的技术从早期的专家人工编制规则的处理方式,到基于大量语料数据的统计学方法,以及近期的深度学习技术与自然语言处理相结合,人工参与的程度逐渐降低,模型的学习能力越来越强,可以自动的从大量的真实文本中“学习”到其中蕴含的知识。与此同时,自然语言处理技术也一步步走出实验室,逐步商业化落地,为技术的发展提供了更多的动力。预计今后在计算力继续提升的助力之下,一方面,可以将研究方向在商业化的应用的更大范围的部署到如智能手机、智能家居之上,真正实现万物互联,并且可以采用人类语言的方式完成与设备的交互。另一方面,预训练模型的潜力还未完全开发,采用更大规模、覆盖面更广的训练语料,进行时间更长、迭代次数更多、任务更加困难的训练,可以使预训练模型学习到语料库中更深层次的知识,从而提升下游任务的效果,加速自然语言处理技术的落地。

(五)基于专利地图的分析

自然语言处理领域的技术日新月异,本文选取井喷爆发期(2012年以后)的专利数据,使用ucinet软件绘制专利地图如图7所示,专利地图上的空位指示了未来可以挖掘的技术方向,本文识别出6个技术空位,对其周围的专利进行具体研究分析,可以对该领域的发展趋势和重要机遇做出预测。

1. 与风险管理领域的深度融合

空位1周围的专利主要涉及到自动化风险预测、管理的相关技术,包括关于电子合同的潜在风险条款注释提醒、基于社交媒体的风险预警、对于患者的健康风险自动评估等技术。当前的合规与风险治理领域采用的多是基于专家的主观经验的评估,难以将风险进行量化,然而目前的问题是进行风险分析的主要数据为半结构化或者非结构化的,难以对海量的管理信息做出有效评估。因此今后采用自然语言处理技术对非结构化的文本材料进行解析,抽取其中的关键信息并且转化为易于处理的结构化数据,在采用风险评估模型进行预警将是一个极具潜力的研究方向。从上述技术路径中,采用自然语言处理技术从海量的文本数据中,快速地抽取重要的结构化信息,同时保证其准确性,是该方案的顺利施行关键,也是未来需要投入大量精力解决的问题。

2. 底层支撑技术的发展为自然语言处理的实现创造机遇

空位2周围的专利主要涉及到与自然语言处理领域技术相关的底层软硬件支持。由于音视频资料中的大量对白或演讲等内容包含了大量的知识信息,采用语音识别技术可以从中获取到大量有价值的语料数据,因此开发支持大规模存储查询音视频数据这类非结构化数据的数据库系统已成为一个研究的热点方向,同时也研发能够精准采集特定场景下的音视频数据的传感器从而能够帮助系统更好地完成上游的数据采集任务。另一方面,进入深度学习时代以后数据量、模型复杂度以及求解模型的计算量都成指数级增长,而GPU作为进行矩阵并行运算的主要硬件,提高其性能也是未来可研究的一个重要方向。

3. 人机对话技术的场景化、个性化,实现互联

空位3周围的专利主要涉及到对话机器人、问答系统、智能助手、终端部署设备以及定制化的语料库设计等相关技术。人机对话技术自其诞生以来就一直是自然语言处理领域的一个重要分支,然而目前的对话系统依然是基于大量的规则以及算法模型,距离真正的智能还有很远的距离,但是已经可以帮助人们完成一些简单的任务。因此目前阶段为了提升用户的使用体验,将对话系统进行场景化、个性化的定制就显得尤为重要,任务导向型的对话系统因为有明确的目标,所以更加容易引导用户完成对话。未来可采用定制化的语料库来完成对话系统的训练,并且在后端可以连接知识图谱等数据库,完成对用户的特征描述,构建出可以完成“千人千面”的对话系统。另一个值得发掘的研究方向就是将对话系统更多地部署在智能手表、智能家电等终端上,研发与应用场景相适应的嵌入式系统以及高效的无线数据传输技术,真正实现万物互联。

4. 与人工智能其它领域的交互

空位4周围的专利主要涉及到基于深度学习的OCR、跨模态数据匹配、图像自动标注、可视化检索等相关技术。自然语言处理作为人工智能皇冠上的明珠,从来都不是孤立地发展,与其它领域如计算机视觉、语音识别等都有着深层次的交流。自从2010年后人工智能进入深度学习时代以来,自然语言处理、计算机视觉的整体研究工具和模式都有趋同的迹象,这也就给了不同领域之间直接沟通交流的便利。在现实生活中,文本、图像、语音等数据都是同时存在的,不可能将其完全割裂开来单独研究,因此将来对各种模态的数据进行跨模态学习是人工智能发展的一大趋势。在跨模态学习中,面临的首要问题即是如何将异质的信息投影到同一个表征空间,还要最大限度的保持数据原有的语义信息,提取到有用的特征。采用深度学习的方式,可以对数据进行各种方向的映射,完成各种来源数据的交互融合,需要研究比单模态数据更加复杂、表达能力更强的模型结构,以期在提取特征的同时保存原有信息。

5. 自然语言处理+具体行业的商业化落地

空位5周围的专利主要涉及医学领域的命名实体识别、自动驾驶当中的语音交互、电力需求工单的自动分类等技术。自然语言处理技术的研究本身并不是目的,技术的最终归宿还是要服务于某个行业,为人类创造价值。用自然语言处理技术为行业赋能,需要准确地找到技术的切入点,要求行业本身具有大量的规范文本数据作为语料库,并且行业需要是智力密集型的服务行业。自然语言处理技术在金融风控、医疗领域已经有了初步的落地应用,但是目前也只是能够承担一些重复性的辅助工作。因此自然语言处理技术与具体行业的结合将会是将来很长一段时间内的热点趋势。在自然语言处理技术有了大跨步的进展,真正实现了理解语义并且能够掌握专业领域知识的情况下,会渗透到教育、司法、交通等更多行业。

6. 更大、更深、更重的模型

空位6周围的专利主要涉及深度学习模型的定制化损失函数、基于attention机制的语义网络、基于广度门的联合模型回收等技术。可见我们需要表征能力更加强大的模型才能胜任更有挑战性的任务。由于人类在沟通时都已经是具备了一定的常识或者是某些方面的专业知识,因此在一些简短的对话或者文本当中可能蕴含着巨大的信息量,然而这些所谓“常识”却是计算机所不具备或者难以理解的。因此堆叠更深、更复杂的模型,提高模型的表达能力是目前的一个研究趋势。另外自从2018年谷歌发布了BERT模型之后,自然语言处理领域开启了属于预训练模型的时代。Bert采用Transformer模型的decoder在维基百科等语料库上进行了大规模的预训练,采用“博览群书”的方式让模型本身具備了一定的背景知识。近年来更是有XLNet、RoBERTa等结构更加复杂、迭代次数更多、语料更加丰富的预训练模型出现,但这些模型具有数量庞大的参数,训练和使用成本都极为高昂,在这样的大背景下,采用更有挑战性的预训练任务或者更加合理的模型结构,从而提升模型的表达能力同时降低其使用成本,将是未来一个重要的技术发展方向。

根据以上的技术机遇分析,本文提出如图8的技术路径图。横轴代表时间,框体的宽度代表了技术的研发周期。任务的研发成本与其研发周期的长度是成正比的。图中的箭头表示不同的对象之间的支持关系。

四、结语

21世纪是科学技术飞速发展的时代,在现代化浪潮中要想占据领先优势,需要具有敏锐的感知力对技术机遇做出准确的预见,这是技术创新的前提和基础。专利当中蕴含了大量的技术知识,以专利文本挖掘为切入点,可以在短时间内对一个领域的发展脉络做出梳理,并且预测未来的发展趋势。本文采用的KWE-Doc2Vec算法可以克服已有方法的缺点,提取出更准确的篇章级别的专利文本内容的向量表征,并基于此向量表征计算专利相似度。然后使用该技术预见方法对自然语言处理领域进行了实证分析,对已有专利的技术演进路径进行了描述和分析,并且对未来的路径走向做出了预测。结合生成的专利地图识别出未来发展的6个技术机遇,提出了自然语言处理领域未来技术路径图,为政府的政策制定或相关企业的未来战略规划提供了有力的决策支持,同时本文提出的研究方法也可以应用到其它技术领域,为其它研究者提供可供参考的思路。

参考文献:

[1]吴贵生.技术创新管理[M].北京:清华大学出版社,2000.

[2]Frster B, von der Gracht H. Assessing Delphi panel composition for strategic foresight—A comparison of panels based on company-internal and external participants[J].Technological Forecasting and Social Change, 2014, 84: 215-229.

[3]Lintonen T, Konu A, Rnk S, et al. Drugs foresight 2020: a Delphi expert panel study[J].Substance abuse treatment, prevention, and policy, 2014, 9(01):18.

[4]王金鵬.基于科学计量的技术预见方法优化研究[D].武汉:华中师范大学,2011.

[5]韩毅,童迎,夏慧.领域演化结构识别的主路径方法与高被引论文方法对比研究[J].图书情报工作,2013,57(03):11-16.

[6]Yoon B, Lee S, Lee G. Development and application of a keyword-based knowledge map for effective R&D planning[J]. Scientometrics,2010,85(03):803-820.

[7]Janghyeok Yoon,Kwangsoo Kim. An analysis of property-function based patent networks for strategic R&D planning in fast - moving industries: The case of silicon - based thin film solar cells[J]. Expert Systems with Applications,2012,39(01):7709-7717.

[8]Lee C, Kang B, Shin J. Novelty-focused patent mapping for technology opportunity analysis[J].Technological Forecasting and Social Change,2015,90:355-365.

[9]Yoon J, Park H, Kim K. Identifying technological competition trends for R&D planning using dynamic patent maps: SAO-based content analysis[J].Scientometrics,2013,94(01):313-331.

[10]陈二静,姜恩波.文本相似度计算方法研究综述[J].数据分析与知识发现,2017,1(06):1-11.

[11]阮光册,夏磊.基于Doc2Vec的期刊论文热点选题识别[J].情报理论与实践,2019,42(04):107-111+106.

[12]Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781,2013.

[13]Le Q, Mikolov T. Distributed representations of sentences and documents[C].//International conference on machine learning,2014:1188-1196.

[14]徐翼龙,李文法,周纯洁.基于深度学习的自然语言处理综述[A].中国计算机用户协会网络应用分会.中国计算机用户协会网络应用分会2018年第二十二届网络新技术与应用年会论文集[C].中国计算机用户协会网络应用分会:北京联合大学北京市信息服务工程重点实验室,2018:4.

[15]丁恒,陆伟.基于相关性的跨模态信息检索研究[J].现代图书情报技术,2016(01):17-23.

[16]王金凤,吴敏,岳俊举,吴汉争,冯立杰创新过程的技术机会识别路径研究——基于专利挖掘和形态分析[J].情报理论与实践,2017,40(08):82-86.

(作者单位:华南理工大学工商管理学院)

猜你喜欢
自然语言处理
基于LSTM自动编码机的短文本聚类方法
自然语言处理与司法案例
国外基于知识库的问答系统相关研究进展及其启示
基于依存句法的实体关系抽取
基于组合分类算法的源代码注释质量评估方法
面向机器人导航的汉语路径自然语言组块分析方法研究
词向量的语义学规范化
汉哈机器翻译中的文字转换技术研究
HowNet在自然语言处理领域的研究现状与分析