陈 一
(昆明理工大学管理与经济学院,云南 昆明 650000)
在全球产业链重构和大国博弈的背景下,核心技术是买不来的,要提高核心竞争力,增强产业链供应链自主可控能力,实现高质量发展,还是要依靠自主创新。自主创新的过程中,专利的研究和分析具有重要的战略指导意义,而随着专利数量的增加,如何从海量的专利中发现研发热点,需要引入大数据挖掘的方法,可以通过对专利文本的主题聚类来探索专利的研发热点。但是专利文本会涉及不同学科领域的专业词汇,比如青刺果专利会涉及医学、化学、植物学等学科领域的专业词汇,做文本数据挖掘时,特征词具有不可分割性。而运用传统的TF-IDF 算法的LDA主题模型来做主题聚类不能很好的处理专业性的特征词。针对专利文本的专业性特征词,如何做专利的专业性主题聚类,本文以青刺果德温特专利数据为例,首先运用Word2vec 对青刺果专利的德温特分类代码和专利标题训练词向量,然后引入基于去停用词的N-Gram 算法优化TF-IDF 加权,最后运用LDA 做主题聚类。
青刺果(Prinsepia utilis Royle)又称总花扁核木,是蔷薇科李亚科扁核木属植物,为常绿或落叶小灌木。青刺果耐旱、耐寒、抗逆性和适应性强,主要生长于印度北部和中国西南部喜马拉雅山区的高海拔地区。对青刺果的研究主要集中在化学成分分析和药理作用方面。化学成分方面,青刺果茎中能提取到单体化合物骈双四氢呋喃类木脂素,以及L-表儿茶素和β-谷甾醇-β-葡萄糖苷;青刺果的总黄酮的回收率在101.41%,黄酮类组成有山奈酚、儿茶素、槲皮素和圣草酚;发酵能显著增加青刺果种子的多酚含量;青刺果油含有丰富的维生素和不饱和脂肪酸。药理研究方面,青刺果具有降血脂、抑菌、保湿、抗氧化、延缓皮肤衰老、抗肿瘤、抑制血小板聚集等作用。青刺果具有极大的药用价值和商用价值,关于青刺果也有大量的专利,但相关文献缺少对青刺果专利进行分析的研究,本文通过对青刺果专利文本的主题聚类来探索青刺果专利的研发热点。
Word2vec 是由Mikolov 等人提出的一种用于训练词向量的神经网络概率语言模型。Word2vec 词向量是根据词汇所在上下文计算出的,充分捕获了上下文的语义信息,还能解决传统向量空间模型处理短文本时的特征稀疏问题,适用于短文本分类。青刺果专利德温特分类代码和专利标题都是短文本,本文选择Word2vec 训练词向量。针对Word2vec 模型无法区分文本中词汇的重要程度,本文引入TF-IDF 算法计算Word2vec 词向量的权重,但是TF-IDF 算法存在过于依赖特征词的提取效果和未考虑特征词的出现位置等问题。而Jestes 等人提出的N-Gram 算法,能保留词汇的特征信息和特征词的位置信息,N-Gram 算法对特定领域特征词的提取效果明显,比如在计算机病毒特征码的提取和SQL语句固定维数的特征向量提取的研究,N-Gram算法能够丰富特征词又能清除无效特征词带来的影响,同时加重符合文本主题的特征词的权重。因此,本文引入基于去停用词的N-Gram算法,优化TF-IDF 加权。用N-Gram 来改进TF-IDF,特征词的TF值可以客观地反映特征词对文本的重要程度,将特征词位置因子和词频因子结合,距离越远、频次越高的特征词对文本更重要,应赋予更高的权重。青刺果专利文本的特征词具有专业性,经过Word2vec训练词向量和改进的TF-ID 优化加权,再运用LDA做主题聚类,可以提升专利主题聚类的专业性。
在德温特专利数据库中搜索所有年份的“青刺果”专利,把全纪录导出,通过Python 爬虫获取的青刺果专利德温特分类代码结果的部分截图如图1 所示,青刺果专利标题结果的部分截图如图2所示。
图1 青刺果专利德温特分类代码结果的部分截图
图2 青刺果专利标题结果的部分截图
以青刺果专利的德温特分类代码和专利标题作为语料,爬取的爬取的用Word2vec的Skip_gram 模型训练词向量,然后用N-Gram 改进TF-IDF,对词向量优化加权,最后运用Python 中的nltk 和gensim 库做LDA主题聚类,结果如下所示。
从青刺果德温特专利文本主题聚类出来的结果可以看出,主题词都是医学、化学、植物学等学科领域的专业词汇,主要有七类。
第一类:皮肤,治疗,保湿,化妆品,配方。
第二类:组合物,有机物,芳烃,聚合物,化合物。
第三类:植物,提取,草药,油,粉。
第四类:提取,分离,蒸发,结晶,透析。
第五类:医疗,药品,杀菌,消炎,抗缺氧。
第六类:油,脂肪,蜡,脂肪酸,精油。
第七类:设备,发酵,酿造,食品,生产。
这七类主要涉及青刺果的功能、应用、提取技术和成分分析。
从青刺果德温特专利文本的主题聚类结果可以看出青刺果专利的研究热点主要集中在青刺果的功能、应用、提取技术和成分分析方面。青刺果是药食两用的植物,在食用性、药用性以及生产工艺上值得继续研究探索。但是青刺果种植受地域性限制,其产品的推广及宣传仍有待提高,相关专利在种植和包装方面犹嫌不足,青刺果专利未来的研究可以多从种植和包装方面进行,以扩大青刺果种植,降低生产成本,促进产品营销,让青刺果能够发挥更大的社会价值,产生更大的经济效益。对于青刺果德温特专利文本,通过运用Word2vec 训练词向量,再用N-Gram 改进TF-IDF 优化加权,然后用LDA 做主题聚类的方法,针对青刺果专利文本涉及不同学科领域专业词汇的特点,做出了专业性的主题聚类。但是如果存在亚专科更细分领域的词汇,就需要进一步探索新的识别算法。