□钮 亮 项 玮 施佳璐
能源短缺与环境污染是当今人类长期所面临的两个巨大难题,开发一种可再生的清洁型能源、实现低碳经济是解决两个问题的重要路径,也是我国发展战略性新兴产业的一个重要突破口。研究和利用可再生能源作为主要的新型清洁能源已经成为了人类所面临的重要课题之一。锂电池是目前最具发展前景的高效二次电池和发展最快的化学储能电源,符合新型清洁能源的需要。国外对于锂电池技术研究最早是从20 世纪50年代开始,但不同时期的技术研究关注点不同。到20世纪70年代基本上已经实现了对锂原子电池的军用和民用。由于锂离子电池适合作为电动汽车的动力来源,进入20 世纪90年代后期,在电动汽车中的应用研究也越来越多[1]。鉴于锂电池在各行各业广泛的应用,很多学者对其热点和趋势进行研究,以便探索锂电池领域的未来发展方向,引导企业投资和生产。赵蓉英等通过对美国专利商标局(USPTO)数据库中锂电池专利引文信息的计量分析,探究了锂电池行业技术的发展态势、锂电池技术的分布状况以及锂电池技术发展与基础科学研究的关系[2]。兰凤崇等采集了国内外锂离子动力电池专利信息,并以此分析全球锂离子电池产业的发展情况[3]。王琳等通过检索国内外全固态锂电池的专利文献,从申请量变化规律、申请人分布、技术领域分布和发明人分布等方面进行定量分析,从专利的申请现状把握锂电池领域的发展趋势[4]。龙雪梅基于SCI 数据库近十年来的检索结果,定量分析了锂离子电池相关研究文献的历史年代、文献类型、作者、国家、机构、出版物、被引频次等因素[5]。徐睿则致力于以SCI-E、CPCI-S、DII 文献资料作为分析的对象,从时间、技术领域、国家和主要的研发单位等多个角度对锂电池进行计量分析[6]。赵晏强等基于关键字从定量、定性角度论述了当前锂电池主要的正极材料在相关技术中的应用热点[7]。佟贺丰等基于引文耦合分析法对中美日三国的锂离子电池技术前沿和差距进行了分析[8]。陈锦攀等基于SCI、EI 和CNKI 数据库,采用文献计量学和知识图谱的方法,从发文情况、发文机构、发文国家及研究主题演化等方面,对于锂离子动力电池储能系统研究进行了深入的分析[9]。
尽管国内外对锂电池领域的热点和趋势分析的热度较高,已有不少学者发表相关文献,但大部分都集中在对锂电池性能升级方面,对锂电池技术的热点趋势谈论不足。即便有一些涉及文献计量的分析,也主要集中在论文关键词方面,鲜有对专利文献的挖掘分析。专利文献涉及相关技术领域最新、最活跃的创新和技术信息,从专利文献中我们可以得到更多锂电池的科技进步和发展趋势的信息。锂电池技术热点分析的关键是其专有词汇识别。由于专利文献的专有词汇被表达在专利摘要中,要实现锂电池热点趋势分析,首要工作是对摘要中专有词汇进行识别。现有文献对这方面讨论不足。
由于锂电池的专业特性,对其技术描述的词汇与日常语言不同,常规性的jieba 分词等工具不能很好地识别锂电池专业词汇。如果将专有名词视为一个实体,通过命名实体识别的方式抽取专有名词,能够保证识别的准确度。它被认为是完成机器翻译、知识图谱构建、信息抽取、自动摘要、语义分析、自动提供问答等技术任务的理论依据,在自然语言处理领域占有重要的地位。传统的基于字典或者启发式规则的实体抽取已经不能完全满足人们的需求,利用统计学方法进行命名实体抽取成为目前的主流抽取方法。统计学中条件随机场模型由于既可以用HMM 的状态序列进行求解,又通过自定义特征模板加强了对词项的上下文理解,识别词项的准确度很高[10]。
条件随机场模型能够执行的前提是语料需要预先标记。传统做法是人工标记一定规模的实体,将其作为训练集,用此训练随机场模型,得到优化模型后投入实际使用[11]。模型的有效依赖于所标记实体的涵盖范围。对于锂电池专利文献来说,特定专业技术词汇不仅数量庞大,而且技术推进中又不断地出现新的词汇,仅标记锂电池专业词汇是不现实的。如果事先有一个较为合理可观的词典,将其作为锂电池专利文本的标记来源,那么就可以避免人工标记的疏漏和不全面。考虑到锂电池论文中关键词是作者抽离出的专业词汇,能够解释锂电池的技术内涵,因此将论文中关键词作为专利摘要数据的标记来源有一定意义。但论文的写作策略和专利毕竟还有不同,论文的关键词也无法全部涵盖专利中出现的技术词汇。通过语言模型的无监督成词方法[12],将专利摘要进行分词,所得词汇和论文关键词混合在一起作为条件随机场模型标记语料的来源就更具全面性。
经过条件随机场识别出的锂电池专利词汇,可以作为锂电池热点分析的词汇来源。为了研究锂电池技术的相互依赖、关系的紧密,对锂电池专利摘要中的专利词汇进行共词分析。共词分析是对同一篇文献中词汇对共同出现的次数进行统计,揭示这些词之间的亲疏关系,分析它们所代表主题的结构变化[13]。一对词汇在同一篇文献中出现的次数越多,代表这两个词关系越紧密。由此,统计一组文献主题词在同一篇文章中两两出现的频率,建立主题词共现网络。网络内节点之间关系反映了主题的相关情况。研究技术路线见图1 所示。
1.锂电池专利数据。本文以国家知识产权局官网中所发布的锂电池领域的专利文本为数据源,利用爬虫工具获取该领域2011-2020年的相关专利文本。对检索结果分别进行了清洗、合并、去重,最终获得46073 条有效数据。
2.锂电池论文关键词。由于锂电池属于特定技术领域,其专利文本中存在一部分专业词汇,例如“磷酸铁锂”“正极活性材料”等,而这些关键词在研究锂电池的论文关键词中有所体现,实验为了提取更为准确的锂电池领域专业词汇,检索知网中收录的“锂电池”相关论文,共检索到50107 篇文献,导出所有文献标题、摘要和关键词,最终提取其关键词进行清洗、去重并筛选三字及以上词汇后,共得到25371 个专业词汇。
3.基于语言模型的关键词。考虑到中国知网中有关锂电池的论文关键词与专利数据中蕴含的关键词存在一定的偏差,需要对专利文献中符合统计规则的一些词项进行独立提取。利用KenLM 工具对专利文本进行N-gram 语言模型训练,导出锂电池相关词汇,为条件随机场模型做准备。步骤为:(1)对46073条专利文本摘要进行处理,包括增添空格和去除标点符号等操作,制造符合KenLM 工具的语料;(2)调用KenLM 工具的count_ngrams 程序统计专利文本摘要的ngram,执行结束后将结果保存在一个二进制文件中;(3)利用KenlmNgrams 语句进行读取后,调用filter_ngrams 程序过滤ngram,其中[0,2,4,6]是互信息的阈值,第一个0 无意义,仅填充用,而2、4、6 分别是2gram、3gram、4gram 的互信息阈值;(4)构建一个ngram 的Trie 树,将ngram 片段连接成尽可能长的候选词,筛选词频至少为5 次以上的词汇,并对词汇进行清洗,删除不完整词汇,例如“二氧化”“氢氧化”等,而后导出词库,最终共得到10830 个相关词汇。
4.锂电池标记词典。将中国知网中近十年来所有与锂电池领域相关的25371 个专业词汇和基于N-gram语言模型的无监督成词方法得到的10830 个相关词汇进行合并,去掉1642 项重复项,最后得到34559 个锂电池领域相关词汇。将这些锂电池相关词作为专利文本摘要的标记词,对专利摘要进行标注。
表2 条件随机场模型特征模板
表3 条件随机场模型的精确度、召回率及F 值
为了使用条件随机场模型对专利文本的摘要数据进行训练,需要将专利文本数据进行标注。标注规则使用“B”“I”和“O”形式。以锂电池标记词为目标,遍历专利摘要文本,遇到标记词的首字母则标记为B,其余字母标记为I,遍历过程中不在标记词典中的词一律标记为O。下面为一段专利文本,对其的标记结果见表1。
摘要数据标记后,构造基于字的上下文特征模板,见表2。其中“U00:%x [-2,0]”中,U 表示一个序列类型的行为函数为Unigram,00表示序列特征的id,%x [-2,0]代表x 的位置,-2 代表针对x 的行序列向上偏移2 个字符,0 代表针对x的列序列偏移0 个位置。
为了提高模型的质量,采用交叉验证方法将训练集和验证集合并,随机分为互斥的5 个子集,为了保证其随机性,5 次随机划分取平均。将5 个子集随机地划分为4 个一组和剩下1 个为另一组。在每一种分组结果中,4 个子集的组当作训练集,另外1 个当作测试集,这样就产生了5 次预测,对其取平均,获得模型准确率、召回率和F1 参数数值(表3)。
从实验数据中可以看出,条件随机场模型训练的精确率、召回率和F1 测度值数值都较为可观,精确度达到了85%,召回率达到了84%,F1 测度值则为84%,说明条件随机场模型的训练效果较好,因此利用条件随机场模型识别锂电池专业词汇是可行的。
根据条件随机场模型预测结果,识别出锂电池专业词汇,对所得到的专业词汇进行清洗,共得到14698 个专业词汇。基于该专业词汇词典集,依照正向最大匹配法筛选出46073 条专利摘要中与词典匹配的词项,将每条摘要中提取出的词汇进行两两连边,重复连接的次数设为边的权重,构建加权网络,最后以边权重的离群点为过滤门槛,对加权网络进行筛选,得到锂电池专利数据中的共词网络并对其进行分析(图2)。
锂电池共现网络中节点大小为度中心性,边权重为关键词共现的频次。节点越大,表示该关键词越是热点。边越宽,两个互联的关键词越具依赖性。从图2 可知,“锂电池组”和“技术领域”的度中心性最大,而且与“负极”“控制器”“传感器”等连接紧密,说明锂电池组是当前锂电池技术领域研究的热点。锂电池组与电池负极材料和电解质材料之间的联系密切,若要提高锂电池组的内部性能,必须考虑电池的正负极材料,以实现最优的电池质量。“锂电池组”与关键词“控制器”之间的节点联系密切,说明锂电池组在作为其他产品或设备的控制器动力上有着较为广泛的应用。“锂电池组”与“传感器”之间的节点连线联系密切,说明锂电池的研究与其内部的温控有关。还有一些联系紧密的节点比如“散热”“锂电池技术”“电解液”“稳定性”等,说明锂电池的技术重点在电解液、散热和稳定性等方面。在锂电池的应用方面,“控制器”“太阳能”“传感器”等几个关键词连接较为紧密,说明目前锂电池在其他设备上的应用较为广泛,例如锂电池在LED 太阳能路灯控制器,在使用锂电池的基础上,配合太阳能光板,推动了我国新能源产业的发展。
图2 锂电池专业词汇共现网络
专利涉及到所有锂电池技术领域中最新、最活跃的创新性技术资料,从专利文献中可以了解锂电池应用领域未来发展的最新动态。本文以国家知识产权局官网中2011-2020年锂电池领域的专利文本为数据源,利用爬虫工具获取专利摘要信息。通过提取中国知网近十年来所有锂电池领域的相关文献关键词,使用KenLM 工具中语言模型对专利文献进行分词,合并通过上述两种方法得到的词汇。以此词汇为标记来源,基于条件随机场模型对专利文本进行专业词汇提取,最终得到的词汇预测准确率、召回率和F1 测度值分别为85%、84%和84%。条件随机场模型提取了14698 个锂电池领域常用专业词汇。
基于该专业词汇集,依照正向最大匹配法筛选出46073 条专利数据摘要中与词典匹配的词项,将每条摘要中提取出的词汇进行两两连边,以边权重的离群点为过滤门槛,对加权网络进行筛选,得到锂电池专利数据中的共词网络结构,并对其进行分析。发现目前锂电池技术领域的研究热点仍然是在于如何改善和提高锂电池的内部性能上。锂电池组已经成为当前锂电池在突破技术领域研究的热点核心。