基于OAVU四元组的数值型知识元表示方法与实践

2022-08-11 03:16
现代情报 2022年8期
关键词:锂离子数值对象

王 山

(中国社会科学院经济研究所,北京 100836)

在当前数据化与智能化的社会背景下,数据量呈指数趋势发展,面对海量增加的数据信息,传统的以卷/册或篇为单元的文献服务已远不能满足用户的需求。多数情况下,用户感兴趣的可能只是专利文献或科技论文全文中的某一数值信息。中国科学院文献情报中心刘细文[1]指出,未来情报工作的战略选择应该重视发展基于数值的情报研究,建立以智能情报为核心的决策支持系统,进而充分发挥情报研究的决策咨询作用。国防科技大学罗威等[2]认为,数据驱动的技术预测需要综合利用科技文献的元数据、全文数据等,因数据涉及的内容纷繁复杂,层次不一,文章从数据、流程和系统3种视角对数据驱动的技术预测进行了梳理,提出了开展数据驱动的技术预测需要重点关注的六大关键技术问题。Mckeown K等认为,在进行技术预测时,引入基于全文的指标,抽取出全文中所蕴含的有价值的数值信息将显著提升技术预测的结果[3]。鉴于数值信息所具有的研究价值和实际应用价值,基于数值信息的知识服务相关研究越来越受到众多科研人员的关注与重视。但文献中的数值信息一般以非结构化形式存在,如何对这些数值信息进行结构化表示并逐渐提高信息抽取的准确率,成为了知识服务中重要的研究内容。

数值信息的结构化表示是简化数值信息描述与实现信息准确抽取的基础,因为信息抽取的目标是从海量无规则数值信息中通过自动化的技术提取出计算机能够理解、计算的结构化信息。由于科技文献中数值信息所蕴含的价值巨大,增值应用前景广阔,近年来国内外学者依据各自研究领域的特点,从不同的视角对数值信息的知识表示方法进行了积极有效的探索。数值型知识元作为数值信息的一种,因词汇表达、句法特征与表达方式的复杂性和多样性,知识表示方式更加灵活多样。然而,数值型知识元在知识表示方面的实践远落后于理论方面的研究,迄今为止还未见有学者对电化学领域科技文献中表征技术发展水平的性能指标数值信息进行知识表示与抽取,且已有数值型知识元表示较多局限于数字表达,在抽取结果中难以呈现出与命名实体之间的逻辑关系。因此,本文创新性地提出一种“研究对象(Object)—属性(Attribute)—数值(Value)—单位(Unit)”(以下简称OAVU)四元组的数值型知识元知识表示结构,根据数值型知识元的词汇表达、句法特征构建领域数值型知识元四元组结构,然后编写相对应的正则表达式实现领域数值型知识元的抽取,最大化利用隐藏在无序信息载体中大量有价值的数值信息,满足科研工作者数据驱动型研究的信息需求,实现数据统计分析、学术论文评价、知识挖掘与技术发展趋势预测等高层次的数值信息增值服务,为科学知识传承、科研方向选择、技术路径确定与科研创新等提供高效支撑。

1 文献综述

1.1 数值型知识元与数值信息

当今大数据环境下,情报信息的采集往往交由计算机自动完成,如关键核心技术的指标数据监测、军事武器装备的监测等,这些工作的其中一个焦点就是对数值信息进行采集监测。科技文献中的数值是一种有价值的信息,它存在于一定的上下文中。从表达形式上看,数值信息多以“数字”表达为构成主体,基数类数值信息是未与量词结合的相对“单纯”的数字,如序数词、分数、小数等,构成比较简单,所含信息量较少,且数据本身没有较大的实际意义;数量类数值信息是在基数类数值信息的基础上加上量词或者特定符号组成,以数词开头、量词结束,结构比较稳定,虽较易抽取识别,但数量类数值信息一般没有具体的对象,难以表达出事物本身的客观事实;数值型知识元是在数量类数值信息的基础上加上句子其他组分组成的,含有的信息更加完整,能够独立描述事物本身数值信息的知识单元。另外,在ACE(Automatic Content Extraction)测评会议中,特定情景下的事件名称也作为数值信息研究的主要内容,如“北京奥运会的赞助单位为联想公司”“小明在阿里巴巴担任总经理”,其中的单位信息、职位信息也被视为数值信息的一种[4-6]。数值信息主要分类如表1所示。因基数类、数量类数值信息难以展现出与研究主体或研究对象之间的逻辑关系,文章主要围绕数值型知识元展开知识表达与实践方面的研究。

1.2 数值型知识元多元组表示

肖洪等认为,数值型知识元是代表客观事物或事件本身数值方面的属性,如长度、销售额、利润等,依据经济学领域特点,将数值型知识元划分为宏观数值知识元与微观数值知识元,并用六元组表示经济学领域数值型知识元结构,即{时间、主题、指标、谓词、数值、单位}[7],例:{2005年、盘龙区、工业总产值、完成、62.93、亿元}。温有奎等认为,数值型知识元是以数值形式存在,能够表达一个独立的事实,并用{时间、地域、领域、对象、对象数值、单位、上属对象、相关对象、数据来源}来表达数值型知识,并提出数值型知识元的抽取是建立知识元库的先导和基石。他研究了数值知识元的特征和抽取规则,开发出一套数值知识元抽取软件,用于从年鉴、网页文本中自动抽取数值知识元并将抽取结果自动存入库中[8-10]。Roy S等认为,数值信息包含数字、单位、变化性3个语义槽,并提出数量—值二元模型尝试对数值信息的内部结构进行语义分析,但这种模型粒度较粗,难以向下游应用提供更多丰富信息[11]。Lamm M等提出了适用于金融领域的数值语义角色标注模型(Quantitative Semantic Role Labels),根据金融领域的需求设计了包括7个显式语义角色和5个上下文相关的语义角色[12]。吴超等认为,数值型知识元是一个含有数值信息并能够完整表达事实的信息单元,并将数值型知识元分为基础数据知识元、过程数据知识元与结果数据知识元,并对计算机科学、情报学、计算语言学、医学与管理科学与工程学科领域数值信息抽取相关内容进行了分析[13]。周和玉讨论了一种适用于知识工程领域的“研究对象—属性—数值”三元组知识标引法,该方法不仅可以表达文献主题内容,还能表达其所含知识。每一组“研究对象—属性—数值”三元组构成一个知识单元,多组“研究对象—属性—数值”可以充分表达一篇文献的研究特点及所含数据和知识[14]。

表1 数值信息主要分类表

通过学者们对数值型知识元的定义可知,数值型知识元是从数值角度描述客观事物或事件本身数值方面的知识单元,包括数据类知识和科学数据,具有数值分析与知识推理的功能。在知识表示层面,因研究领域的差异性与词汇、句法特征表达的多样性,数值型知识元具有不同粒度的知识表示结构,一般以多元组形式呈现,且结构元素具有明确的描述对象、具体的主题、确切的数值和单位量词等。但数值型知识元涉及到的学科领域不够丰富,表达结构比较复杂,移植性较差,迄今为止还未见有学者针对自然科学领域科技文献中的数值型知识元进行知识表达与抽取。已有知识工程“研究对象—属性—数值”三元组法虽可用于评价文献的知识量及创新程度,利于提高文献库的使用效率与情报分析精度,但该种方法使用的前提是需要先建立一个由“研究对象—属性—数值”三元组法标引的文献知识库,因研究领域的差异性特定领域大规模已标注的数据事实语料库较少,因此筛选出用户所需要的数据与事实,定位用户感兴趣的片段实属困难,且该方法在技术发展水平评价和趋势预测方面缺乏真正的实践应用。

1.3 数值型知识元抽取

信息抽取领域,数值型信息的抽取始于2000年12月美国组织的ACE评测会议,而中文数值信息的识别和抽取则始于2005年。数值信息抽取的目标是从海量的数据中,通过自动化的技术提取出计算机能够理解、计算的结构化信息,并以此帮助下游应用[6]。通过研读已有文献可了解到数值信息抽取所采用的数据源较多集中在报纸、新闻语料与Web网页上[5],且抽取的对象以基数类与数量类数值信息为主,对于数值型知识元抽取的研究工作主要有:Roy S等学者针对数值信息的内部结构提出了数量—值二元表示模型,并通过Semi-CRF序列标注模型定位到原始文本中表达数值的连续字串,然后运用基于规则的方法对字串中的语义成分进行了抽取和标准化[11]。Collobert R等利用前向神经网络,使用固定大小的窗口获取每个单词的上下文信息,提出了基于窗口和句子方法两种网络结构进行实体识别[15]。Lample G等首次使用一种小规模监督数据集并结合大量无标注语料进行训练,通过反向传播算法调整训练模型的参数与使用Dropout提高模型泛化能力后取得了不错的识别效果[16]。综上,关于数值型知识元抽取的方法主要有两种:一是规则与指标构建相结合的方法。该方法抽取准确率高,但需要投入较多的人力和时间;二是基于机器学习自动抽取的方法。虽然近年来机器学习抽取方法不断完善,效率较高,但目前尚未开发出大规模已标注的数值型知识元语料库,采用机器学习的方法对数值型知识元进行自动抽取有一定的困难,且抽取的准确率不尽人意。因此,为了提高数值型知识元抽取的准确率,本研究拟采用人工构建规则与指标构建相结合的方式实现数值型知识元的抽取,抽取流程示意图如图1所示。

图1 数值型知识元四元组抽取流程

首先在确定研究对象的基础上建立目标研究领域数值型知识元特征词集,对所下载的文献摘要进行文本预处理,提取含有技术性能特征数值型知识元(属性、数值、单位)的语句;选择对文献摘要中的数值型知识元进行处理主要考虑以下3个方面:一是数据层面,与摘要相比,科技文献全文数值型知识元的获取难度较大;二是技术层面,科技论文一般是PDF格式,将PDF格式转化为计算机可读的文本形式Bug较多,分析处理起来耗时耗力;三是内容层面,为了展现科技论文实验结果的优越性,自然科学领域表征技术性能指标发展水平的数值型知识元较多出现在文献摘要中。因此,本研究选择文献摘要进行文本预处理。文本预处理后运用Python编写代码对该语句进行切分,然后通过对所切分的句子集进行总结归纳,记录技术性能指标“属性—数值—单位”的规律性描述,继而构建候选规则集;最后运用Python构建数值型知识元“属性—数值—单位”三元组结构的正则表达式,实现“属性—数值—单位”的抽取。其中,正则表达式是对字符串操作的一种逻辑公式,是运用事先定义好的一些特定字符、或特定字符的组合组成一个“规则字符串”,来检索、替换那些符合某个模式(规则)的文本。

2 数值型知识元知识表示方法设计

2.1 数值型知识元四元组知识表示

考虑到上文所述数值型知识元在知识表示方面的研究局限,本研究设计了一种适用于自然科学领域的,用于技术发展水平评价和趋势预测的四元组表示结构,即“研究对象—属性—数值—单位”。在这种知识表达方法中,O代表对象(Object),既可以指物理实体,也可以指概念上的实体,如锂离子电池正极材料磷酸铁锂、船舶的运输业务等;A代表属性(Attribute),指与对象有关的一般特征或性质,如磷酸铁锂正极材料振实密度、放电容量、锂离子扩散系数、电导率与能量密度等;V代表值(Value),是指属性在一定条件下的数值,如磷酸铁锂正极材料振实密度、放电容量、锂离子扩散系数、电导率与能量密度的具体数值等,其中,值并不一定是具体的数值,也可以是描述语,如颜色属性的值可以是红、黄、蓝;U代表单位(Unit),指计量属性的名称,如航空发动机运转时内部温度能够达到2000℃,其中单位指的是℃。例如:某篇文献的一段文字:在锂离子电池正极材料中,磷酸铁锂(LiFePO4)因较低的电子导电率(10-7~10-10S·cm-1)和锂离子扩散系数(10-12~10-16cm2·S-1)导致其倍率性能不佳,难以满足迅猛发展的电动汽车锂离子电池对功率密度的需求。OAVU四元组结构可以表达为(磷酸铁锂、理论比容量,170,mAh/g)、(磷酸铁锂、电子导电率,10-7~10-10,S·cm-1)与(磷酸铁锂、锂离子扩散系数,10-12~10-16,cm2·S-1)。本文所设计的数值型知识元四元组表达结构在确定研究对象Object基础上,不仅可以建立起属性A与单位U之间的对应关系,还可以呈现出与研究对象之间的逻辑关系,拓展了科技文献大数据内容挖掘的粒度和深度,弥补了数值型知识元在自然科学领域科技文献中数值型知识元表示方法的不足。

2.2 抽取结果评价

查全率与查准率是信息检索领域检验信息抽取结果的重要指标,在对数值型知识元抽取结果检验方面,仅仅通过效仿信息检索领域的查全率与查准率,引入正确率、召回率与综合指标F值。虽然信息抽取结果评价指标比较单一,不能全面反映抽取结果的好坏,但正确率、召回率与综合指标F值仍为目前结果评价中比较有效的指标。因此,本研究拟采用精确率、召回率与F值对抽取出的实验结果进行评价,计算公式如下:

正确率(P)=正确抽取的信息数/需要抽取的信息数×100%

(1)

召回率(R)=正确抽取的信息数/所有的信息数×100%

(2)

F={P×R×(β2+1)}/(R+β2×P)×100%

(3)

β是正确率(P)与召回率(R)重要性的加权系数,本研究取均衡权重,将正确率与召回率视为同等重要,取β=1。

3 实证分析——以磷酸铁锂正极材料研究领域为例

正极材料作为锂离子电池最关键的功能材料,是锂离子电池锂离子之源,也是锂离子电池能量密度的基础,决定着锂离子电池整体的电化学性能及其成本。锂离子电池正极材料(表达式为LiFePO4)因铁资源丰富、价格低、无污染等优点成为一种大型能源所需的具有良好发展前景的材料[17-18]。本文以锂离子电池正极材料LiFePO4为研究对象,探讨数值型知识元四元组表达方法在该领域的应用。

3.1 数据来源与检索

论文及专利文献数据来源分别选择收录自然科学、工程技术领域最具影响力的SCI Expanded数据库及覆盖全球专利信息比较全面、权威的Derwent World Patents Index数据库。通过调研大量文献及结合专家建议制定锂离子电池正极材料磷酸铁锂研究领域的检索式为:TS=((“Lithium iron phosphate” OR “LiFePO4” OR “LFP” OR “LiFePO4/C” OR “LiFePO4@C”) AND (“batter*” OR “cell*” OR “polymer battery” OR “dop*”)),检索时间段为PY=2016,数据采集样本量如表2所示。

表2 数据采集信息表

3.2 磷酸铁锂数值型知识元四元组知识表示

通过大量研读锂离子电池磷酸铁锂正极材料相关文献可知,表征磷酸铁锂电化学性能的属性主要有倍率放电容量、锂离子扩散系数、电导率、振实密度与比表面积等。基于指标的代表性、动态性、科学性及可量化性,本研究选取了7个技术属性,分别为正极材料振实密度、0.1C放电倍率下放电量、5C放电倍率下放电量、10C放电倍率下放电量、离子电导率、锂离子扩散系数与电池质量能量密度[19-20]。其中,材料振实密度是表征正极材料颗粒间相互作用常用的指标;0.1C放电倍率下放电量、5C放电倍率下放电量与10C放电倍率下放电量可在一定程度上反映出低、中、高倍率下电池正极材料放电状况;离子电导率可以体现正极材料电荷流动难易程度;锂离子扩散系数可以考察出锂离子在电解液中的扩散能力;质量能量密度在一定程度上可以反映出电池储存能量的能力。

结合科技文献中磷酸铁锂正极材料属性、数值与单位表达方式,磷酸铁锂研究领域数值型知识元四元组结构表达式如下,以离子电导率为例,因数值型知识元四元组英文结构表达式较多,现仅展示部分,如(lithium iron phosphate,ionic conductivity,value,S/m)、(lithium iron phosphate,ion conductivities,value,S cm(-1))、(lithium iron phosphate,ion conductivities,value,mS cm(-1))、(lithium iron phosphate,ion conductivities,value,S CM(-1))、(lithium iron phosphate,electric conductivity,value,S CM(-1))、(lithium iron phosphate,electronic conductivity,value,S/m)、(lithium iron phosphate,electronic conductivity,value,S CM(-1))。表3展示了磷酸铁锂正极材料“研究对象—属性—数值—单位”四元组在科技文献中的主要出现形式。

表3 磷酸铁锂数值型知识元四元组每组主要的出现形式

3.3 有效性验证

为了验证本研究所设计的“研究对象—属性—数值—单位”四元组知识表达结构在数值型知识元抽取方面的优越性,本研究选择能够充分表达文献主题内容的知识工程“研究对象—属性—数值”三元组标引法,因为知识工程“研究对象—属性—数值”三元组知识表达法自提出以来,主要应用于特定领域的知识标引与科技项目的查新咨询,以解决科研主题、成果评审中的创新性评价问题,在筛选用户感兴趣的数据或事实方面可以起到有效的作用。因此,本研究通过数值型知识元四元组法与知识工程三元组法的对比分析来验证本文所设计的数值型知识元四元组知识表达结构的有效性。两种知识表达结构抽取结果如表4所示。实验结果表明,数值型知识元四元组中单位这一增量对科技文献数值型知识元的抽取产生较大的影响,主要体现在数值抽取更加全面,通过属性与单位所建立的对应关系使得数值型知识元抽取的准确率、召回率与F值均高于知识工程三元组法。在研究对象、属性一致的情况下,采用知识工程三元组法所抽取出来的数值不一定是特定属性下所对应的准确数值,而通过本研究所设计的知识表达方法所建立的属性与单位共存的正则表达式能够迅速定位到用户感兴趣的数值型知识元,不仅提高了数值型知识元抽取的准确率,也使得抽取出的数值型知识元更加接近于需要抽取的数值型知识元。

表4 不同知识表示方法抽取结果比较 %

4 总结与展望

自然科学领域数值型知识元知识表达与抽取方面的研究对技术发展规律掌握与发展趋势预测等具有重要的现实意义与实用价值。本研究系统梳理了已有学者对数值型知识元知识表示与数值型知识元抽取方面的研究成果,发现数值型知识元表达结构比较复杂,移植性较差,涉及的学科领域不够丰富,难以迅速筛选出用户感兴趣的数据或事实,在技术发展水平评价和趋势预测方面缺乏真正的实践应用。针对以上研究局限,本文创新性地设计了“研究对象—属性—数值—单位”数值型知识元四元组结构,在一定程度上提高了数值型知识元抽取结果的准确率与召回率,弥补了电化学学科领域表征技术发展水平指标的数值型知识元知识表达方法的不足。本研究的主要贡献在于:①本研究所提出的“研究对象—属性—数值—单位”四元组结构可以较为准确地抽取出电化学研究领域表征技术发展水平的数值型知识元知识,拓展了科技文献内容挖掘的粒度和深度,有助于科研人员密切跟踪技术发展态势,识别、掌握和突破关键核心技术中处于“卡脖子”短板位置的技术性能指标;②本研究所提出的知识表达结构可建立研究对象、属性与单位之间的索引,丰富了自然科学领域数值型知识元的知识表示方法体系,不仅可以深度解析科技文献内容,为文本内容挖掘的成果输出提供了新形态,也为科技文献大数据的开发利用奠定了数据基础。

本研究所提出的数值型知识元四元组结构也存在一定的研究局限。首先是技术属性层面,数值型知识元四元组结构更适应于研究对象属性易量化的技术领域,对于较难量化的安全性、可靠性等技术属性知识表达则有待进一步考察;其次是通用性层面,文章考察了数值型知识元四元组结构在电化学领域的知识表达与实践应用,对于自然科学领域中其他研究领域适用性如何,有待进行更深入的研究。

猜你喜欢
锂离子数值对象
用固定数值计算
神秘来电
高能锂离子电池的“前世”与“今生”
基于熵的快速扫描法的FNEA初始对象的生成方法
基于Fluent的GTAW数值模拟
区间对象族的可镇定性分析
锂离子电池组不一致性及其弥补措施
锂离子的萃取和反萃研究
锂离子电池基础科学问题(X)——全固态锂离子电池
带凹腔支板的数值模拟