陈 荣,袁硕娜,朱 雯,王倩倩,孙济庆(华东理工大学科技信息研究所)
知识关联是指知识单元之间存在的各种关系的总和,知识单元包括文献、人脑等知识载体和概念、词语等知识内容。[1]具体地说,知识关联就是指大量的知识单元之间存在的知识序化的联系,以及所隐藏的、可理解的、最终可用的关联。[2]术语是在特定专业领域中一般概念的词语指称(GB/T 15237.1-2000 3.4.3),是某专业领域内的国际通用语言,可以解决领域内对某事物的沟通交流障碍,具有专一性、特定性和精确性,不存在误差和歧义。[3]专业术语作为专业领域知识表达的基本单位,是知识网络的基础节点,[4]在课题检索和知识服务中具有非常关键的作用。目前,国内外关于SciFinder 数据库[5-7]和三大中文数据库——万方、维普、中国知网[8-10]的研究内容基本相同,主要集中于数据库的使用方面,如收录范围、检索方法和系统功能等。另外,还有部分研究集中在数据库之间的比较,如Reaxys 与SciFinder 的比较,[11]万方、维普和CNKI 之间的比较,[12,13]比较的着眼点也集中于检索方法、功能和收录情况等方面。
可见,目前数据库的研究方向主要集中在客观的检索能力方面,并没有从数据库内部的知识关联角度进行深入探讨,也没有在数据库内部对专业术语检索结果的研究。SciFinder 是美国的化学专业数据库,其检索途径全面、知识关联丰富,而国内多为综合类学科文献数据库,缺乏这类专业的数据库。故本文选取SciFinder 维普、万方和中国知网,基于专业术语“水杨酸(salicylic acid)”“轻烃(light hydrocarbon)”等,从知识关联类型、表达形式和强度对上述4 个数据库的知识关联进行深入分析和比较,旨在使用户了解各数据库对术语的处理原理,促进中文数据库改进术语处理,提升数据库的知识服务能力。
本文将检索过程分为检索前和检索后两个过程,对这两个过程中文献数据库的知识关联类型进行分析比较。检索前是指输入检索词未出现检索结果的检索过程,检索后是出现检索结果的检索过程。通过检索化学术语“salicylic acid(水杨酸)”“light hydrocarbon(轻烃)”等,发现文献数据库的知识关联类型主要是两种,一是显性知识关联,二是隐性知识关联。显性知识关联是指知识单元与知识单元间表现出来的易于识别和发现的关系,[14]隐性知识关联是指知识单元与知识单元间难以识别和发现的隐含关系。[14]
检索发现:① SciFinder 数据库的知识关联主要是检索后的显性知识关联和隐性知识关联,检索前没有知识关联;② 万方数据库、维普数据库的检索前的知识关联主要是显性关联,检索后的知识关联包含显性知识关联和隐性知识关联;③中国知网检索前和检索后的知识关联主要是显性知识关联。总体而言,SciFinder 作为化学领域的专业数据库,其在检索前不包含知识关联,而作为综合类文献数据库的万方、维普和中国知网数据库,其检索前和检索后均包含隐性知识关联和显性知识关联。
知识关联表达形式是指文献数据库通过哪些形式将与专业术语检索词的相关知识表示出来(见表1)。本文将显性知识关联的表达形式分为直接关联形式,即知识关联内容直接包含检索词,将隐性知识关联的表达形式分为相关词关联形式、知识图谱关联形式以及其他特色关联形式。相关词关联形式是文献数据库能提供与检索词有关系的词,如同义词、不包含相同词素的词等,主要以词的形式表现;知识图谱关联形式是文献数据库以图谱的方式表现与检索词相关的内容,如形成以检索词为中心的知识网络;其他特色关联形式是指与专业特色有关的知识关联方式,如化学反应式关联方式等。
① SciFinder 的显性知识关联的形式是指明确包含检索词的文献(见图1)。相关词关联形式包含术语- 文献知识点关联形式、术语- 术语关联形式。术语- 文献知识点关联形式是指在整篇文献中,没有明显出现该专业术语,而是通过文献中的知识点,间接性地关联初始检索词(见图2);术语- 术语关联形式是指通过初始的专业术语检索词间接性地将其他相关术语关联起来(见图3)。其他特色关联形式包含符号知识点关联形式、图形知识点形式和其他知识点形式。符号知识点关联形式是指通过专业特点符号等可以确定该检索的相关信息,如通过化学物质登记号等可以确定物质的名称、分子式等相关信息(见图4)。图形关联形式是指以图形表达检索词的相关信息,如通过化学物质结构式可以得到物质的分子式,进而连接到物质名称,并且可以查找到与该结构式相关的反应式等(见图5)。其他知识关联形式如化学反应式关联形式,即通过化学反应式可以关联到反应物、产物、反应试剂、中间体等许多化学物质(见图6)。
(2) 首先,万方、维普和中国知网的显性知识关联形式主要是下拉框列表形式,即输入检索词,系统自动出现以该专业术语检索词为词首的扩展词(见图7)。其次,万方、维普和中国知网的相关词关联形式主要是以关键词列表或者相关检索词列表形式出现(见图8),需要指出的是关键词列表和相关检索词列表中的词有一部分是显性知识关联。
(3)万方和维普包含知识图谱关联形式,而中国知网不包含知识图谱形式。知识图谱形式是以检索词为中心扩展相关词,包含与专业术语检索词相关的范畴、同义词、上位词、下位词等(见图9)。
表1 文献数据库知识关联表达形式
图1 SciFinder 直接关联形式
图2 SciFinder 术语—文献知识点关联形式
图3 SciFinder 术语-术语知识点关联形式
总体而言,作为综合类学科文献数据库的万方、维普和中国知网尚未对专业术语的专业性进行特定的知识关联,而作为化学专业数据库的SciFinder 的知识关联形式与检索词的化学特性紧密相连,不仅仅是词的形式,还包括与化学物质相关的分子式、结构式、反应式等,更加全面和智能化。在SciFinder 数据库中输入“light hydrocarbon(轻烃)”,时间限制为2017-2018 年,语言选择“中文”,检索结果中出现了不明确含有“轻烃”的文章,但是包含轻烃的下位词“n-pentane(戊烷)”、“naphthalene(萘)”等的文章,可以找到相关物质的结构式(见图10、图11)。而在中文数据库中输入“light hydrocarbon(轻烃)”,时间同样限制为2017-2018 年,检索结果均是明确包含“轻烃”的文章,知识关联形式较简单(见图12)。
图4 SciFinder 符号关联形式
图5 SciFinder 图形关联形式
图6 SciFinder 反应式关联形式
图7 万方下拉框列表形式
图8 中国知网数据库的关键词列表形式
图9 万方数据库知识图谱形式
图10 SciFinder 检索结果“n-pentane(戊烷)”
图11 SciFinder 检索结果“naphthalene(萘)”
图12 中国知网数据库检索结果
知识关联强度是指知识单元间联系的紧密程度,测量知识关联强度的指标主要有相关性、耦合强度和共引强度、共词和共现频次等。[15]本文从相关性角度比较数据库的知识关联强度,通过了解检索词salicylic acid 的相关信息(见表2),[16]比较文献数据库中是否有该检索词的相关信息出现,从语义、应用和化学反应三个方面对文献数据库的关联内容进行关联强度分析,其中语义相关是指与“水杨酸”存在上位、下位或者相关关系,应用相关是指在应用研究领域中与“水杨酸”有直接或者间接的关联关系,化学反应相关是指与“水杨酸”共同作用于某一化学反应,可为反应物、生成物或试剂等。
表2 “salicylic acid”的相关信息
图15 SciFinder 检索结果“salicylic acid(水杨酸)”
(1)SciFinder 关联的知识与专业术语检索词之间存在较高相关性,一方面除提供包含检索词的文献以外,还有隐含关联的其他文献,用户可以根据需要选择显示两类文献的交集、并集或任何一部分(见图15);另一方面还提供了检索词的详细信息,如分子式、结构式和相关的化学反应式,还可以利用Markush(马库什) 检索来确定该检索词的种类和名称,进一步获取该检索词的其他相关信息。
(2)在万方数据库中,用户在检索结果中可以获得与专业术语检索词相关的其他词,并且大多是不与检索词含有相同词素的词,如本文使用的检索词是“水杨酸”,在万方数据库检索结果中提供的知识图谱会显示水杨酸的上位词、下位词、同义词等,下拉框列表关联内容均是与水杨酸有紧密关联的化学名词,相关检索词与“水杨酸”的关系如表3 所示,由此分析发现这些词大部分是与水杨酸应用相关,可以明确定位到某个应用领域中,但这些词具有一定的重复性,相同的概念多次出现。
表3 万方数据库“水杨酸”的相关检索词及相关关系
(3) 维普数据库除了常规数据库提供的文献和相关检索词之外,还创新提供了以专业术语检索词为中心的知识图谱,围绕该检索词有与其相关的作者、机构、刊物、学科、其他检索词等,让用户更加清晰明了地了解检索词的相关信息。由于维普数据库提供的下拉框列表提供的关联内容与知识图谱中显示的主题词内容相同,故仅分析下拉框列表中的关联内容。如表4 所示与水杨酸相关的词中大部分是应用相关词,但像“水杨酸诱导”(序号3) 和“水杨酸处理”(序号7) 这样的词汇,既不是专业术语,也不是化学名称,并不应该出现在相关主题词中,而应该与具体水杨酸含量检测方法等一类术语合并,如“高效液相色谱法”(序号1) 等。分析可能的原因是维普数据库的知识关联内容主要通过关键词共现实现,所以关联的知识未涉及术语的上位概念和下位概念及同义词。
(4)中国知网数据库提供的知识关联结果大多与专业术语检索词含有相同词素,它们之间的共词素越多,关系越紧密,如在中国知网数据库中输入检索词“水杨酸”,下拉框列表关联内容均是与水杨酸有紧密关联的化学名词,关键词列表关联内容是通过词频统计将关键词进行排序,有的是专业术语,有的是方法等,但这些词的类别和关系在一定程度上有些混乱。相关检索词关联内容如表5 所示,除了专业的化学术语之外,还有“含量测定”“同时测定”“水杨酸的合成”等词汇,分析原因可能是用户曾经使用过的检索词,这些词被数据库收入了系统中,但由于这些检索词没有经过数据库二次筛选或者分类,而是直接推送给下一检索用户。因此中国知网提供的知识关联内容范围较窄,涵盖面窄,局限性较大。
表4 维普数据库“水杨酸”的相关检索词及相关关系
表5 中国知网数据库“水杨酸”的相关检索词及相关关系
总体而言,SciFinder 知识关联强度较高,而万方、维普和中国知网对于知识处理的深度不足,并且中文数据库主要以计算机对用户输入的检索词词频或文献共词词频为基础进行的关联,尚未经过人工处理,关联结果的可靠性和准确性不强。
本文以“salicylic acid(水杨酸)”“light hydrocarbon(轻烃)”等为检索词,从知识关联类型、知识关联表达形式和知识关联强度三个方面分析SciFinder、万方、维普和中国知网数据库中的知识关联。发现作为化学专业数据库的SciFinder 深入挖掘与化学专业特色有关的关联形式,形成了词- 形一体的关联形式,而综合类学科中文数据库万方、维普和中国知网对于专业知识的处理深度不足。维普数据库虽然创新性采用图谱关联的方式,但其知识关联局限于关键词共现,未涉及术语的上位概念和下位概念及同义词;万方数据库图谱关联方面功能较强,推荐的相关词与检索词之间的相关性较强,但其知识关联表达形式仅仅以词的形式出现,未深入挖掘专业特色;中国知网数据库提供专业术语的知识关联内容,但其知识关联表达形式单一,需要创新知识关联表达形式。
除了现有的基础知识关联表达形式以外,中文数据库需创新知识关联表达形式,加强文献中的内容挖掘,做到词—形一体。如本文中提到的检索词是化学专业术语,有很大的特点,区别于常规的检索词,既包含化学物质的特性,又包含化学名称、分子式、结构式、反应式等多个知识点关联,如果能做到将这些知识点相关联,则将大大提高中文数据库在专业领域的查准率和查全率,有利于用户发现更多的研究点,促进学术发展。
目前,中文数据库的知识关联原理是通过共词分析或词频统计得出关联结果,而关联结果会随来源出版物的更新而变化,而非仅仅由于共词等关系造成知识关联的改变,而SciFinder 数据库关联的知识点均是在人工筛选的前提下,再利用计算机进行处理,经过了专业人士的人工处理后可以大大减少计算机处理的误差,极大程度地增加了数据库的查准率。因此,建议中文数据库可以通过专业人士对用户使用的检索词、文献信息等进行筛选和处理,以保证数据库中检索出的相关知识点的正确性和有效性。
目前SciFinder 数据库是化学化工领域的权威数据库,其对于化学化工领域的文献处理较专业,而中文数据库是综合学科类数据库,没有精专某一学科的数据库,虽然检索模式是通用的,但以综合类学科均适用的检索方法为主导,专业学科的检索特点难免被忽视,这在一定程度上会降低数据库对专业学科知识点的查全率和查准率,因此,中文数据库需要加强对专业学科检索特点的探究,以保证数据库在检索专业内容时的准确性。