李凌宇 常 春
(中国科学技术信息研究所 北京 100038)
概念指思维单元,反映人对于事或物的抽象感知,可以通过多种术语形式表达,是知识组织系统的基本单位[1]。叙词表作为一种结构化的概念集合,以语词的形式对概念进行书面化表达,每收录一个语词代表一个单一概念(或思维单元)[2],通过范畴体系划归概念的学科分类。国家级大型综合性叙词表——《汉语主题词表》(以下简称《汉表》)在不断地编制维护过程中,现已进行到《汉表(生物医学农业卷)》的编研阶段。随着科学日益向高度融合和高度分化双向并进的趋势发展[3],各学科间相互影响、相互碰撞,演化出诸多学科交叉型研究,大量概念在其产出的文献环境中,被赋予新的学科属性,成为“交叉概念”。生物、医学、农业三个学科领域由于交叉融合程度高而存在着大量交叉概念,围绕这些跨越多个领域的术语概念,分析它们在学科分类及语义关系中的关联与逻辑问题,满足了《汉表(生物医学农业卷)》的编研需要。
生态学是研究有机体及其周围生物与非生物环境之间相互作用、相互关系的科学[4],自1866年德国生物学家E Haeckel正式提出以来便表现出学科交叉的特性[5],常春于2015年引入生态学理论,将概念和文献环境组成的知识系统对应于物种和生态环境组成的生态系统,已取得一定研究成果[6]。在生态学视角下思考叙词表交叉概念,关联到群落之间重合和过渡的区域——群落交错区,边缘效应是该区域内物种具有的多样性相对丰富的一种属性,典型表现即“种的数目及一些种的密度增大的趋势”[4]。本文着眼于群落交错区和边缘效应理论,将学科交叉思维应用到学科交叉问题的理论研究中,假设群落交错区与学科交叉文献之间、交错区物种与叙词表交叉概念之间存在对应关系,验证学科交叉区域叙词表交叉概念的多样性属性,从生态学视角为综合性叙词表编制中交叉概念的遴选增添新的理论依据,并尝试为《汉表(生物医学农业卷)》的编研提供参考建议。
生态学将某一空间内的生态群落与其生存环境之间传递能量、进行物质交换形成的有机统一体称为生态系统。知识组织生态系统借鉴这种理念,将概念实例类比于生物个体,将叙词表概念类比于群落物种,将包含概念的文献环境类比于群落生存的生态环境,形成了一套相对完整的理论体系。立足于此,详细分析群落交错区、边缘效应和叙词表交叉概念的特征,及二者的相似性,进而提出群落交错区物种与叙词表交叉概念间的对应关系假设。
群落交错区(ecotone)又称生态过渡带或生态交错带,最早在1905年被F E Clements提出,“用来描述物种从一个群落到其边界的过渡分布区”[7]。1960年E P Odum完善其定义为:两个或多个区域生态系统产生重叠交集并相互影响相互作用后形成的一个生态系统转化区域[8]。由于同时兼具不同种生物群落的物质、能量、结构和功能体系,群落交错区内多种生态要素在或对抗或联合的强烈作用下容易发生突变,经常出现生态环境复杂、多个物种共生、种群密度不稳定等现象,物种多样性偏高的可能性也大大增加,因而具有抵抗外力能力弱、异质性强、恢复能力差、信息量大、自由度高等特征[8-9]。
边缘效应(edge effect)的概念由A Leopold于1933年提出,指群落交错区内物种的种类与个数多于各自生物群落的现象[10]。1942年W J Beecher进一步注意到群落交错区存在共生物种的现象,统计得出该区域某些物种活跃度高、种群密度动态性强的结论,总结为边缘效应[11]。在国内,王如松先生和马世骏先生较早地对边缘效应理论进行了深入讨论,点明其作为普遍现象在人类生态系统也广泛出现,并综合成因和表现,定义边缘效应是:“在两个或多个不同性质的生态系统(或其它系统)交互作用处,由于某些生态因子(可能是物质、能量、信息、时机或地域)或系统属性的差异和协合作用而引起系统某些组分及行为(如种群密度、生产力、多样性等)的较大变化”[12]。无论从哪一种定义出发,边缘效应始终建立在群落交错区的概念基础之上,是一种交错区任何单独物种的群落内部都不存在的生态现象[13],物种层面的特征概括为:群落交错区内生物种类和相对密度增加,即物种多样性增大的趋势。
不同学科领域对“交叉概念”的界定不同,教育学研究中认为其是一种具有理工学科特点的教育理念[14];学科交叉研究中有观点认为,只有当“多种学科概念的内涵真正融合在一起,并且超越二者时”才能构成“交叉概念”[15]。知识组织系统的研究中,叙词表概念作为基本单位,存在基本属性和学科属性等多重属性,其中,“学科”被国标定义为“相对独立的研究体系”,具备自身的研究对象、研究方法、研究目的等要素[16]。本文将叙词表交叉概念定义为:存在于两个或两个以上的学科中、具有多重属性、在不同学科中其属性侧重各异的概念。例如概念“cells(细胞)”,在生物学中,被关注的属性侧重于细胞是生命的基本组成单位,如动物由动物细胞组成、植物由植物细胞组成;在医学中,被关注的属性侧重于维持人体组织正常运作的生理病理机能特性,如血红细胞通过血液流动为人体各个器官输送氧气;在农业学科中,被关注的属性侧重于生产性能、病虫害防治等的重要切入点,如可以改变细胞壁、细胞膜的厚度来增强对病毒的抵抗能力。
《汉表》的范畴体系,根据文献的分类号及学科分布特征、概念共现或共篇、文献共引或共被引等信息,在规定的范畴体系基础上通过进一步完善而得来[17],通过设立多级范畴类目从而实现每个概念的学科划分。在《汉表》概念与范畴体系的映射过程中,一个语词通常归入一个范畴类目,但如若某一语词的基本概念与本质属性同时对应多个范畴类目的专业属性、范围,可将其归入多个范畴类目。因此,叙词表概念具有多重学科属性的特征在其中表现为:同时归属于两个或两个以上的范畴类目。以概念“生态资源”为例,收录于《汉表(自然科学卷)》时[18],属于F119.9经济地理、P96自然资源学和X171环境生态系统、污染生态学三个分类,因此“生态资源”同时属于F经济、P天文学、地球科学和X环境科学、安全科学三个学科的范畴类目,是一个典型的交叉概念。
在一定时间的有限空间中,同种生物的个体集合组成种群,各种生物的种群集合形成狭义上的群落,多个狭义群落与所处的非生物环境一同组成广义上的生物群落。边缘效应是对两个及两个以上群落间交错过渡区域内物种整体属性的概括,所以,基于生态学边缘效应的叙词表交叉概念研究,实则为群落交错区物种与叙词表交叉概念的对应研究。
1.3.1空间特征对应
交错区物种也称边缘物种,生存在群落交叠的过渡区域,通常种间关系网络相对丰富,对生态环境的适应性强,可在产生交错的不同生态系统中生存。例如,生活在阔叶林-农田交错区的喜鹊,因繁殖的前期和后期以食用植物籽实为主多筑巢在农田附近[19];针叶林-阔叶林混交林中的常见的白桦树,因耐寒、对土壤适应性强,在阔叶林腹地也能够茁壮生长。
叙词表交叉概念同样出现在不同学科领域的文献中。叙词表概念出自文献,概念的范畴分类来源于文献所属的学科领域和集中主题。以《汉表》基础词库中的概念“DNA酶”在CNKI中国知网进行主题检索,学术期刊文献共76.50万篇,将文献标注的学科领域映射到叙词表的概念范畴分类,结果如表1所示,范畴分类排名前三位的是医学、生物和农业,与“DNA酶”标注的范畴号R、Q、S一致。因此,群落交错区物种与叙词表交叉概念在空间特征上存在对应关系。
1.3.2物种多样性与交叉概念数量、密度对应
生态学的物种多样性通常包含两层涵义,一层指某一群落或生境内物种数量的多寡,反映物种种类的丰富度;一层指某一群落或生境内各物种的相对密度,反映物种分布的均匀度。两层含义分别以物种数量和物种个体数量为统计单位,以单位面积包含生境背景的群落为实验样方进行计量和对比,单位样方内种的丰富度增大或均匀度增大都是物种多样性增加的衡量指标。
表1 “DNA酶”主题检索文献的学科分类映射
群落交错区既有来自相邻两个群落的物种,又有原产于该区域的独有物种,物种数量普遍较高,从丰富度的角度来看物种多样性增加;在区域面积和生存资源有限的情况下,数量增大使得物种间竞争关系增强、物种占用生态位出现重叠,交错区物种的种间关系更加复杂,当交错区逐渐演化至动态平衡状态,单位样方内物种占用的生态位重叠程度趋于稳定,从均匀度的角度来看物种多样性增加,例如,湖岸和海岸的带状群落交错区就是重叠生态位模型[20]。
类比于交错区物种生存的生态环境,包含交叉概念的文献环境即学科交叉文献。由于某一学科领域的文献环境中主题数量与概念数量保持一致[21],学科交叉文献的主题涉及多个学科领域,表达主题的交叉概念由不同学科的领域叙词表概念演化而来。在同一学科领域的叙词表概念数量基本稳定在一个区间[22]的基础上,与学科交叉文献涉及的任一学科的领域文献相比,理论上相同数量文献所含的交叉概念数量相对较多、交叉概念的相对密度较大。因此,群落交错区的物种多样性与叙词表交叉概念的数量、密度也存在对应关系。
引入数量生态学的物种观测指标,从概念种类和概念相对密度两个维度建立交叉概念多样性模型,定量分析叙词表交叉概念的多样性属性。需要明确,数量生态学的所有观测指标都有测定范围的限制,因此论文规定多样性模型的所有测定范围均为大小相同的文献环境(文献数量相同),交叉概念多样性较高是相对某一学科内的专指概念而言的。
群落内部的物种种类数量作为一种生态学观测指标,方便、易于估计,能够客观反映规定面积生态环境中物种的丰富程度。定义概念种类为文献中表达主题的关键词概念的数量,一篇文献的概念种类即为其关键词概念的个数,多篇文献的概念种类等于所有不重复关键词概念的个数总和。估计交叉概念种类就是估计学科交叉文献的关键词概念中,具有分属不同学科类目的多个范畴号的交叉概念数量。以生物-农业交叉概念为例,在生物学领域和农业学科领域的文献中,利用生物学方法研究农业问题,或利用农业知识处理生物难题,以及其他同时涉及两学科的文献属于生物-农业的学科交叉文献,一定篇数的该类文献中,生物-农业交叉概念种类指所有同时标有生物、农业范畴号的关键词概念数量。
密度代表群落内部单位空间某个物种的个体数量,当不同群落进行比较时,数值受样方选取影响较大,当群落内物种比较各自密度时,数值受群落结构影响较大,均不利于对比分析。所以形容群落内各物种数量间比例的相对密度更适合反映群落物种分布的均匀程度,公式如(1)所示。定义概念相对密度为文献中某关键词概念出现的词频与全部关键词概念的总词频的比值。估计交叉概念的相对密度则是估计学科交叉文献的关键词概念中,每个具有分属不同学科类目的多个范畴号的概念词频,在所有多范畴号概念的总词频中的占比情况。仍以生物-农业交叉概念为例,一定篇数的生物-农业学科交叉文献中,某个生物-农业交叉概念的相对密度指其出现的词频与所有同时标有生物、农业范畴号概念总词频的比值,公式如(2)所示。
(1)
(2)
以表2模拟的文献环境测定模型为例,Si记作关键词概念,Ni记作对应概念出现的词频,则S代表概念种类,N代表模型内所有概念的总词频,概念相对密度P的计算公式如(3)所示。
(3)
物种种类数量和相对密度作为数量生态学中最常见的观测指标,对群落物种的描述各有侧重但相对单一,若进一步研究某个群落的物种多样性,常采用综合性指标——总多样性(即通常意义中的物种多样性,以下仍简称多样性)作为测定指标[21]。对标物种多样性并结合对概念种类和概念相对密度的定义,套用物种多样性的经典测定指标——香农-威纳指数(Shannon -Weiner index),概念多样性指数在表2模拟的文献环境中的计算公式如(4)所示。
(4)
使用交叉概念替换公式中的所有概念建立交叉概念多样性模型,综合反映交叉概念在学科交叉文献环境中的种类丰富程度和分布均匀程度。原香农-威纳指数指信息熵(信息出现的不确定性),数量生态学用其形容物种出现的不确定性,指数值越大,不确定性越高,说明物种多样性越大,同理,较之于单领域文献环境中的概念多样性指数,若交叉概念多样性模型的指数值越大,说明交叉概念的多样性越高。
交叉概念多样性高低是相较于单学科概念而言的,本文通过对比两个独立的学科文献环境与二者相交的学科交叉文献环境的概念多样性指数大小,验证叙词表交叉概念具有多样性属性的假设。
实证以生物和农业两个学科领域为背景展开。首先对一个生物-农业交叉概念进行主题检索,由于交叉概念在交叉的不同学科的文献中均有可能出现,借助专家咨询法人工判断检索文献的学科分类,模拟出三个包含环境在内不同类型的群落样方。然后筛选出生物学文献里只标有生物学范畴号的关键词概念,农业科学文献里只标有农业科学范畴号的关键词概念,以及生物-农业学科交叉文献里同时标有这两个学科范畴号的关键词概念,模拟不同类型群落内的物种集合。最后,将统计到的三个文献环境中的概念数量与词频分别带入概念多样性模型的公式,若学科交叉文献环境中交叉概念多样性模型的指数值较大,即可验证叙词表交叉概念多样性相对较高。
本文选取科技知识组织体系(STKOS)中的知识组织系统“英文超级科技词表”(以下简称“英表”)作为概念范畴号的来源词表。“英表”共有来自理、工、农、医四大研究领域的60多万个概念,是一部概念来源广泛、体量庞大的综合性词表[23],结合编制和使用情况建立了一套完整的概念范畴体系,虽然与《汉表》的范畴表类型不同,但是同样能够实现大多数文献的关键词概念学科划归,其中生物学概念的一级范畴类目包括“16生物学(Biology)”“17植物学(Plants)”和“18动物学(Animals)”,农业科学概念的一级范畴类目包括“51农学(Agronomy)”“52林业科学(Forestry)”“53畜牧科学(Animal husbandry)”和“54水产、渔业、狩猎(Hunting,fishing,conservation,related technologies)”。“英表”收录的概念通过对国外数十部大型来源词表进行术语更新、质量控制等规范后得到的,与英文文献适配度更高,所以本文选取Web of Science核心数据库作为文献数据的来源。
第一步,统计文献数据。概念“avena sativa(燕麦)”在“英表”中标注的范畴号有两个:“170708 禾本目(Poales)”和“510401.0404 燕麦(Oats)”,分属生物和农业两个学科,是典型的生物-农业交叉概念。在Web of Science核心数据库对“avena sativa”进行主题检索,按照被引频次从高到低的顺序对检索结果进行排列,结合Web of Science提供的文献“类别/分类”信息,请相关领域专家人工判断文献的学科类型,各筛选出10篇生物学文献、10篇农业科学文献和10篇生物-农业学科交叉文献。例如文献[24]的“类别/分类”信息中,研究方向标注为“Agriculture”,Web of Science类别标注为“Agriculture, Multidisciplinary”,并请教农业科学专家,判断其为一篇涉及生物学和农业科学的学科交叉文献,可以作为实证数据使用。
第二步,统计概念数据。分别抽取三个文献环境样方的关键词概念,去重后对照“英表”逐一查验每一个关键词概念的范畴号,确认概念所属的学科领域,精炼出生物概念、农业概念和生物-农业交叉概念建立三个概念集合,计算概念集合所对应的文献环境样方中每个概念出现的词频。生物概念和农业概念的统计结果如下表3所示,左栏展示10篇生物学文献中只标有生物学范畴号的关键词概念及对应词频;右栏展示在10篇农业文献中,只标有农业科学范畴号的关键词及对应词频。例如概念“wild plants(野生植物)”标注的范畴号有两个:“170403各类植物(非植物学分类)”和“170404.10植物群落生态学与种群生物学”,满足只标有生物学范畴号,计入生物概念集合;概念“conservation tillage(保育耕作)”标注的范畴号有三个:“500805.01保护性耕作(Conservation tillage)”“510401.0201土壤耕作(耕作)(Soil working(Tillage))”和“510402.04保护性耕作(protected cultivation)”,满足只标有农业科学范畴号,计入农业概念集合。
表3 单学科文献环境的概念及概念词频
生物-农业交叉概念的统计结果如下表4所示,展示的是在10篇农业-生物学科交叉文献中,所有同时标注有生物学范畴号和农业科学范畴号的关键词及对应词频。例如概念“wheat(小麦)”标注的范畴号有三个:“170708禾本目(Poales)”“510401.0402小麦(Wheat)”和“670214谷物、种子及其衍生产品(粮食加工)(Grains, other seeds, their derived products)”,满足同时标有生物学和农业科学的范畴号,计入生物-农业交叉概念集合。
表4 生物-农业文献环境的概念及概念词频
续表4 生物-农业文献环境的概念及概念词频
第三步,统计概念多样性数据。将关键词概念的种类数量及概念词频带入交叉概念多样性模型如下表5所示,一个关键词概念模拟作一个物种统计概念种类,每个概念的词频模拟物种在群落内的个体数量测得概念相对密度,进而计算出三种类型文献环境的概念多样性指数。
表5 三种文献环境的概念多样性模型
比较发现,在利用概念“avena sativa(燕麦)”模拟出的文献环境模型中,从概念种类指标来分析,单学科文献环境的概念种类较小,生物学的概念种类与农业科学的概念种类相同,生物-农业交叉概念的概念种类大于二者,说明相同篇数的文献环境下生物-农业交叉概念最丰富;从概念多样性指数来分析,生物-农业交叉概念的总词频远远高于生物学和农业科学任何一种的概念总词频,由此计算得到的概念多样性指数也最大,说明相同篇数的文献环境下生物-农业交叉概念的多样性最高,与叙词表交叉概念多样性较高的假设一致。
综上所述,判定实证结果符合本文基于生态学边缘效应提出的叙词表交叉概念属性:学科交叉文献环境中,叙词表交叉概念种类较多、概念多样性高于各自单学科文献环境。
叙词表概念间通过等级关系和相关关系实现不同层面语义的关联。本文已经证实学科交叉文献环境中,无论是概念种类还是概念多样性指数均远大于单一领域叙词表概念,说明交叉概念在其出自的文献中数量较大、出现频率较高、分布较密,由此引申出交叉概念间语义关系也更丰富,例如多等级结构增加、相关关系网络更加复杂。面向《汉表(生物医学农业卷)》的编制,在各领域概念汇总后,对学科之间相互重叠的交叉概念,应格外关注其关系的建立问题,论文在此提出两点建议如下。其一,建议在其涉及的多个学科范畴类目中同时寻找与其存在等级关系的上位概念和下位概念,例如生物-农业交叉概念“barley(大麦)”,一个上位概念“food grains(粮食)”处于农业科学的范畴类目,一个下位概念“hordeum jubatum(芒颖大麦草)”处于生物学的范畴类目,只有同时兼顾两个范畴类目才能建立更完善的等级关系;其二,建议寻找与其存在相关关系的概念时,应不局限于单领域叙词表概念,将视野拓宽到学科范畴类目存在重叠的交叉概念中,例如在与“barley(大麦)”具有相关关系的概念中,“barley malt(大麦芽)”属于生物学与食品加工学科的交叉概念,“barley straw(大麦秆)”属于农业科学与环境工程学科的交叉概念,“irrigation(灌溉)”则属于农业科学与管理学的交叉概念,均为与生物学或农业科学存在重叠范畴类目的交叉概念。
本文从生态学视角观察叙词表交叉概念的群体属性。基于知识组织生态系统理论体系,分析叙词表交叉概念与群落交错区物种的对应关系,提出叙词表交叉概念属性具有类比于生态学“边缘效应”的物种属性特征,参照物种测度指标定义概念计量指标——概念种类和概念相对密度,建立了交叉概念多样性模型。实证环节通过检索特定的生物-农业交叉概念,模拟小型学科交叉文献环境,计算得出相同大小的不同学科文献环境中,生物-农业交叉概念种类最多、概念多样性指数最大,提出了叙词表概念多样性的量化方法,验证了叙词表交叉概念的多样性属性,并针对叙词表的编制提出了两点建议。考虑到本文选取的实验数据量较小,对概念多样性指数的计算可能存在干扰,今后还需扩大数据量进一步提升实验效果。同时,基于本文提出的叙词表交叉概念属性与生态学群落交错区的物种属性对应关系,是否能够沿用该思路,从概念间语义关系的维度出发,同样通过实证数据验证叙词表交叉概念间语义关系的属性,也是一种研究方向。