胡雪环
(广东省立中山图书馆,广东 广州510110)
对科研机构的属性特征进行揭示,并实现基于属性特征关联的科研机构共现语义网络构建,是提高未来语义网络环境下知识检索、科研评价工作准确率的有效途径。
目前,不同组织机构根据其应用需求与目的的不同,对机构类型的划分也各有所异。国家标准《组织机构类型(GB/T 20091—2006)》中按照组织机构的功能和性质,将组织机构的类型确定为:企业、机关、事业单位、社会团体以及其他组织机构五大类[1]。万方数据公司构建的《中国机构数据库》中把机构划分为企业机构、教育机构、科研机构以及信息机构四大类型[1]。
本研究中的科研机构主要是指具有明确研究方向与任务,拥有一定水平的学术带头人和一定数量的科学研究人员,并且有持续开展研究工作的基础条件,能有组织地从事科学研究活动的机构,比如高等院校、科研院所、大型医疗研究机构等。对科研机构的属性特征进行系统化分析与描述,对于准确定位科研机构信息,查找具有相同属性的科研机构,揭示科研机构属性间的关联关系具有重要的作用。
属性是对对象的抽象刻画,具有相同属性的事物就形成一类。一般而言,机构的属性信息除了基础的地址、邮编等常用信息外,还主要包括影响科研评价、知识分析等科研工作的关键属性:类型属性、学科属性、地域属性、水平属性、行业属性等。
鉴于科研机构的类型划分目前并没有统一的标准,因此,在本研究中,将从实际应用需求的角度出发,以科研机构所从事的重点业务为依据,对科研机构进行划分,并结合国内科研产出数量的主要机构分布情况将科研机构划分为:科研院所、高等院校、大型医疗机构、大型企业研发机构以及其他科研机构。
学科是指基于一定的原则,对现实科学体系,按照内在联系和特征,将具有相同属性的知识加以归类,并以合理的逻辑形式表示出来。
对科研机构的学科属性进行划分,对于查找某一学科的科研机构群,以及相邻学科的科研机构等具有重要作用。本研究采取的标准主要是《中华人民共和国学科分类与代码国家标准》,该标准的实用性原则指出其可直接为科技发展规划,以及科研经费、科技人才、科技成果统计和管理服务,因此此标准适用于描述各类科研机构的学科属性。最新的国家标准将学科划分为5个门类,62个一级学科,748个二级学科以及近6000个三级学科[3]。
地域包括行政区划和地理区划两种,依据《中华人民共和国行政区划》,目前我国共计被分为34个省级行政区,包括23个省、5个自治区、4个直辖市、2个特别行政区,按照层层划分的标准,依次又向下划分若干地级行政区、市级行政区、县级行政区和乡级行政区。国家地理区域划分为华东、华北、华中、华南、西南、西北和东北七大地理分区。
科研机构和其他物理实体一样,有着固定的地理位置,分布在各个省市区等,开展科研评价时,往往会按照科研单位所在的省、市等行政级别或者所在的地理区划位置对机构进行统计分析,以方便分析某个省某个市某个地区的学科分布或者行业分布等情况。
为了区别同一类机构的水平或者等级高低,往往会对该类机构按照同一评定标准,制定若干评价指标进行评定划分,不同科研机构类型对应着不同的水平评定标准。比如,针对高校,目前主要是按照985、211工程高校来衡量其教学水平的高低。而针对医疗机构的水平划分主要是按《医院等级划分标准》,该标准依据医院功能、技术力量、管理水平、设施等对医院资质进行评定,三级特等医院是最高级别的医院,接下来依次是三级甲、乙、丙等,二级甲、乙、丙等,一级甲、乙、丙等,共计三级十等[5]。
行业是对从事国民经济中同性质的生产或其他经济社会的经营单位或者个体的组织结构体系的详细划分。行业分类的选取标准主要是依据《国民经济行业分类》(GB/T 4754—2011),该标准将行业分成三大产业,二十个门类,96个大类[6]。将研发型科研机构按照行业进行分类,对于当地进行产业调整以及行业的宏观调控等具有参考作用。
科研机构实体之间往往通过特定的属性特征产生各种类型的关联关系,对科研机构与其他机构间的关联关系进行揭示与分析,并理清各类关联关系之间的逻辑推理规则,对接下来科研机构关联关系的语义化描述及科研机构语义关系模型的构建实践具有重要指导作用。
对科研机构的单一属性进行关联,可以有效实现查找机构所属学科的学科层级、相同属性的科研机构群落等,比如,对机构的学科属性进行关联,可以实现查找机构所属的学科层级,识别相同学科的科研机构群以及近邻学科等;对机构的水平属性进行关联,可以实现查找同一水平的科研机构群落等。
近邻学科是指具有相同上级学科的同级学科,近邻学科机构群的查找能帮助识别与某科研机构研究相对紧密的近邻科研机构,对于促进不同学科之间的交叉融合与合作具有积极的指导作用。
多个不同科研机构间通过两两属性的关联共现往往能揭示出重要的科研信息,进一步服务于科研评价以及科研网络布局规划等实际应用需求。本研究共计确定了八对两两属性关联关系以及两对多属性关联关系,并对语义模型构建以后所能呈现出的知识发现类型进行说明。具体如下:
(1)行业—地理区划关联:揭示某一地区科研机构行业分布情况,或同一行业科研机构的地区分布情况。(2)行业—行政区划关联:揭示某一行政区划内科研机构行业分布情况,或同一行业科研机构的行政区划分布情况。(3)学科—地理区划关联:揭示某一地区科研机构学科分布情况,或相同学科的科研机构的地区分布情况。(4)学科—行政区划关联:揭示某一行政区划科研机构学科分布情况,或相同学科的科研机构的行政区划分布情况。(5)类型—地理区划关联:揭示某一地区科研机构类型分布情况,或同一类型科研机构的地区分布情况。(6)类型—行政区划关联:揭示某一行政区划内科研机构类型分布情况,或同一行业科研机构的行政区划分布情况。(7)水平—地理区划关联:揭示某一地区科研机构不同水平级别的分布情况,或同一级别的科研机构的地区分布情况。(8)水平—行政区划关联:揭示某一行政区划内科研机构类型分布情况,或同一行业科研机构的行政区划分布情况。(9)地区—水平—学科—类型—行业关联:揭示某一地区的整体科研网络布局及科研实力分布等。(10)行政区划—水平—学科—类型—行业关联:揭示某一行政区划的整体科研网络布局及科研实力分布等。
以上对影响科研评价和知识聚类导航的科研机构关键属性分析和关联关系揭示,是下一步构建完整的科研机构语义关系模型的重要理论基础之一。构建全面的科研机构语义关系模型,除了涉及科研机构属性关系的表达及推理,还涉及科研机构层级关系、科研机构沿革演化以及机构与机构间的合作关系等,这也是接下来本研究要重点探究的内容。