周 阳,常伟鹏
(中国药科大学图书与信息中心,江苏 南京 211198)
学科知识库从“Subject Knowledge Repository”或“Disciplinary Knowledge Repository”翻译而来,是基于学科的开放存取仓储,是对某一学科的各类资源进行收集、保存,并通过互联网实现开放存取的知识库[1]。学科知识库联盟是由同学科或某几个学科内多个成员构成,专业性强且内容丰富。构建联盟需要科研机构之间展开合作,合作机构如何寻找、选择与优化,是本文研究的主要问题。当然,构建国际联盟需要考虑资金、技术、资源、运营等诸多问题,但作为基于学科的开放存取仓储联盟,学科应为首要考虑因素。因此,本文以药学学科为例,通过知识图谱的分析来甄选科研机构,并根据各机构的实际情况选择合适的构建途径与联盟模式,从而达到优化构建国际学科知识库联盟的目的。
本文利用文献计量为基础的知识图谱分析方法,通过可视化图谱直观地展示出机构、年代、著者、研究热点及其之间产生的复杂关系。目前知识图谱绘制的软件主要有Citespace、UCINet、Pajek、Netdraw、Netminer、Bibexcel、Wordsmith Tools等。本文将使用Citespace5.2.R2版(2018年3月26日更新)[2]对国家(地区)、机构、著者、关键词等情况进行文献计量及知识图谱绘制。利用知识图谱优化选择联盟构建的机构之后,再对优选的科研机构是否已构建学科知识库或机构知识库,以及运营、资金、技术、政策、资源、服务等方面进行调查,从而确立联盟模式,并从运营方式、资金技术、存取政策、资源服务等方面详细阐述国际药学学科知识库联盟构建策略。
本文以“Web of Science核心合集”为检索平台,以主题字段限定为“pharmacy”或“pharmaceutical”,年份字段限定为“2008-2017”,10年基本可以反映出一个时代药学发展的概况,得到检索结果99 084篇,由于样本数量过大,本文仅筛选“领域中高被引论文”1 491篇作为有效样本文献,数据采集日期为2018年6月6日。通过EndNote文件格式将1 491篇样本文献从文献管理中心输出。
将样本数据导入Citespace软件进行国家(地区)合作网络分析,时间跨度设置为2008-2017,单个时间分区长度为1,节点类型为“国家(地区)”,调节相应的阈值得到样本文献所在国家(地区)的知识图谱,见图1。
图1 样本文献所在国家(地区)分布的知识图谱
如图1所示,高被引论文量最大的是美国,中国、德国、英国、法国、西班牙、加拿大、印度紧随其后,韩国、瑞典、澳大利亚、比利时、荷兰、瑞士也是高被引论文较为集中的国家。当然,相较于高被引论文量,另一个学科衡量指标“中心性”也很重要,中心性是测试节点在网络中的重要指标,证明该国文献的重要性。由图1生成中心性的报告显示荷兰的中心性最高,为0.15;并列第二的是美国和瑞典,为0.12;并列第三的是瑞士和爱尔兰,为0.11;第五到第十名分别是英国、意大利、西班牙、捷克和德国。因此在高被引数量和中心性共同参考下,美国、荷兰、瑞典、瑞士、英国、西班牙、德国是药学学科发展既活跃又具权威性的国家,也应当是国际药学学科知识库联盟的构建机构所在国。此外,由于本文的研究初衷是在优化构建国际药学学科知识库联盟的同时,希望能够给我国的药学科研机构参与国际联盟提供一些参考,因此中国的科研机构也会作为构建国际联盟的研究对象。
通过WoS自带筛选功能,笔者将发文机构高被引论文量前50位的机构与知识图谱筛选出的国家进行匹配,50个机构中有38个来自筛选后的8个国家。其中22个来自美国:哈佛、加利福尼亚、密歇根、麻省、北卡罗来纳、得克萨斯、华盛顿、麻州、约翰霍普金斯、宾夕法尼亚、杜克、耶鲁、俄勒冈、斯坦福、佛罗里达州立大学,以及国立卫生研究院、波士顿医疗保健系统、辉瑞制药、默克公司、强生公司、马萨诸塞州总医院、UTMD安德森癌症中心;1个来自荷兰:乌特列支大学;1个来自瑞典:卡罗林斯卡研究所;3个来自瑞士:诺华公司、罗氏控股、瑞士联邦水产科学研究所;6个来自英国:伦敦、牛津大学,帝国理工、伦敦国王学院,葛兰素史克公司、阿斯利康公司;3个来自西班牙:科学研究理事会(Consejo Superior de Investigaciones Cientificas)、巴塞罗那大学、恺撒医疗机构;1个来自德国:柏林自由大学;1个来自中国:中国科学院。
从年份上看,样本中高被引论文量最少的是2008、2009年113篇,最多的是2017年184篇,每年变化不大,为进一步筛选和确认国际药学学科知识库联盟的构建机构,笔者将2013-2017年近5年的833篇高被引论文发文机构,与前文筛选出的39个机构相匹配,剔除掉匹配结果为0篇或1篇的机构,剩余28个机构,其中17个来自美国:哈佛、加利福尼亚、密歇根、麻省、北卡罗来纳、得克萨斯、华盛顿、约翰霍普金斯、宾夕法尼亚、杜克、耶鲁、斯坦福大学,以及国立卫生研究院、波士顿医疗保健系统、辉瑞制药、马萨诸塞州总医院、UTMD安德森癌症中心;3个来自瑞士:诺华公司、罗氏控股、瑞士联邦水产科学研究所;4个来自英国:伦敦、牛津大学,伦敦国王学院、阿斯利康公司;3个来自西班牙:科学研究理事会、巴塞罗那大学、恺撒医疗机构;1个来自中国:中国科学院。
将样本数据导入Citespace软件进行作者与机构分析,时间跨度设置为2008-2017,单个时间分区长度为1,节点类型为“作者”与“机构”,调节相应的阈值得到样本文献作者所在机构分布的知识图谱,见图2。
图2 样本文献作者所在科研机构分布的知识图谱
由图2所生成的中心性报告显示,所有样本文献的撰写作者的所在机构发文的中心性前10名分别是:哈佛大学为0.15,华盛顿大学为0.10,多伦多大学为0.10,加利福尼亚大学为0.09,马萨诸塞州总医院为0.09;梅奥临床研究中心为0.09;中国科学院为0.08;牛津大学为0.08;斯坦福大学为0.08;伦敦国王学院为0.08。与前文筛选出的28个药学科研机构相匹配之后,可进一步优选出8个机构。加之图2根据发文量显示出的科研机构与前文筛选出的28个药学科研机构相匹配之后,可进一步优选出4个机构。现优选出的国际药学学科知识库联盟的构建机构有12个,其中9个来自美国:麻省理工学院、密歇根大学、杜克大学、耶鲁大学、哈佛大学、华盛顿大学、加利福尼亚大学、斯坦福大学、马萨诸塞州总医院;2个来自英国:牛津大学、伦敦国王学院;1个来自中国:中国科学院。
再根据论文被引频次对各机构高被引通讯著者进行分析,进一步优选构建机构,由于杜克大学、马萨诸塞州总医院、伦敦国王学院高被引著者不足5个,被筛掉,得出最终构建国际药学学科知识库联盟的机构9个。
将样本数据导入Citespace软件进行研究热点分析,时间跨度设置为2008-2017,单个时间分区长度为1,节点类型为“关键词”,调节相应的阈值得到样本文献关键词分布的知识图谱,见图3。
图3 样本文献关键词分布的知识图谱
由图3可见从样本文献中析出的高频关键词有:随机对照试验(randomized controlled trial)、活的有机体内(in vivo)、固体萃取(solid phase extraction)、串联质量光谱分析(tandem mass spectrum)、药物供给(drug delivery)、纳米颗粒(nanoparticle)、废水处理(waste water treatment)等。除此以外,由图3生成的中心性报告中,从重要性角度提供的关键词有:癌症(cancer)、临床试验(clinical trial)、化学(chemistry)、有机合成(organic synthesis)、毒性(toxicity)、生物利用度(bioavailability)、内分泌干扰物(endocrine disrupting compound)、氧化作用(oxidation)、抗生素(antibiotics)、高效液相色谱法(performance liquid chromatography)、抗氧化活性(antioxidant activity)、水生环境(aquatic environment)等。分析研究热点并不是为了筛选成员机构,而是联盟构建后优化学科服务的方法之一,是为成员机构之间开展专题科研合作、寻找科研热点与创新点做铺垫。
利用知识图谱优选出国际药学学科知识库联盟的构建机构有9个:麻省理工学院、密歇根大学、耶鲁大学、哈佛大学、华盛顿大学、加利福尼亚大学、斯坦福大学、牛津大学、中国科学院。
本文首先对优选出的联盟构建机构是否已构建机构/学科知识库进行调查,除了耶鲁大学、哈佛大学(虽构建了The Harvard Depository,但仅限于内部存储使用,不对外开放获取)以外,其他均已构建机构知识库,特别是由华盛顿大学医学院创建的Digital Commons@Becker更接近于学科知识库。这些机构知识库的运营机构基本都是图书情报机构,在系统软件、存取政策方面也都较为完善,因此这9个机构完全具备构建国际药学学科知识库联盟的能力与经验。从学科资源上,虽然不是每个机构知识库都可以准确的查询到医药类学科的资源数量,但根据估算大概在几千到几万级的水平,为国际药学学科知识库联盟构建提供了丰富的学科资源。在学科服务上,每个机构知识库提供学科服务的水平略显参差,因此构建联盟正是互补学科服务的好途径。
学科知识库联盟的构建模式一般有三种:集中存储模式、分布采集模式、层级构建模式[3]。集中存储模式是由一个大型学术机构统一构建、运行及维护学科知识库联盟系统,其他成员机构将学科资源和对应的元数据上传到这个系统中,不需要承担构建及维护系统的任务,该模式适合学科内旗舰型学术机构带领中小型学术机构共同建设;分布采集模式是成员机构分别构建和维护各自独立的学科知识库,元数据再被整合到一个集中的搜索数据库中,联盟构建统一的检索平台,该平台内可搜索所有成员机构的学科资源。根据本文对各成员机构构建的机构知识库调查,及对各机构医药学院的情况调查,这9个成员机构并没有哪个机构在国际药学学科知识库联盟构建上具备完全主导的能力,因此不适合集中存储模式;其次,9个成员机构8个有构建机构知识库的经验,但只有1个机构构建的是近似药学学科知识库,因此分布采集的模式也不适合。
层级构建模式是一种分工明确的联盟模式,由学术能力强、科研成果多、具备较高的管理水平的机构组成“管理级”,负责学科知识库联盟建设工作的整体安排、政策支持、资金来源、日常运营,并负责制定学科知识库联盟的发展规划、存取政策以及各成员机构的具体分工;由成员机构中技术实力较强的两三个学术机构组成“支撑级”,负责联盟平台的技术开发与维护、数据管理与质量控制;其他成员机构为“资源级”,主要负责联盟学术资源的建设。这种“管理级+支撑级+资源级”的组织模式,分工明确、执行力强,也是最适合这9个成员机构实际情况的构建模式。9个成员机构中,加利福尼亚大学、斯坦福大学和中国科学院可以成为“管理级”。加利福尼亚大学构建的OAC,其资源由200多个机构捐助包括各种图书馆、档案馆等,并由加利福尼亚大学伯克利、洛杉矶等10个校区负责典藏和维护,可以说从资源和资金层面,OAC已经是一个联盟,加之OAC是由加利福尼亚大学数字图书馆数字特别馆藏项目专项管理运营,其管理运营的经验丰富;中国科学院下设很多医药类相关的研究所,这些科研院所几乎都有自己的机构知识库和特色数据库,这些机构知识库学科特色鲜明,近似学科知识库,因此中科院的学科资源丰富,再由文献情报中心将这些学科资源分类筛选,就能整合出很好的药学学科资源,且文献情报中心已构建机构知识库,在联盟管理上既具备专业素养,又具备丰富经验;斯坦福大学图书馆对Stanford Digital Repository的运营管理分工细致,明确设置了服务经理、保存专家、软件工程师、系统管理员等职务,因此斯坦福大学也适合加入“管理级”。“支撑级”可由麻省理工学院、密歇根大学和牛津大学来完成,调研中机构知识库构建系统使用最多的是DSpace,因此联盟构建可以采用构建机构中使用的较为熟悉和广泛的系统软件DSpace,功能软件则是牛津大学机构库使用较为详细,如提交软件、免费下载网页扩展软件、版本工具包等,因此由这三所大学构建联盟的“支撑级”较为合适。其他的机构,以及构建“管理级”与“支撑级”的机构都需要参与资源级的构建,其中“资源级”的主导构建机构可由华盛顿大学医学院担任,它具备构建学科知识库的经验,对于学科资源的筛选整合更擅长。
运营方式上,“管理级”机构可组建管理委员会负责联盟的发展规划、获取主管部门的政策支持、多渠道获取资助资金,并安排成员机构的具体分工。日常运营工作还需要组建一些具体事务部门,安排一些专职人员处理专业工作。此外还需组建学科委员会,主要从“管理级”机构甄选一些学科专家对联盟平台的学科资源做收集整理与质量控制工作。当然,随着联盟的发展扩大,还可以进一步吸纳新的成员,当新成员机构达到一定之后,可以效仿arXiv构建成员咨询委员会,更多地听取成员机构的建议。同时学科咨询委员会也可以吸纳更多成员机构的学科专家来完成日渐增多的学科资源整合分析与质量控制工作。
“管理级”机构还需要解决联盟资金来源的问题,资金来源主要有三个渠道:首先是来自成员机构,当成员机构达到一定之后,可效仿arXiv推出的根据成员机构下载资源量分级支付会员费的方法;其次与成员机构有项目合作的基金也可以为药学学科知识库联盟提供资金支持,例如与斯坦福大学合作的Pivot基金[4];还可以与一些药学学科知名资助基金或制药企业合作,例如Wellcome基金、NOVO-NORDISK公司等。
可以作为联盟系统架构的软件很多,调研中涉及的系统软件主要有DSpace、Samvera、CSpace,考虑到联盟“支撑级”选择了麻省理工学院、密歇根大学、牛津大学,所以选择DSpace系统来架构联盟系统平台。DSpace是以内容管理发布为设计目标,遵循BSD协议的开放源代码数字存储系统,系统可以收集、存储、索引、保存和重新发布任何数字格式、层次结构的永久标识符研究数据,其特点是基于存储的资产管理、以事件触发构建的工作流机制、以分级权限控制的管理体系。从DSpace5.0版开始,通过修改参数变量,开启jena-fuseki服务,支持系统数据发布为RDF关联数据,使其在支持OAI-PMH的基础上,又增加一条分享内容的途径,最新版本是DSpace6.2[5]。
除了系统平台软件之外,还有一些具体功能性软件需要“支撑级”机构提供,例如搜索软件Basic Local Alignment Search Tool,图像存储、编辑软件如Blacklight,数字归档软件如Think Check Submit,发送接收软件如Frequency-weighted Link,阅读软件如Open Reading Frame Finder,知识管理与协同软件如Atlassian Confluence 5.10.8,版本工具包软件如Versions Tookit等。
根据调研中机构知识库的存储政策及国际其他学科知识库或联盟的存储政策,综合考虑,国际药学学科知识库联盟存储政策可以主要从以下几个方面设定:(1)提交方式,可以是本人或版权持有者提交,也可以在版权持有者同意下由第三方提交,如科研论文可以由机构科研管理部门统一整理提交;(2)学科要求,既然是药学学科知识库,提交的学科内容必须与药学相关;(3)内容要求,内容必须完整、正确,研究数据需要随文档一并上传,随文的图表需要单独提供,如果提交内容属于一个研究合集,为确保用户能够全面了解提交内容的完整研究情况,需要提交整个合集;(4)格式要求,一般会根据系统平台的实际情况注明提交文档的支持格式,笔者比较认同密歇根大学机构知识库提交格式的做法,密歇根大学机构知识库对于提交内容的格式给予分级支持,例如TIFF(.TIFF,.TIF)是“1级”格式,系统可以完全支持,MS Word(.doc)是“2级”,由于宏这样的特性可能无法在版本之间进行转换,系统只能尽力支持,Windows Media Audio(.WMA)是“3级”,由于它与特定平台的紧密联系,系统建议使用mp3或wav格式,这种分级支持的方式清楚明晰地让用户知道哪些格式更容易与系统兼容,并且知道缘由;(5)空间要求,一般存储空间值可由联盟系统构建部门确定,根据调研,可在250MB到10GB之间,超过一般存储空间,可与管理员联系,可能需要缴纳一些过量存储费;(6)元数据要求,系统可以自动分配一些元数据,例如URL、存储日期、存储人姓名、文件格式等,还可以由存储人提供存储资源的其他元数据,如语种、标题、摘要等。
调研中共享政策主要涉及两个许可证Non-Exclusive License[6]和Creative Commons license[7],即非排他性许可证与创作共用许可证。除此以外使用较多的还有创作共用署名许可证(CC BY)[8],以及该许可证下包含的次级许可,例如国际创作共用署名-相同方式共享许可证(CC BY-SA)[9]、国际创作共用署名-非商业许可证(CC BY-NC)[10]、国际创作共用署名-没有衍生品许可证(CC BY-ND)[11]、国际创作共用署名-非商业没有衍生品许可证(CC BY-NC-ND)[12]、国际创作共用署名-相同方式共享-非商业性授权许可证(CC BY-NC-SA)[13]等。可使用的许可协议还有Apache许可[14]、开放数据共享公共领域贡献与许可协议(ODC PDDL)[15]、开放数据共享开放数据库许可协议(ODC ODbL)[16]、BSD许可[17]、MIT许可[18]、GNU通用公共许可协议[19][20]等。每一种存储的资源都要根据其具体版权状态,与资源的提供机构或个人进行协商,在充分尊重版权的前提下,使用合适的许可协议,最大限度地对外开放。
药学学科知识库联盟的资源建设主要限于药学相关学科,建设途径主要由联盟学科委员会收集与学科用户自存储:收集的途径例如从机构知识库中整理出药学相关资源如会议论文等,从医学院药学院教学秘书或科研管理部门搜集本机构科研产出的药学学科资源如技术报告、工作文档、学位论文、专利等,与出版社、期刊洽谈发表后的学术资源的存储与开放的方案;用户自存储途径主要是依靠广大师生、科研人员将自己的药学学科相关资料,特别是一些灰色资源,例如课件、科研数据、手稿、图像、视频、音频等存入联盟平台,当然对于用户自存储资源,联盟的学科委员会需要对其学术质量做好把控,以确保学科知识库联盟中存储与开放的学科资源的学术价值。此外,还可以将成员机构的一些特色自建数据库纳入联盟,例如中科院武汉病毒研究所的中国病毒资源基础数据库等,可大大提升学科知识库联盟资源的学术水平。
一般性学科服务主要体现在点击、下载等使用量的统计,科研数据保存与管理,邮件订阅服务等个性化服务,以及有关学科的参考咨询服务等。但药学是一个动态的和跨学科的领域,既然构建了药学学科知识库联盟,就要充分的利用联盟来推出更具学术价值、更能体现学科特性的学科服务。联盟在促进成员机构间科研合作上有很大的施展空间,如跨机构课题组的组建、课题组人员的招募、实验室等各部门的人员招聘都可以利用联盟平台发布,以及科研项目周期内产生的科研数据、科研成果也可以在联盟平台实现共享,既可以节约科研成本,提高科研效率,又可以大大促进联盟机构间的科研交流与人才置换。
除此以外,联盟还可以对成员机构中主要科研人员的科研方向做分析,如麻省理工学院的Buchwald, Stephen L.和Trout, Bernhardt L.在有机化学、物理化学、药理学、药剂学等方面的研究较为擅长;密歇根大学的Schwendeman, Steven P.对药理学、化学、制药工程等方面的研究较为擅长;耶鲁大学的Strittmatter, Stephen M.对细胞生物学、生物化学与分子生物学、神经科学都有研究。因此利用联盟平台,科研人员可以根据各自的研究方向和科研需求,组建跨机构的科研团队,还可以根据前文2.4中提到的利用Citespace软件筛选出的论文高频关键词探索新的研究热点与创新点。同时也有利于想要跟随这些导师做硕、博士的学生了解导师的研究方向与研究主题,或根据自己喜好的研究方向与研究主题选择合适的导师,逐步将联盟打造成一个药学学科内学科交流的理想平台。
本文以药学学科为例,利用Citespace软件构建知识图谱,从发文国家、机构、年份、科研人员、研究热点等方面进行知识挖掘,从而优选出构建国际药学学科知识库联盟的机构。再根据软件分析的结果,对优选出的机构是否已构建机构知识库或学科知识库的情况进行调研,并根据优选成员机构的实际情况确定国际药学学科知识库联盟的联盟模式、运营方式、资金来源、存储政策、共享政策、资源建设与学科服务等具体构建策略。这种方法不仅适用于药学学科,其他学科也可以借鉴使用。当然,本论文只是提供了一种优化学科知识库联盟构建的研究方法的初步探索,可能还存在一些缺陷与问题,本团队也会对这些成员机构构建学科知识库联盟的实践进行调研,探究联盟构建过程中实际存在的阻滞因素和问题,不断修正研究方法。