学科资源库“Subject repository”又名学科知识库“Disciplinary repository”,是基于学科的开放存取仓储,对某一学科的各类资源进行收集、保存,并通过互联网实现开放存取的知识库[1]。
学科资源库收录的资源类型包括已发表的白色文献,如期刊论文、学位论文、会议文献、图书、视听资料和专利等,也包括科研活动中产生的研究资料、实验数据、技术报告、图表、笔记等灰色文献。近年来美国大学图书馆也很重视学科数据存储和检索服务,例如哈佛大学建立的数据存储网络(Dataverse Network)、普林斯顿大学图书馆开展的数据及统计服务(Data and Statistical Services,DSS)等。与美国相比,我们还存在较大差距。因此,我们应当构建学科资源库联盟,依托联盟成员的合作,增强我国学科成果的共享。
学科资源库联盟是由同学科多个机构成员构成,专业性强且内容丰富。药学学科资源库联盟的构建,有利于解决单个药学学科资源库的资金紧缺和人才不足问题,有利于药学特色资源的整合与利用,有利于自产药学资源的保存与共享。目前我国药学学科资源库联盟还不成熟,有很大的发展空间。本文将从协作模式、平台建设、资源的采集与组织、存取政策、版权问题、质量控制、资金来源等几个方面去阐述。
构建联盟需要各成员机构相互协作,主要有以下几种协作模式。
集中存储模式即统一构建、运行及维护学科资源库联盟系统,其他成员机构的学术资源和对应的元数据上传到这个系统中,不需要承担构建及维护系统的任务[2]。该模式的优点是社会总成本低,避免大量不必要的重复建设,适合大型学术机构带领周边中小型学术机构共同建设;缺点是无法很好地体现成员机构自身的科研特色,而是凸显大科研机构的品牌,不能很好地体现成员机构的学术品牌,导致成员机构成就感较低,影响成员机构参与的主动性与积极性。
该模式指成员机构根据共同数据交互标准和协议,分别构建和维护各自独立的药学学科资源库,元数据再被整合到集中的搜索数据库中,联盟构建统一的检索平台,该平台内可搜索所有成员机构的学科资源[3]。该模式的优点是成员机构拥有较高的自主权,能保持各自机构的主体性,展现本身研究特色与实力,适合联盟内各成员机构均是技术、资金实力相当且雄厚的地区;缺点是成员机构参与成本高。
受IFLA 2010年报告《通过国际图联的能力建设图书馆协会计划》启发[4],层级构建模式是一种自上而下且分工明确的联盟模式。机构成员可推举一个学术能力最强、科研成果最多、在药学领域最具权威性的学术机构为“管理级”,负责学科资源库联盟建设工作的整体安排,向领导部门争取政策支持、向资助机构争取资金援助,并且负责制定学科资源库联盟的发展规划、存取政策以及各成员机构的具体分工;再由机构成员中最具有技术实力的2-3个学术机构组成“支撑级”,负责联盟平台的技术开发与维护、数据管理与质量控制;其他中小型学术机构为“资源级”,负责联盟平台学术资源的建设。这种“管理级+支撑级+资源级”的组织模式,优点是分工明确,执行力强,这也是借鉴CALIS机构知识库平台(China Academic Institutional Repository,CHAIR)的组织模式[5]。该模式较适合当前我国药学学科资源库联盟构建。
药学学科资源库联盟建设选择的协作模式不同,其平台架构也就不同。根据前文阐述的集中存储模式、分布采集模式和层级构建模式,在平台架构和功能模块设计上,也应分为3种情况。
该平台只有一个统一的学科资源库系统,成员机构的学术资源都上传到该学科资源库系统中。本平台基于J2EE的系统架构,该架构包含的各类组件、服务架构及技术层次均有共通的标准及规格,使各平台系统之间存在良好的兼容性。该系统由学科知识获取体系、学科知识组织体系、学科知识利用体系三部分组成。
学科知识获取体系主要采集各类型药学学科资源。学科知识组织体系是对学科信息资源进行整合、管理、格式转换和建立索引,实现学科信息仓储与数据共享,是学科资源汇聚、流通、应用和维护的平台[6]。此外,应用功能组件化,可实现与其他资源服务平台的“嵌入式”应用集成。学科知识利用体系是与用户互动交流的窗口,用户可以通过客户端直接访问平台中心获取或共享资源,利用统一检索平台为用户提供形式多样如学科知识检索、学科知识导航、学科知识地图、学科知识推送、学科知识群组、个人知识空间等符合学科需求的服务体验,实现泛在学科服务。该平台具体构建如图1。
分布采集式学科资源库联盟建设首先要遵循共同的交互标准与协议[7],获取药学学科资源,包括教学资源、科研资源、学术成果和数据库资源等。
根据存储协议将获取的学科资源存储在各机构建立的学科资源库中,再由成员机构联合建设药学学科资源库联盟统一检索平台。该平台是对各机构学科资源库中存储的学科知识进行描述,与机构学科资源库中的学科资源存在映射关系。
用户通过身份验证后,发出检索请求,系统对检索请求通过语义分析,提取检索关键词,将检索关键词在统一检索平台中与相应概念匹配;然后根据检索平台和机构学科库的映射关系,找到学科库中具体的知识文档[8]。该平台具体构建如图2。
图1 集中存储式药学学科资源库联盟平台
图2 分布采集式药学学科资源库联盟平台
根据“管理级+支撑级+资源级”的层级原则,利用开源软件DSpace采用“模型-视图控制器”(Model View Controller,MVC)的设计原则,搭建一个层级结构的联盟平台,每层之间通过一个公共的API接口实现层与层的顺序调用[9]。
“管理级”对应平台的组织管理层主要负责政策支持、资金运营、发展规划、协作规范、存储标准、存取政策以及机构成员分工等统筹性事务。“支撑级”对应平台的功能实现层利用系统所支持的OAI、DOI、OpenURL等协议,从分布的药学学科数据源提取所需元数据,并按统一标准对自存储与采集的元数据进行抽取、加工、处理,实现对异构系统间元数据的收割、链接、聚合、发现等功能;然后利用学科资源库统一检索平台,按照用户的个性化需求进行知识汇总与分类,应用知识表征、知识地图、语义网络等技术向用户展示挖掘出的学科知识和可提供的药学学科服务。“资源级”对应平台的用户应用层主要是采集数据开发商、图书馆信息资源、OA资源、教学科研人员和其他任何能提供知识的组织所提供的学科资源,用户也可利用学科资源库统一检索平台获取资源与服务。该平台具体构建如图3。
图3 层级构建式药学学科资源库联盟平台
学科资源采集主要有自存储、强制存储和代理存储3种。其中,自存储是科研人员将学科学术成果上传至学科资源库联盟平台,由系统管理员审核;强制存储是根据资源库联盟存取政策,确保学科资源的存储、整合和共享;代理存储是学科馆员将网络上或成员机构中有关药学学科的学术资源采集入学科资源库联盟平台,因此需要学科馆员和学科专家根据药学学科研究领域的特征采集本学科搜索关键词,关键词可以是特殊用词,也可以是几个限定词的结合,要尽可能全面涵盖所需的主要概念,并用精确无歧义的词语加以描述和确立不同概念间的关系。系统管理员对学科专家提交的关键词进行筛选,保留具有查询价值的关键词,提交给数据采集系统。数据采集系统定期根据关键词或关键词组合在网络或成员机构数据库中查找药学学科资源,并对数据进行去重和加权处理,将新采集到的学科资源交给资源组织系统进行整合。
值得注意的是,在药学研究中,除了大型科研项目外,还有更多经费较低、规模较小而参与人员众多的小科研项目。这些小科研项目数据被视为“长尾科研数据”[10]。增强“长尾科研数据”管理具有颇多益处:项目科研人员的变动不影响科研工作的连续性,可以避免不必要的重复工作,验证研究结果,可以开展更多的合作和科学研究;增强研究的显示度和影响力等。因此采集资源时也要把这些易被忽视的小项目科研数据收入联盟平台,增设科研数据管理服务,如伊利诺伊大学香槟分校2010年就开始了RDS(Research Data Service)服务 。 只有让科研工作者切实感受到学科资源库联盟平台的便利和学术价值,才能促进学科资源库联盟的不断发展[11]。
学科资源组织系统主要是对采集系统采集的学科数据进行描述、标引、分类和整序。目前资源组织主要有分类法和主题法两种。
分类法用于构建知识结构,针对药学学科资源库可继续按学科细化分类,药学类学科可分为药学、中药学、生物医药学、药学经济学类等;药学类又可细分为药物化学、药物代谢动力学、药剂学、药物分析学、药理学、生理学、病理学、临床药学、制药工程学等,中药学类可分为中西药结合学、天然药物化学、生药学、药用植物学、中医药学、中药分析学、中药药理学、中药制剂学、中药生物技术学、中药复方学等,生物医药类可分为生物化学、微生物学、生物制药学、微生物制药学、海洋药学等,药学经济学可分为药事管理学、药品营销学等。
主题法用于词汇控制,来自资源内容。资源组织工具主要包括中图法与学科关系表、中图分类主题词表、汉语主题词表、医学主题词表等,以确定检索词的上下文关系,也是作为分词处理、学科标引等操作时的基准词库,以便完成全文索引、自动分类等工作[12]。
药学学科资源库联盟平台建设的目的就是为了药学学科资源更有序、合理地存储与取用,“存”与“取”则都应当有相应的政策来规范。
“存储”政策主要分为强制性政策和建议性政策2种。
强制性政策适用于受到基金资助的科研项目。为保证科研数据和研究成果的真实性和完整性,应有强制性存储要求。通常获得基金资助的科研项目,其学科价值和研究团队都具有一定保障,存储这些科研项目的科研数据和研究成果不但能丰富学科资源库联盟平台的资源数量,也可以确保存储资源的质量。支持药学研究的科研基金很多,包括国家自然科学基金、何梁何利基金、重大新药创制科技基金等。学科资源库联盟应与各药学学科资助基金取得合作,将强制存储科研数据和研究成果列为获取基金资助的条件之一,同时学科资源库也应明确科研数据和学科成果的资金来源,加强对资助基金的宣传。如RCUK及其7个理事会,均在《RUCK数据政策通用原则》的基础上制定了各自的数据管理政策[13],NIH在2003 年3月制定了《数据共享政策和实施指导》[14],2010年NSF发布了数据管理政策[15]。它们普遍要求受到资助的科研项目,其科研数据必须得到长期保存。科研数据是在科研项目生命周期过程中产生的数据,很多科研数据都是唯一的。例如药物图谱光谱和波普的解析数据、靶标通路图、高效液相色谱检验药物杂质数据等,损坏后很难恢复。制定强制性科研数据存储政策,有利于增大保护研究成果的力度,加强对研究成果的监督,以及科研数据共享。联盟还可以与一些药学类奖项合作,例如中国药学会科学技术奖、施维雅青年药学化学奖、赛诺菲青年生物药物奖等。强制要求凡是获奖的学术成果必须在学科资源库联盟平台内共享,联盟平台则可以设置专栏介绍宣传这些奖项,达到双赢的效果。
建议性政策适用于学科课件、图谱、实验、会议、报告等科研人员个人或社群的学科成果,鼓励用户主动提交。由于开放级别可自我设定,即便作为一个存储空间使用,防止数据丢失,用户也乐意使用。高校和科研机构可以通过改革科研成果考核制度中对数据贡献者的奖励方式,激励科研人员和学术社群重视科研数据保存与管理。
“取用”政策体现着学科资源的共享程度,可从内容和范围两个角度去规范。
从内容角度,对学科资源库中存储的各类学科资源进行学术价值评估,并与版权相关单位和个人达成一致,兼顾数据源的版权要求,将学科资源取用分为“禁止再利用”“不允许自动获取”“允许非商业用途”“允许商业用途”4个等级[16]。对于灰色文献或涉及个人隐私的学科资源,联盟平台必须寻求数据所有者的同意或者遵守相关规定,限制数据访问,在特定范围内进行分享。
从范围角度,主用通过用户的地理范围来限制资源使用权限。例如希腊国家文献中心(NDC)、弗吉尼亚理工大学(VT)和西弗吉尼亚大学(WVU)采用区域性学术资源访问限制。有的文档可以全球下载,例如公开出版后的药学学术文章、药学类MOOC课程、《中药与美容》等常识科普性的药学视频、药用植物资源介绍、FDA药品评估、新药评审介绍等;有的只能在规定的范围内下载,如未发表的药学学科论文或原料药的重结晶原理、药物结构、药物制备、药物筛选等专业性知识,必须在校园IP范围内,或者通过学生、教师的固定有效ID,通过代理服务器才可以查看或检索全文。还有一些较为机密的药学科研数据,如烷化剂的抗肿瘤研究、生物药物分离纯化技术与亲和层析技术、药物研究中质谱的离子源研究、黄酮类化合物分离研究、孤儿药界定与市场准入政策研究等,它的访问权限可能只覆盖研究生院,或者必须在某些固定的实验室内。对于拟申报的专利、拟申请的课题、拟发表的学科论文,例如代谢性疾病药物研发、肿瘤分子病理学研究、分子影像与纳米医药研究等这种保密等级最高的,可能只有固定的计算机才有访问权限[17]。
学科资源库联盟平台存储了数量庞大的学科学术资源,这意味着版权会成为一个重要且不可回避的问题。为了防止版权纠纷的发生,对每项收录的学术成果都要公开提供资源来源与附加背景。根据《知识产权法》和中国图书馆学会发布的《数字图书馆资源建设和服务中的知识产权保护政策指南》等相关法律法规,对学术成果的使用范围和使用方法做出了规定。对已公开发表的学术成果,可根据出版社、杂志出版商、资助基金取得联系,确认版权归属和具体存取政策;对于未公开的学术成果,可由具体单位统一提交,提交单位可以是药学院、中药学院、基础医学与临床药学学院等院系,也可以是药物分析测试中心、药物科学研究院、天然药物活性组分与药效实验室等科研机构,但提交之前各科研单位应联系科研成果具体产出的个人或社群,根据成果产出人具体的要求来确定学术资源的使用范围。此外,要广开言路,接受群众监督,只要发现版权归属异议,产生版权问题纠纷都可以向联盟平台管理员反映;管理员要尽快与出版商或个人沟通解决,不能达成一致或构成侵权,必须删除该学术资源。
联盟平台不仅是学术资源的存储库,也是学术研究的重要文献参考,因此联盟平台共享的学科资源的学术价值要得到一定保障。作为药学的“旗舰型”资源聚集地,这些学术资源必须具备较高的学术质量和学科权威性。因此对于已发表的学术成果,可根据发表期刊或专著出版社的等级,或以科研人员的学术地位,如职称、职务等作为划分依据,进行分级存储;对于未公开发表的学术成果,可邀请知名院校例如密西根大学制药工程系、德国马格德堡大学医学院、中科院上海药物研究所等专家组成评审组,对科研成果的学术价值进行同行评议后,进行分级存储。学科资源的点击量和下载量,以及用户对于资源质量的反馈意见,也应当作为平台学术资源质量控制的重要参考。联盟平台可以对这些科研成果进行数据挖掘,对药学类主要研究领域的学术成果进行阶段性梳理,形成报告或综述,为科研人员的后续研究奠定文献基础;还可以将学科课程分类整合,例如工业药剂学、疾病治疗与药物发现、药物化学、药物分析、生药学、生物制药工艺学、药事法规等这些药学类比较重要的学科。将同课程不同教授的课件或课程视频放在一起,有利于用户查找与分析比较。为扩大学术交流平台,增强学科国际合作,可将联盟平台内的学术资源进行多语种翻译,特别是英语、德语、法语、俄语、日语、意大利语、西班牙语、阿拉伯语等,吸引跨国学术交流与学科合作。
建设和运营的资金是联盟平台必须解决的问题。资金来源有以下几种方式:首先是平台构建作为一个项目申请各级基金的资助。其次可以通过与同学科商业数据库、出版社、杂志出版商合作,例如专业数据库Thomson Reuters、Materials Chemistry Frontiers、Web of Science、Springer Protocols、SciFinder等,以广告投放的形式获取一些商业赞助。著名出版公司Elsevier利用Scopus数据库的研究数据发布的“2016年中国高被引学者榜单”中,药理学、毒理学、药剂学都有学者被入选,药学学科资源库联盟可以与这样的出版公司合作,在联盟平台发布他们的广告和培训通知等;同时也可以将这些高被引学者及其文章做专题介绍和文章共享,鼓励更多的药学学科学者发表与共享高质量的学科成果。再者,作为有基金资助的科研项目,使用学科资源库联盟平台存储实验数据时,需要交纳一定的费用;各成员机构用于自身学科建设的费用可部分用于学科资源库联盟平台建设;学科资源库联盟帮助各成员机构建设各自学校的药学学科发展支撑平台时,也可以收取一定的费用;本着开放存取的原则虽然用户使用和下载平台的学术资源是免费的,但如向学科专家咨询或者提出其他的学科服务要求,可根据实际情况适当收取费用,例如根据读者的需求出具SCI检索报告、出具药学学科分析报告、可视化分析学术研究、ESI学科预测等。此外,还可以跟一些网络讲座合作,在学科资源库联盟平台发布一些学术讲座。例如“Taylor&Francis学术期刊投稿技巧”之类的讲座,既可以收取费用运营药学学科资源库联盟,又可以为广大药学科研工作者的学术成果发表带来切实的帮助;又比如“药研人员的七武器——利用Integrity站在医药研究最前沿”讲座,可以帮助科研人员准确检索药物研发信息和制药行业的最新发展动态。学科资源库联盟平台还可与众多药企合作,例如博瑞生物医药、上海强生制药、美国礼来公司等,在联盟平台内投放药企招聘启事,既可以获得药企赞助费用,又扩宽了学生就业渠道。
本文从协作模式、平台建设、资源的采集与组织、存取政策、版权问题、质量控制等方面探讨了构建药学类学科资源库联盟的策略。探索的道路还很漫长,需要不断学习,更需要多与美国化学会这样的组织交流,学习美国化学文摘社是如何运行和维护全球最权威的化学数据平台的。泛在化和智能化是学科资源库联盟未来发展的方向。泛在化是随着移动终端设备而蓬勃发展,学科资源库联盟平台也可以有手机APP、Pad客户端,方便用户随时使用学科资源;智能化是基于关系属性的本体推理机制[18],以树形搜索的方式检索概念之间隐含的逻辑关系,进而自动推理出与检索词关系属性相匹配的所有检索词,如可以根据检索词A和逻辑关系B,推理出与检索词A是逻辑关系B的所有概念集合;也可以根据两个检索词,自动推理它们之间的逻辑关系。
国家正在推动高等院校“双一流”建设,建设一流学校、建设一流学科,可见学科建设在高等教育领域占据越来越重要的地位。药学学科资源库联盟的建设,正是顺应了这样的潮流。以本校的重点学科或特色专业为突破,完善学科资源共享体系,集合相同学科形成规模化效应,更好地为教学、科研服务,也是提升高校信息素养教育水平的好途径。