,,
(南京交通职业技术学院,江苏 南京 211188)
超星发现系统(http:∥ss.zhizhen.com/)是北京超星公司研发的、我国最大的文献检索系统,具有强大的知识挖掘和情报分析功能。它以海量元数据为基础,利用数据存储、资源整合、知识挖掘、数据分析、文献计量学模型等相关技术,进行复杂异构数据库的集成整合,实现高效、精准、统一的检索。其功能主要有:检索、多维面聚类、多种排序显示、可视化及关联信息图谱、全文获取渠道链接、参考与引证、基于关联规则的扩展发现、多主题对比、社区分享等。
超星发现系统的个性化服务模式(图1)包含:1)个性化存储服务:在发现系统中开辟个性空间,以实现检索信息保存,如以读书、讲座、课程为主的学习空间、检索式保存、检索结果的收藏/分享。2)个性化组织服务:多维度整合发现系统信息资源,以多项组配聚类,精炼用户所需资源信息。3)个性化检索服务:根据不同的功能,针对不同的检索者提供的检索目标,提供智能辅助检索功能,如检索词联想、常用检索词列表;针对检索结果进行多角度个性化排序、输出,如排序方式(馆藏优先/出版日期/学术性/相关性/引文量)多角度,题录输出(单个/多个/单页/多页)、输出格式(文本/参考文献/查新/参考文献管理软件等格式)多样化、题录信息二维码扫描。4)个性化分析服务主要将用户检索的信息进行知识图谱可视化分析、多主题分析、引证分析等。5)全文获取链接服务是为用户提供全文链接的获取渠道,如:文献传递、文章下载、电子全文、图书试读。
图1 超星发现系统的个性化服务
超星发现系统的个性化分析服务功能可帮助用户快速了解相关主题的研究发展现状,分析预测其未来发展趋势。笔者登录超星发现系统的高级检索界面,选取开放获取研究文献进行“学术辅助分析系统”的个性化服务体验,解析相关词为“开放获取、开放存取、Open Access、OA”。检索测试发现涉及检索词“OA”的研究成果出现大量“办公自动化:Office Automation”研究,而在“全部”字段检索下,涉及“OA”的开放获取研究多数包含前三个主题词。因此,本文开放获取文献检索词设定为“开放获取、开放存取、Open Access”,设定“全部”字段、逻辑“或”匹配、“精确”模式、“所有文献类型”进行检索。检索日期是2016年4月22日,检索返回 13 148 条结果,总被引次数 18 289 次。精炼检索限定在“只检索学术文章”,检索返回 7 575 条结果,总被引次数 18 228 次。从检索结果数据看,精炼检索排除了42.3%的文献,保证了检索结果的查全率和查准率。
对某主题的研究年代进行分析,可反映该项主题的发展趋势。2004年以前开放获取概念逐渐被接受并进入实践,如:2001年发布《布达佩斯开放获取计划》,2002年开放获取资源项目的出现,2003—2004年由知识仓储建设引发的开放存储的推出,说明开放获取模式处于起步创新阶段。因此,如图2所示,2004年以前开放获取研究文献较少。之后五年是开放获取的巩固期,此时期多种类型资源被开放,开放获取的使用量、影响力在逐渐增长,带动研究成果的输出。因此,2005—2010年开放获取研究成果处于稳步上升阶段。而2010—2012年开放获取研究成果比较稳定,这与2009—2011年开放获取稳定的应用现状,如开放获取联盟/门户的出现、法案的推出是相吻合的。2012年以后开放获取研究成果量达到了一个新的高度,均在800篇以上,仍处于上升阶段。此阶段开放获取组织转变为更深层次的知识服务,进入战略发展期,开放获取仍是研究热点。
图2 开放获取相关论著发文量趋势图
超星知识发现系统共涉及12种文献资源类型,将“开放获取”相关研究进行精炼检索后,检索结果显示5种学术文献类型。
2.2.1 图书文献统计。超星发现系统收录开放获取相关图书有48本,总被引次数是181次,其中2014年出版量达11本。图书相对于其他文献类型较可靠,出版周期较长,当研究者研究较成熟时,会将研究成果转化为图书。出版最早的是2006年刘廷元主编的《数字信息检索教程》一书,其引用量是20次。2006年乔冬梅的《e印本文库e-print archive建设与应用—开放存取运动典型策略研究》一书,被引13次。2008年刘廷元的《信息检索教程》也有涉及文献获取,其被引次数为13次。被引次数最高的是2009年王细荣等人的《文献信息检索与论文写作》一书,被引27次。此四本书被引次数排名前四,说明三位学者的论著是被图书情报界普遍认可的,是值得学者参考借鉴的。
2.2.2 期刊文献统计。超星发现系统收录的开放获取的学术性期刊文章共 6 595 篇,占总量的93.3%,总被引次数 17 223 次,发文量一直是稳步上升。从文献的相关性和学术性看,期刊是具代表性的,它出版周期短,发表迅速,一般学者研究成果会最先在期刊上发表。
其中,开放获取研究核心发文量 3 318,被引量为 12 595 次,占总量的69%,其中主要集中在中文核心期刊、统计源期刊、CSCD、CSSCI四种来源中。为确保开放获取研究的可靠性,利用超星发现系统检索结果页面左侧的“重要期刊”,精炼检索结果,选择“中文核心期刊、统计源期刊、CSSCI、CSCD、SCI、EI、SSCI”六个来源数据库的期刊文献的文种、作者、机构进行统计分析。
(1)核心刊种统计
图3 开放获取研究核心刊种发文统计图
检索统计涉及开放获取研究期刊49种,而图5列出的是涉及开放获取研究发文量在40篇以上的期刊,以图书情报类期刊为主。《世界华人消化杂志》《世界胃肠病学杂志》均以开放获取的模式出版,实现了临床医师和公众的利益最大化,不涉及开放获取研究的实质内容。图3中其他非图情类的期刊均是因开放获取的出版模式而列出。排在第三位的《图书情报工作》刊发212篇开放获取论文,其被引 1 697 次,其中出现开放获取关键词73次,开放存取关键词55次,涉及一级相关词:研究成果、虚拟组织、机构知识库、知识管理、按需印刷,由此可见开放获取的研究热点。
(2)核心作者统计
笔者利用超星发现系统分层聚类功能,将第一作者和作者机构匹配,准确列出排名前十作者发文数据。见表1:发文量最多的作者是中国科学院的张晓林,引文量最多的是北京大学的李武。作者发文量和引文量的统计,是评价该学科领域学术影响力的常用指标。可见,二位学者的学术影响力和开放获取研究成果的被认可度。
表1 开放获取研究核心期刊发文前十列表
(3)核心发文机构统计
超星发现系统页面左侧列出了开放获取的机构及出现频次,其可视化图形列出了15个机构。如图4所示,频次用圆圈大小表示,圆圈越大,出现频次越高。共现关系用连线表示,越短共现频次越高,相关性越强。开放获取的研究除中国科学院、中国科学信息研究所外,其余均来自高校。表2中,笔者按以第一作者身份在核心期刊发表相关论文最多的机构学者为代表列出,若发文量相当,取引文量最多的学者列出。借助机构分析,可与学者建立沟通渠道,开展研究课题相关的个性化服务,进行定题跟踪。由研究机构、代表学者的发文量、引文量可知其学术影响力。
2.2.3 学位论文统计。学位论文的系统性、成熟性、学术性、创新性、学术性、内容容量、发文量、发文速度均介于图书和期刊论文之间。超星发现系统收录的关于开放获取的学位论文为309篇,总被引次数716次。由超星发现系统的相关论著发文量趋势图,可知2010年被引峰值45次。其中,博士论文34篇,硕士论文273篇。与开放获取研究密切相关,学位论文前五的机构及学位数量:武汉大学39篇、吉林大学21篇、中国科学院14篇、东北师范大学13篇、燕山大学12篇,被引量分别为:65、133、3、69、29次。其中,2008年吉林大学邓君《机构知识库建设模式与运行机制研究》一文被引量最高,达50次。
图4 开放获取研究核心发文机构统计图
/
相关级别机构发文量引文量代表学者学者发文量(篇)学者被引量(次)一级中国科学院1441 455张晓林11149一级武汉大学971 280黄如花13266一级北京大学47979李 武4574一级南京大学37151袁顺波536
续表2
2.2.4会议论文统计。会议论文要求是就相应学科研究的发现、进展和成就方面提出新的研究课题和新的设想,才能在学术会议上首次发布,然后在期刊上发表。超星发现系统收录的开放获取相关会议论文258篇,被引次数108次,2014年被引峰值59次。其中,国家自然科学基金委员会科学基金杂志部任胜利在“第三届全国核心期刊与期刊国际化、网络化研讨会”上发表的《开放存取(Open Access):现状与展望》一文被引65次,其余被引次数很少。会议论文从发文量和被引次数均落后于图书、期刊、学位论文。这种现象在一定程度与学者的研究成果优先发表在期刊上有关系。
超星发现系统采用“中国图书馆分类法”对每篇文献进行分类,开放获取研究涉及学科主要集中在“文化、科学、教育、体育”和“医药、卫生”。其中,“文化、科学、教育、体育”学科 3 448 篇,被引次数 16 891 次,占总被引量92.7%,说明开放获取的研究主要集中在该领域。“医药、卫生”学科 2 218 篇,被引次数94次,主要内容是开放获取出版模式资源、投稿须知之类的文献,少量提及开放获取实质性研究。
关键词是对文章内容的高度概括和凝练,借助关键词分析主题内容可确定研究领域的热点问题。为确切掌握开放获取研究重点,关键词分析时借助系统的聚类分析精炼检索结果,选取重点学科“文化、科学、教育、体育”涉及关键词分析,了解该学科与开放获取研究相关知识群的结构。该学科开放获取研究文献 3 448 篇,占超星收录开放获取研究文献总量的45.5%。由图5可知开放获取研究的一级高频共现词是图书馆、机构知识库、高校图书馆、学术期刊、信息资源。二级关键词是资源建设、科技期刊、学术交流、学术出版、出版模式,三级关键词是期刊、学术信息、中国科学院、数字图书馆、研究成果。表3是根据关键词聚类分析列出共现词涉及的开放获取研究发文量和引文量,可知开放获取的研究热点。
图5 开放获取研究关键词共现关系图
一级关键词二级关键词关键词共现频次相关论文被引量关键词共现频次相关论文被引量图书馆2811 344资源建设143521机构知识库2771 628科技期刊137998高校图书馆2681 097学术交流1331 243学术期刊1441 441学术出版991 268信息资源143748出版模式93834
借助基金项目的可视化分析,可知开放获取研究文献的支撑情况,同样代表学术影响力。开放获取研究涉及基金389项,主要集中在省市基金项目、国家社会科研基金项目、国家教育部基金,此三项共计337篇,占总量的86.6%。其中,社科基金项目涉及文献被引次数最高为869次。胡德华的《开放存取期刊论文质量和影响力的评价研究》一文被引52次,源于国家社会科学基金项目“开放存取期刊质量及其文献保障率与图书馆因应之策”成果;最新一篇是2015年丁大尉《科学信息开放获取模式的STS考察》一文,源于国家社会科学基金后期资助项目“网络环境下当代科学交流体系的重构”成果。利用基金项目分析功能,可获取开放获取研究热点、科研价值。
笔者借助超星发现系统从文献类型、学科、基金、关键词、重要期刊、机构、作者等多角度聚类统计分析开放获取研究成果,发现开放获取已然成为图书情报界、学术界、出版界、政府和国际组织共同关注的热点问题。我国以中国科学院为代表单位,在机构知识库、知识管理、学术交流、出版模式等方面做了大量研究,可以预测开放获取在未来一段时间仍是图书情报界的热点话题。有人预测到2025年,图书馆通过机构知识库自我存档等各种聚合手段提供服务的学术资源数量将超过购买的资源。因此,作为图书馆不能单纯地享用开放获取免费资源,应积极与学术交流、图书馆战略转型结合起来。在尊重知识产权的基础上,利用开放获取的方式,促进学术成果的保存和传播。
此外,知识发现系统是大数据时代衍生的用于海量资源整合、数据关联、情报分析处理的统一学术检索平台。而超星发现系统以其特有的个性化服务功能为用户服务,结合文献计量方法,多维度聚类文献资源,将主题资源进行可视化分析,深入了解主题/学科资源动态,实现了科研定题跟踪服务。不过,笔者通过对超星知识发现系统个性化服务体验,发现其缺乏个性化定制(RSS、Email)服务、基于Web 2.0的用户参与功能不足、缺少分类号聚类分析、英文字母大小写检索结果不统一等问题。在云环境和大数据分析技术的支持下,超星发现系统应借鉴数据关联、语义搜索技术完善检索功能,建立统一规范化元数据标引体系,保证检索结果的全面准确性。利用Wiki、Folksonomy、FRBR等技术与用户使用信息结合,创造基于关联规则的新发现。以用户需求为中心,开发更多满足多层次、多元化用户需求的个性化服务。