超越知识库:面向知识分析与决策
——以上海科技大学知识管理系统为例

2020-07-23 06:38李雅梅孙小影张晓林
图书馆理论与实践 2020年4期
关键词:云图

李雅梅,孙小影,张晓林,2

(1.上海科技大学图书信息中心;2.中国科学院文献情报中心)

21世纪初,机构知识库(Institutional Repository,IR)伴随着开放获取运动而出现,[1]发展至今,其功能定位已不断延伸。Lynch认为,大学机构知识库是大学向机构成员提供的、管理和传播由机构及机构成员所产生的数字资源的一系列服务,其中最基本的是对这些数字资源进行管理,包括长期保存、组织、获取和传播;[2]Crow指出,IR作为搜集和保存机构知识的基础设施,一方面为学术交流体系的改革提供了重要支撑,另一方面为大学教育质量评估的具体指标提供数据服务,以显示机构科研活动的学术、社会及经济相关性,从而提高机构的知名度、地位和价值;[3]Horstmann提出,IR应嵌入到科研人员的日常生活中,将信息推送到科研人员常用的工具和服务中;[4]张晓林指出,IR将发展成为知识服务平台,并将支持科研教育活动、机构战略性知识管理等;[5]Coar在2017年11月发布的关于下一代机构知识库行为与技术的建议报告中,提出了下一代机构知识库的愿景;[6]吴建中将其表述为“下一代机构知识库的核心是将机构知识库作为一种分布式的、全球网络基础设施的学术交流平台,其总体框架的最上一层可部署知识加值服务,由此将系统提升为面向研究、开放并有助于创新,同时便于学术群体集体管理的平台”。[7]可见,超越传统机构知识库的存储功能——提供知识加值服务,是IR融入学术机构的知识基础设施、提升系统价值的必然趋势。本研究试图超越传统机构知识库的存储功能,将IR转变为支持知识分析与决策的平台,是对IR转型发展的积极探索。

1 研究进展

随着对IR的研究与实践不断深入,其功能由传统的存储逐渐拓展到科研管理、知识管理、知识服务等方面。

在一篇运用文献计量和文本挖掘方法分析IR研究趋势的文章中发现,“Research”相关的词汇,如“Research Support”“Research Service”“Research Information System”等的使用频率呈现出整体上升趋势,表明IR支持科研管理服务受到越来越多的关注。[8]IR的功能拓展到科研服务领域,常常与当前科研信息系统(Current Research Information System,CRIS)或科研信息管理系统(Research Information Management Systems,RIM Systems)相提并论,与科研信息结合,服务科研或进一步服务于机构评价、支持决策或机构战略目标。2014年,Pablo等通过对英国高等教育机构的调查,将实际使用中的RIM Systems总结为3种类型:仅使用IR(替代CRIS)、同时使用IR和CRIS且二者可互操作、仅使用CRIS(具备科研成果开放获取的功能),并指出应逐步合并IR和CRIS以满足机构的科研信息管理要求。[9]2016年,据相关调查报告显示,CRIS和IR具有进行机构和学者评价的优势,即通过CRIS和IR可以收集相关数据并进行数据对标分析,但这项服务还不是很普遍,来自欧洲20个国家的86份回复中,仅有31%的CRIS和23%的IR支持机构或学者评价功能。[10]2017年,Rybinski等介绍了华沙工业大学将IR和CRIS功能整合为一个系统的“OMEGA-PSIR”实践,提出以研究人员为中心促进学术圈对系统的接受程度是决定系统成功的重要因素,该项目的成功经验将进一步推广到波兰至少15个大学,从而构建波兰的大学机构知识库联盟。[11]

国内关于IR的研究也出现了研究管理、知识管理相关的主题。马建霞总结了IR在内容建设与服务设计方面的发展趋势,其中就包括提供知识管理与能力分析功能和知识资产审计服务。[12]香港大学以校方的知识交流项目为契机,将学术库由只提供开放存储全文索引的传统机构知识库提升为CRIS,包括出版物、项目、基金、专利、学者信息、院系信息等,为科研工作者、管理者、知识转移部门、媒体和公众等获取资讯提供了便利,在学者及学校的研究评审和声誉管理中发挥了积极作用。[13]张闪闪提出重视IR的服务功能,通过IR提供学科服务、建设学者个人主页、为科研处提供统计分析报告等服务,保障机构知识库的可持续发展。[14]

2 上海科技大学知识管理系统的架构设计与功能实现

上海科技大学知识管理系统(Shanghai Tech University Knowledge Management System,KMS) 项目属于学校智能化信息系统建设的组成部分,作为全校业务系统中唯一的科研成果数据源,依托于整体项目的互通互融,除了对学校产生的相对稳定的知识内容进行保存、传播和利用外,还要求融入学校科研与知识产出流程中支持与第三方系统的互操作。KMS的定位不限于知识存储功能,更重要的是为整个机构的人员、机构的管理和发展需要提供服务与支持。

2.1 需求调研

IR研究中,如何获得研究人员的关注和支持已有很多讨论,其实研究人员不愿意使用传统IR的尴尬现实也应引起建设者的反思:是否在建设之初就足够重视用户需求并基于用户需求设计系统架构和功能。Salo认为,IR的软件平台受制于不利于创新的架构,且以意识形态驱动而非以用户为中心,使系统开发和需求没有保持一致,要纠正这个错误,必须重构IR的建设方式。[15]在高校机构库的实际建设中,学校和科研人员的需求是首要的,虽然实现开放获取有重大意义,但更多时候是否能让机构和用户快速直接地从中获益才是吸引用户的关键。[16]KMS的需求调研深入到科研人员,涉及科研流程管理的科技处、人事处、教学处,也进一步听取了学院院长、主管科研校长的需求和意见,试图基于用户需求改造传统IR,探索科研人员和学校的管理中通过系统可以解决的痛点和难点,从而建立系统与机构用户间天然的粘性。

2.1.1 确定先期建设的数据采集范围和来源

IR存储的数据范围随着学术环境的发展而变化,从期刊论文、会议论文、专利、学位论文、研究数据到科研过程记录中的数据、博客、网站、音视频及教学资源等。但在系统建设之初,需要递进发展先期建设的范围和未来可能收集的范围。在先期的数据采集范围问题上,得益于图书馆一向承担着的机构学术成果产出统计职责,在对机构学术成果数据的现状已有深刻把握的基础上,结合用户调研,KMS很快确定了先期建设的数据范围,即以Web of Science和EI数据库收录的期刊论文和会议论文为主,以及可快速获取的学位论文和专利数据。

数据来源上,IR曾经是以研究人员自存档为主,但从早期开始建设IR至今,机构需求和系统环境都已经发生了很大变化。[17]重新思考IR的建设方式,必须考虑当前学术交流体系中研究人员日益稀缺的时间。[18]与许多CRIS的做法相似,KMS选择通过数据接口方式自动收割机构产出的学术论文元数据,[19]而研究人员自存档则作为补充措施。学位论文数据通过与教务系统的接口直接同步。由于专利数量相对较少,目前由管理员定期批量导入。

2.1.2 了解科研人员与学校管理中通过系统可以解决的痛点和难点

在充分调研各级各类用户的需求、使用环境及使用习惯的基础上,KMS的数据和服务应嵌入到用户科研流程中,而不是静止地存储于系统内。那么,首先需要回答:用户希望利用知识成果数据做什么?系统通过对知识成果的运营能够帮助用户解决什么痛点或难点问题?

带着问题,笔者分两个阶段展开调研。第一阶段,系统建设之前,面向科技处、教务处、学院科研管理人员和图书馆科研服务人员、第三方对接系统进行访谈和讨论,了解数据范围、数据分析与统计的业务场景和要求、接口规范;第二阶段,采集机构产出的期刊论文、会议论文元数据,并形成6个重要学者的个人主页模型,初步建成试验模型后,分别面向校长、人事处、科技处、院长和教授代表演示试验模型,征集改进意见。经过阶段调研发现,在过去对机构科研成果的统计分析中,直接向全校教职工和学生收集科研成果数据因效率低下且可能占用过多科研人员的时间而难以进行,往往依赖于Webof Science、EI等数据库,但从这些数据库检索到的数据难以细化,无法统计学院或课题组层级的产出情况。若要对内容进行深入分析,就需要专业人员投入大量的时间和精力使用分析工具进行分析,应而无法满足紧急需要。而主管科研的决策者越来越需要在短时间内获得特定条件限制下的详细数据以支持当前决策。这是用户的难点与痛点,也正是KMS可以尝试解决的问题。用户希望KMS在尽可能减少用户时间投入的情况下,支持快速高效的知识成果分析、展现、输出,以便在各类型的报表填报、成果汇报以及支持决策中实时利用,落实到系统功能上包括:① 尽可能少地进行数据存缴、采集、输入和管理;② 多角度多层级、方便快捷地进行组织、修改、配置、展示和统计;③ 各种知识图谱、合作图谱及其灵活个性化的计算;④ 各类内容、统计、图谱等可灵活配置的可视化表示;⑤ 所有内容、报表、图谱等结果都可以用人工或计算机可利用方式输出。

2.2 融合于机构的知识基础设施的架构设计

KMS充分融入学校的知识基础设施中,无缝接入科研教育管理的数字化流程,既是高效完整地获取基础数据、尽量减少用户时间投入的方式,也是将KMS的数据和服务主动推送到用户信息环境中的必要措施。KMS使用校园统一身份认证平台进行用户登录认证,融入主数据管理平台数据流动的环节中。

在数据输入端,KMS将人事系统的教职工数据、学工系统的学生用户数据以及组织架构数据作为基础数据,使用了学校网站已有的师资介绍数据以快速建立丰富的作者个人主页。在主体知识成果数据方面,公开发表的学术成果主要通过 WOS、EI、CSCD、IEEE数据库的数据采集接口自动获取,经查重和数据自动清洗后导入系统,对于未能通过接口自动获取的数据,由研究人员自存档补充。校内的教务系统和研究生系统是学位论文数据的来源,KMS自动读取教务系统和研究生系统中通过答辩的学位论文元数据和论文终稿,既免去传统方式中学生需专门到图书馆的学位论文系统中提交论文的环节,也减少了人工提交数据中容易出现版本错误的问题,极大地提升了图书馆的工作效率和用户体验。此外,OA系统、互动教学平台等是学校业务和教学活动中产生的相对稳定的知识成果的数据来源。

在数据处理上,首先,通过作品智能认领和作者确认认领,将知识成果分属到组织机构的不同单元层级中和作者个人名下,以满足机构内各层级的数据统计需求,并为形成作者个人主页奠定基础。其次,利用知识成果本身的数据,在元数据细粒度配置的基础上,可实现数据分面导航和检索、统计条件的细化配置、生成可视化的知识图谱并向第三方接口传输数据。

在数据输出和利用上,KMS作为全校业务系统中唯一的科研成果数据源,支撑教学科研、业务管理和决策需要。向科研管理系统输出期刊论文和学术论文元数据及作者数据、自动判别后的机构第一作者单位或通讯作者单位的数据、收录情况、被引用次数和期刊影响因子等;向智能决策系统输出学术成果元数据、机构的关键词图谱、合作图谱等;向研究生系统输出学生的科研成果数据;向大型仪器系统输出课题组平台的科研成果产出数据。KMS作为全校知识成果的存储与分析、展现中心,随着系统运营的逐步深入和学校知识环境的变化,将以开放的标准接口从输入端扩展更多的系统以获取更全面的数据,同时在输出端向更多的第三方系统推送已有的或定制化的知识分析数据。

2.3 面向知识分析与决策的功能特点

对知识成果数据进行细粒度分析、灵活展现以支持机构的战略决策需要,是KMS从用户需求调研中总结出的最重要的功能特点。而全面融入机构的知识基础设施,从第三方系统或接口获取到的高质量数据,为功能的实现提供了可能。KMS利用自动采集到的知识成果数据和作者补充存缴的数据,基于作品匹配认领的情况,根据作者的部门课题组归属关联知识成果的研究单元归属,从而实现多层级细粒度的知识分析和可视化图谱展示(见下图)。

图 KMS的增值功能

知识分析的具体功能表现为以下5个方面。① 多层级细粒度,支持对各个层级的研究单元进行统计分析,从全校、学院、课题组到研究人员个人,支持用户灵活设置细粒度的统计条件,包括研究单元、研究主题、时间范围、文献类型、收录类型、贡献排序(第一作者单位或通讯作者单位)等。多层级实现的基础是经过作品智能认领,为每一条数据关联到所属的一个或多个研究单元。细粒度基于系统对元数据字段的灵活配置和数据的规范化处理。② 多维度的知识分析,对研究主题、机构合作网络、作者合作关系、期刊分区分布、收录类型、被引情况等各种可挖掘、可实现的维度进行组合分析。③ 分析结果以可视化图谱的方式展现,使传达效果更直观。④ 快捷导出分析结果,支持Word、PPT、Excel、图片等格式。⑤ 知识分析功能嵌入到作者个人主页,在作者主页上呈现个人研究的关键词云图、研究成果年度分布趋势图、合作关系图。

3 服务效果及展望

KMS项目于2017年4月启动建设,2017年11月正式试运行。其服务效果可以从服务广度、用户反馈和系统访问流量3个角度进行分析。

(1)服务的广度上,KMS向校长、学院或职能部门、科研人员、第三方系统提供不同的服务(见下表)。

表 KMS提供的服务

(2)从用户反馈情况看,KMS的知识分析功能在用户的难点问题上发挥了不可忽视的作用。一位学院负责科研管理的主管反馈:让人印象深刻的是,通过KMS系统能够区分出不同类别人员的科研产出,同时KMS系统支持通过期刊引证报告(Journal Citation Reports,JCR)分区和影响因子对科研成果进行排序和统计,从而帮助我们发现高质量的科研产出。

(3)从系统的访问流量看,KMS自投入试运行至2019年7月底,访问量达439,983次,月度访问量呈现整体上升的趋势。2017年11月-2018年11月,月均访问量在8,000次左右,在此期间通过与目标用户的频繁交流,对系统功能和细节上进行了多处的修改和完善。进入2018年底,KMS访问量开始急剧上升。2019年1月,访问量达到高峰(40,035次),应该与学年末学校各单位的统计分析、汇报展示需求比较集中有关。值得注意的是,在2019年2月进入寒假和春节假期期间,访问量仍高达27,875次,3-5月访问量快速增长,6月和7月再次达到高峰,可以期待KMS在未来的受关注度能有进一步提升。

通过以上分析虽然能对KMS试运行至今的服务效果形成初步判断,但仍然缺乏更深层次的服务质量评估。而且在服务对象上,KMS基于知识成果的分析和可视化图谱更多时候是有利于机构的战略决策、提高声誉以及业务管理,而研究人员虽然是KMS用户的主体,但并没有获得非常直接的个人利益,个人主页的丰富展现在短期内也难以解释发挥了多少作用。因此,在未来的工作中,KMS需要探索如何为研究人员提供有价值的服务。同时,KMS目前只是收集了能够较高效获取的知识成果数据,作为整个学校的知识成果存储、分析、展现和服务中心,未来还需要完善中文学术成果数据、教学资源数据、研究数据等,需要紧跟知识环境的变化拓展更丰富的服务范围。

猜你喜欢
云图
利用精密卫星星历绘制GNSS卫星云图
过云图
天地云图医药信息(广州)公司
气象卫星云图缺失区域的自动修复方法
三维云图仿真系统设计与实现
黄强先生作品《雨后松云图》
CAD派客云图发布V2.2.0版本
云图青石板
曙光专用图形云计算产品云图面市
怎样识读卫星云图