王曰芬,周玜宇,李 塽
大数据驱动下,技术发展和外界环境的改变使得科学研究由经验范式、理论范式、模拟范式逐渐向数据密集型范式转变。新的研究范式以数据作为科研的对象和工具,进而开展研究活动,包括数据的收集或模拟产生、处理、存储、分析等内容[1]。密集型数据逐渐成为科学研究活动的基础,研究过程中所涉及的数据和信息既是研究创新活动的对象或知识工具,也是新的研究起点。随着科研流程与新兴技术的紧密结合,科研活动的开放协作趋势越发显著,科研人员之间数据、信息、成果等内容的共享利用越发普遍,科研人员需要洞悉海量数据中蕴含的知识,以掌握科学发展的特点与规律。同时,随着研究环境与支撑条件的转化,科学研究的难度更大,研究任务的维度与范围更加复杂。科学研究是一个系统过程,知识创新是科学研究的前提并贯穿于整个科学研究中,因此科研过程中的用户知识需求受到多方因素的影响,呈现的动态性和层次性更加显著,并且不同阶段中科研用户对数据源、数据分析的广度和深度、知识呈现与传递的方式等的需求也表现出多样化和个性化的特点。与此同时,知识服务在新环境下受到大数据等新技术发展的冲击,面临数据源多样易变、数据量浩繁、数据供给过载、知识碎片化等问题。如何为用户提供具有较高知识价值的服务产品,成为相关机构及研究者迫切需要突破的难点。因此,以知识创新为驱动,针对用户在科研过程中的需求为其提供深度知识支持服务,即开展知识创新服务,既是传统知识服务变革与重构的发展方向,也是满足科研知识创新需求的重要支撑。而了解与掌握科研过程中的用户需求,是知识创新服务开展的前提和基础。
在新科研模式推动下,科学研究范式、知识形态、知识获取、知识交流及处理机制面临巨大挑战,知识创新对知识服务提出了更高要求,并引发出新的研究关注。从已有研究看,有学者认为知识服务是知识管理的发展和延伸,如Clair等认为知识服务是一种管理方法,它将信息管理、知识管理和战略学习(以绩效为中心)结合在一起,形成一个企业范围内整体和广泛的运作功能[2];也有学者认为知识服务应当与知识创新联系起来,如Ebersberger认为知识密集型服务是在公司或组织的内部或外部提供的创新服务,而创新服务被理解为针对组织发展的服务及其创新的模式和目标,包括公共和非营利机构[3]。随着大数据与知识创新驱动需要的增长,知识创新服务受到学者们的青睐。姚远等结合大数据时代的背景,将知识创新服务定义为综合利用大数据、语义网等技术,重新组织各类信息资源,建立关联网络、语义网络等,并进行可视化呈现的服务[4]。陶丽等借鉴智库知识管理模式和知识创新的经验,提出知识创新服务可依托智库管理的核心要素构建高质量的知识资源技术辅助平台,提供舒适的空间互动环境以及丰富的可参与式服务,以帮助用户优化知识结构,实现知识创新[5]。
笔者结合前人研究成果,将知识创新服务定义为以知识创新为目标的知识服务,即面向创新的知识服务,其核心内容包括信息需求分析、信息采集与知识抽取、知识融合与知识发现、知识创新服务机制构建、知识创新服务应用[6]。因此,本文在上述概念界定的基础上,聚焦科研过程中的知识创新支持,进一步明确知识创新服务的目的是:将相关信息资源集成整合、形成增值的知识产品,以促进知识创新和满足科研过程中创新活动的需求。
(1)用户信息需求及其相关研究。Maurice认为信息需求就是人们工作、研究和构思所需要的事实和数据等[7]。Shih等依据用户的行为来确定用户需求,提出一种信息需求雷达模型,由用户、内容和概念来描述信息需求,且建立基于该模型的信息搜索框架以获取并评估信息需求,并通过实验证明该模型结构的适用性和有效性[8]。Abdullah调查发现,信息资源的可获取性、数据的质量和易用性是影响数字信息资源使用的主要因素[9]。Dehghani等利用扎根理论,结合半结构化用户访谈,探寻影响数字图书馆知识推荐服务的用户情境因素模型,包括用户基本情况、目的或意图、用户的期望值等[10]。总的来说,用户信息需求是指用户针对内在认知与外界环境接触后所感觉到的差异、不足和不确定,试图找寻消除差异和不足,判断不确定事物的一种要求。而用户知识需求是信息需求的深化,是随着知识服务的兴起而逐渐产生与发展的。
(2)科研生命周期及其相关研究。科研人员需要借助于一定的工具进行资料收集及处理以完成特定研究任务,在此过程中会有多种需求以及为满足需求而进行的行为。许多学者从信息行为视角解析科研流程,构建了科研活动框架模型,比较典型的有Microsoft Research Connections建立的包含知识生产各个阶段的学术交流生命周期,即:“‘数据收集、研究和分析→写作→出版和传播→归档和保存’,而‘合作、查找和发现’则完善了整个过程。”[11]JISC(Joint Information Systems Committee,英国联合信息系统委员会)将科学研究生命周期划分为Ideas→Partners→Proposal writing→Research process→Publication[12](见图1),其中Ideas主要指通过文献检索、背景阅读等发现的新问题或新观点;Partners 主要指通过网络工具寻找合作伙伴;Proposal writing主要指研究者需要撰写一份研究计划;Publication主要指在开放获取期刊或存储库中发布研究信息或成果等,以提高研究的可见性;Research process主要包括模拟、实验、观察(Simulate,experiment,observe),管理数据(Manage the data),分析数据(Analyse data)与分享数据(Share data)。在模拟、实验、观察环节中,不同学科的研究过程差别较大;而管理数据主要指研究人员需要制定数据管理计划;分析数据环节涉及对社会调查数据的分析等;分享数据即策划或保留原始数据(或已处理数据)以便他人访问和使用。该框架模型能够揭示科研人员在研究中对信息/知识的获取、吸收、创造与传播活动,展现了科研情境下完整、系统的知识创新与利用行为。
图1 JISC科研生命周期模型
用户需求是知识创新服务的出发点。在科学研究范式迁移与知识服务转变的驱使下,科研用户知识需求发生了很多变化,进而带来了知识创新服务的新需求。因此,科研用户知识创新服务的需求调查,对知识服务的理论与实践具有重大意义。结合已有的研究成果与实践,本文将研究问题确定为两个方面:(1)在科研生命周期各个阶段,科研用户知识创新服务需求的内容与行为具有哪些特点?(2)科研用户的知识创新服务需求与行为是否随人口统计特征发生变化?为解决上述问题,借鉴相关理论与方法,本文设计的研究思路为:以知识创新服务为基础,以用户信息需求理论与JISC 科研生命周期模型为支撑,嵌入知识创新,将科研生命周期划分为选题构思、组建团队、确定课题(项目申请)、研究探索、成果产出、关注与交流6个阶段,并从全过程出发对科研用户的知识创新服务需求展开调查与分析。
基于研究问题与思路,本文设计的问卷主要包括两个部分:(1)用户的基本信息,如年龄段、性别、学科领域、学历等;(2)科研用户知识服务需求与行为调查,主要针对用户在不同科研阶段的具体服务需求和行为习惯。在正式调查前随机进行小范围的问卷预调研,以便发现问卷设置的细节问题,如题项表述存在的歧义等,从而保证问卷的科学性及合理性。问卷主要借助问卷星平台正式发放,要求答卷者具有科研经验,且在科研活动中使用过相关的知识创新服务。因此,在研究中将样本对象锁定为有科研经历的高校及科研院所师生。问卷采用便利抽样,通过微信朋友圈、学术社交论坛等多种途径邀请目标用户进行填写。为保证样本数量达标,将问卷调研的时间范围设置为2019年8月15日至9月10日。在该期间通过问卷星平台共回收问卷388份,对逻辑不符、填写不完整等无效问卷进行筛选后得到332份有效问卷,问卷合格率约为86%。
参与本次调研的用户人口(学)基本特征如表1所示。被调查者性别分布较均衡,在学科领域(类别)上人文社科所占比例稍高于自科科学,在科研经验上除了工作年限小于4年的,其他类别的分布相差不大。由于选定的样本要求具有科研经验,主要为科研院所及高校的学生和老师,故年龄基本在22岁以上,学历集中为硕士、博士。
表1 人口统计特征描述性统计
在广泛的文献调查与实地调查基础上,针对选题构思、组建团队、确定课题、研究探索、成果产出、关注与交流等不同阶段,提出有关用户知识创新服务需求与行为的问题并展开调查。具体地,选题构思阶段包括:科研选题方式、期望能得到的知识服务(基础资源层次、知识产品层次、服务层次)、希望抽取的知识维度及关系特征;组建团队阶段包括:寻找合作者时的单位倾向、领域倾向和服务支持途径;确定课题(项目申请)阶段包括:协助文献综述、科研查新等服务;研究探索阶段包括:工具培训服务、科研数据服务、数据共享意愿与原因分析等;成果产出阶段包括:学术写作服务、期刊投稿服务、学术会议信息及科研成果发布途径推介、成果转化服务、科研评价服务等;关注与交流阶段包括:交流方式、交流内容的选择等。限于篇幅限制,下面以选题构思阶段为例,对调查结果数据进行阐释。同时将总体的调查研究结果在结论中给予阐述。
3.2.1 用户需求与行为分析:以选题构思阶段为例
(1)科研选题方式。选题构思是科研活动的起点,决定着相应的研究方向、问题、任务以及研究的意义和价值。科研用户的选题方式往往各有不同,针对其选题习惯进行调查的结果见图2。
图2 科研选题方式
由图2可知,“从热点趋势中选题”占比最高。学科热点往往代表当前研究的聚焦问题,围绕热点进行选题往往能获取较大关注度,引发更广泛的讨论。“从碰到问题中选题”的占比位居第二。从认知角度看,认知总是从已知向未知领域逐渐拓展,拓展的外在形式就是问题。科研人员在实践活动中可能会面临诸多问题,这些问题在一定程度上会激发创新性思维,给予其相应的创新灵感。“从学科带头人、导师推荐中选题”位居第三,学科带头人或导师等对相应学科领域有较深刻的理解,能够给出建设性意见。“从交叉学科中选题”位居第四,科学研究的复杂化程度越来越大,学科交叉融合中也碰撞出更多的问题与研究点,成为科研人员的选题来源之一。此外,从基金项目、期刊或会议主题中选题的也有不少。“从基金项目中选题”的优势在于,项目往往已具有相对完整的研究框架和较强的可操作性,能够在一定程度上保障选题的高质量。“从期刊或会议主题中选题”可使主题更具有针对性,也有益于后期的论文投稿。整体来说,不同选题方式的优劣势不尽相同。偏自主性的选题方式能使科研人员自由发挥其的特长,但对经验不足的科研人员来说,由于自身研究水平的限制,选题可能会出现不合理之处。而根据学科带头人、导师的推荐选题,可以站在较高的层次去理解题目,进而避免可能出现的选题重复等问题。
(2)所需的服务支持。用户在选题构思时往往需要知识服务的支持,本研究主要从3个层次对其进行调研,即基础资源、知识产品和服务。在基础资源层次上,用户期望使用的资源类型见图3。其中,学术期刊、博硕论文及会议论文是用户惯常使用的资源。值得注意的是,用户对科学数据集、非公开出版的灰色文献也表现出较强烈的需求意愿。
图3 基础资源层次的服务需求
从知识产品层次看(见图4),前沿动态和历史文献分析占比较高。学科领域的前沿动态是科研人员把握的焦点,及时了解相关内容及其特征对于探索知识体系的新趋势十分重要。历史文献分析是帮助用户了解研究领域背景及相关知识点的关键环节,能让用户在面对大量文献时较快掌握领域知识脉络和发展状况,加深对学科知识体系的认识。研究领域的学者资讯、时政热点与政策方针占比也不低。学者资讯信息能帮助科研用户了解领域权威学者或学科带头人的相关学术活动,如科研方向、项目成果状况等,有助于跟踪掌握领域新理论、技术方法和行业动态。及时掌握时政热点与政策方针有助于科研人员对研究方向和活动规范的把握,使科研工作符合相应的政策且能够顺利开展,从而创造出更大的社会效益及经济效益。历年基金项目统计、标准信息分析和历史专利分析三者占比相近,分别基于3种不同的信息源进行统计分析。历年基金项目统计分析可在一定程度上揭示学科领域的资助方向和重点及其进展,能起到参考评估的作用。诸如国家标准、行业标准等的信息分析对于科研人员规避科研活动中可能存在的风险,提高科研工作的规范化程度具有积极作用。历史专利分析能够帮助科研人员掌握相应的技术态势,了解行业专利技术的构成及分布情况,从而进一步加深对技术发展规律及热点趋势的认识。
图4 知识产品层次的服务需求
从服务层次看(见图5),占比最高的是一站式知识检索服务,其次是动态知识推荐及可视化知识导航。数据馆藏的分布式储存,致使用户在获取不同类型知识资源时需要分别访问相应的数据库,而不同数据库的检索规则有所差异,对用户的检索技能水平要求较高,因此用户对一站式的知识检索服务期望较高。一站式知识检索服务能够将多种资源类型以不同的知识粒度进行组合,降低用户的检索成本。随着可视化技术的发展,用户对检索结果的呈现也提出较高要求;以图表形式展现各类知识,让用户从点线关联之间加深对知识层次关系的理解,既直观,又有利于对学科隐性知识的发现。科研活动是一个阶段性的过程,相应地,科研用户需求也呈现出多元化特征。随着研究阶段的推进,用户需求也随着阶段任务情境的变换而发生变化。因此,用户对基于其项目阶段、行为兴趣等的动态知识推荐服务期望较大。
图5 服务层次的服务需求
(3)基于文献知识单元的需求。文献是科研活动的重要资源支撑。本文进一步调查用户期望获取的基于文献抽取的知识维度及关系特征,如图6所示。
图6 服务需求的知识维度及关系特征
从基础知识项(知识维度)看,关键词、发表年度、学科类别、作者、文献来源等占比较高,均在50%以上,机构和所属基金项等占比相对较低。从关系特征看,相似关联分析占比最高,为58%;其次是引证分析,占54%;文献主题挖掘占比51%,共现分析占42%。相似关联关系反映知识单元的同质性,用户往往希望就自身所感兴趣的问题进行散发性思考,为此需吸收关联信息,以便在较短时间内迅速掌握更充足的知识;而且,在信息过载的情况下,相似关系的呈现能帮助用户减小认知负荷。与之类似的有文献主题挖掘,其优势在于将文献的重点主题内容以相对简洁的方式呈现出来,帮助科研人员快速理解主题脉络,提高科研效率。引证(关系)分析展现了文献的知识来源以及知识输出情况,是加深用户对领域知识点研究积累以及动态发展的有效途径,有一定的参考借鉴价值。共现分析也在一定程度上反映了知识单元的关联特征,不同知识单元的组合从不同维度反映其强弱关系,从而帮助科研人员更深入地了解知识的脉络结构。
3.2.2 交叉分析
为探究年龄、性别、学历、职称、学科类别、科研经验6个人口统计特征对科研用户知识创新服务需求的影响,本研究对调研对象的人口统计特征及其服务需求进行了卡方检验与交叉统计分析,仍以选题构思阶段为例加以分析与阐释。表2为选题构思阶段用户服务需求的卡方检验结果,当对应的P 值小于0.05时,说明不同特征项样本在对应题项上存在显著性差异。
表2 选题构思阶段的用户服务需求卡方检验结果
(1)科研选题方式。年龄、性别、学历、职称、学科类别、科研经验对科研选题方式均有显著性影响。通过交叉统计可知:年龄上,28岁及以上的科研用户选择“从热点趋势中选题”的占比较高,而18~27 岁的用户选择“从学科带头人、导师推荐中选题”的占比较高,其他4种选题方式中也以33岁及以上的用户为主;从学历维度看,硕士学历的用户中“从学科带头人、导师推荐中选题”“从热点趋势中选题”比例较高;从职称看,初级、中级和副高职称的用户选择“从热点趋势中选题”的占比较高,正高职称用户选择“从碰到问题中选题”的比例较高,而学生用户“从学科带头人、导师推荐中选题”的较多;从学科类别看,自然科学用户“从交叉学科中选题”的占比高于人文社科;从科研经验来看,具有5~10年科研经验的用户中,“从交叉学科中选题”和“从基金项目中选题”占比较其他用户高;科研经验在4年及以下的用户主要“从学科带头人、导师推荐中选题”。总体来看,“从热点趋势中选题”和“从碰到问题中选题”是应用较广的两种选题方式,在不同维度上二者的占比均较高。相较而言,28岁以下、科研经验较少的用户更倾向于选择“从学科带头人、导师推荐中选题”,而科研经验较为丰富的用户则更倾向于“从交叉学科中选题”和“从基金项目中选题”。
(2)对基础资源的需求。6个人口统计特征对基础资源的选择均有显著性影响。从交叉统计看,学术期刊、博硕论文、会议论文在不同维度下的占比均较高,报纸、年鉴、专利、工具书在18~22岁用户中的占比高于其他年龄段,图书、标准、图片、视频在28~32岁用户中的占比高于其他年龄段,科学数据集和灰色文献在33岁及以上用户中的占比高于其他年龄段。此外,本科学历用户对年鉴、图书、工具书的需求高于其他学历,专利、标准、科技成果、图片、视频在自然科学用户中的占比高于人文社科,科技成果、灰色文献在科研经验为23年及以上的用户中占比较高。
(3)对知识产品的需求。本研究中的各个人口统计特征对知识产品的选择有显著性影响。前沿动态、历史文献分析在不同特征维度下的占比均比较高。研究领域的学者资讯、时政热点与政策方针在28岁及以上用户中占比较高。历史专利分析在自然科学中的占比高于人文社科,时政热点和政策方针在人文社科中的占比高于自然科学。
(4)对服务种类的需求。年龄、性别、职称和科研经验对服务种类的选择有显著性影响。相较于其他年龄段,33岁及以上的用户较少选择“可视化知识导航服务”,而18~22岁用户选择该服务的占比较高,选择“动态知识推荐服务”的较少。
(5)希望抽取的知识维度及关系特征。性别、学历、学科类别对知识维度及关系特征的选择有显著性影响。其中,文献主题挖掘、引证分析、共现分析、相似关联分析在人文社科用户中的需求占比高于自然科学。
本文以科研生命周期为基础,以科研用户为研究对象,通过实证调查与统计分析探寻科研用户的知识创新服务需求,并基于年龄、性别、学历、职称、学科类别及科研经验6 个人口统计项,对科研用户的需求行为进行交叉检验,研究不同阶段中的差异性特征。研究发现:
(1)选题构思阶段。用户的选题方式有所差异,主要与其自身的学科属性、科研经验有关。除了基础资源的使用,科研用户对科研数据集、灰色文献的需求较大。在知识产品的选择上,用户较多选择前沿动态、历史文献分析、研究领域的学者资讯、时政热点与政策方针等;同时,由于自然科学用户的研究应用性较强,对专利分析的需求也较大。从服务层次看,一站式知识检索是用户较为青睐的服务,其次是动态知识推荐及可视化知识导航。
(2)组建团队阶段。用户的合作者主要为同单位、同领域的学者,并且对获取相似用户的定位服务表现出较强的需求意愿。
(3)确定课题(项目申请)阶段。用户的需求集中在课题的申请指导方面,如协助文献综述写作、申请格式规定咨询、申请经验交流等。
(4)研究探索阶段。服务主要围绕研究的具体实施而展开,主要包括科研数据管理、文献资料管理、学术信息追踪等。大部分用户对数据共享持积极态度,认为这样可提高研究的重现性,促进研究成果的交流传播。用户不愿意共享数据的原因主要是担心他人会不正当及不正确地使用数据。
(5)成果产出阶段。科研活动主要涉及研究成果的撰写、发布以及转化等,相应地也产生了学术写作规范指导、出版服务、成果转化与评价服务等需求。
(6)关注与交流阶段。整个科研生命周期各阶段的科研活动都需要沟通与交流,资料分享、科研经验交流、文献评论等内容。此外,不同特征科研用户的某些需求行为存在显著性差异。
受资源、渠道等因素限制,本研究的科研用户主要来自高校、科研机构等;而且,只对用户特征与服务需求做差异性分析,未进一步对细分的科研用户进行服务内容的划分,未来的研究可相应扩大调研范围,将企业科研用户纳入其中。另外,可进一步细化研究内容,对科研用户进行特征划分,分析对应的需求内容,设计更为具体的服务方案,从而为创建更全面精细的知识创新服务模式提供更多的支持。