张 晨(中国人民大学信息资源管理学院)
科研项目同期刊和专著一样承载着知识主体和知识客体的相关信息,因此,科学基金项目也可以在一定程度上反映学者在该学科领域的关注重点,而国家级科学基金项目则能反映一个国家在该学科的具体研究动向和趋势,以及整体的学术研究发展和社会经济发展状况。本研究旨在对比分析图情档学科领域中美两国的基金资助项目,具体调研了2013-2020年我国国家社会科学基金立项项目(以下简称“国社科”)和国家自然科学基金立项项目(以下简称“国自科”)以及美国国家科学基金会(National Science Foundation,NSF)对开设图情档学科的院校资助的科研项目,具体分析了中美两国基金资助项目的高频词和主题,梳理总结两国的研究热点,为我国图情档学科的进一步发展提出建议。
已有研究大多从论文和基金资助项目两个角度分析学科的研究热点。①对论文的分析。论文是学者研究成果的直接展示,通过分析论文可以直接得到相关领域的研究主题和研究内容,进而可总结出某一特定领域的研究热点。图情档领域基于论文进行的热点问题研究主要集中在期刊刊载论文、硕博论文、会议论文和参考文献这几种类型。②对基金资助项目的分析。基金资助项目代表了资助机构对该项目的肯定,通过分析基金资助项目可以发现某一特定领域的研究动向。目前,关于基金资助项目的分析研究主要从基金论文和基金立项两个角度展开,本研究将重点关注基金资助项目对研究热点的反映情况,因此详细调研了基金立项的相关研究状况。
基金论文是指在学术期刊上发表的有基金资助的论文,这些论文代表了基金项目的产出成果,也从侧面反映了该项目的科研价值。近年来,图情档学科正在积极开展对于基金论文的研究,相关研究的主要内容见表1。
表1 基金论文的主要研究内容
已有研究主要从基金立项的外部特征和内容特征方面分析了图情档学科的研究情况(见表2)。通过对基金立项的内容特征,尤其是主题词、关键词与高频词进行归纳与总结,学者们梳理出了当前图情档学科的研究热点:图书馆、国际化发展和创新服务、“大数据”环境下相关研究、古籍整理与文献研究、弱势群体、舆情、图书馆、创新、文化、突发事件、用户、大数据、知识化、智慧化、互联网+、学科交叉、数字人文等。
表2 基金立项的研究
(1)中国国家级基金立项数据。国家级基金项目能够较好地反映科研动态,图情档学科的科研人员极其关注和重视国家级基金项目。通过全国哲学社会科学工作办公室网站和科学网,笔者统计了2013-2019年国社科和国自科中“图书馆、情报与文献学”类及学科代码为G041401的“图书情报档案管理”类目下的相关项目,分别获取国社科项目1,106条、国自科项目132条。
(2)美国国家级基金立项数据。作为美国的国家级基金立项单位,NSF按学科分门别类地建设了各个委员会,向各大院校提供研究赠款和资助。由于从NSF网站无法直接获取图情档学科的项目信息,笔者尝试从开设图情档学科的院校逐个收集其2013-2020年的科研项目。iSchool是一个致力于推动信息技术、图书馆学、情报学等学科发展的非营利性组织,由来自世界各地的院校组成,截至2020年8月12日,已经有了116所成员院校,其中美国院校44所。U.S.News&World Report对获得美国图书馆协会认证的开设图书馆和信息研究硕士学位的院校进行了统计与评估,相关的美国院校共计51所。笔者在合并这两个渠道统计的院校并排除无图情方向的院校后,最终确认了57所相关院校。首先逐一浏览这57所院校的官方网站并整理出其中由NSF资助的项目,再以其中提到的图情方向教师的姓名为检索条件在NSF网站筛选2013-2020年的基金项目,截至2020年8月12日共收集到相关数据326条。
本研究主要采用文本挖掘的方法提取中美两国基金项目数据中的高频词,再通过K-means算法进行主题聚类。从数据清洗、分词、抽取高频词、可视化、TF-IDF构建词权重到K-means聚类,整个过程利用Python编程语言实现。
3.1.1 关键词分析
笔者利用Jieba对每个项目名称进行分词处理,在剔除无用词后得到热点关键词,再利用Python的PyEcharts工具将关键词绘制为交互式可视化词云图,并提取出现频率Top15的关键词绘制条形图(见图1),从中可以看出国家级基金项目的研究主题分布以及我国国家基金项目的分布特点。
图1 中国国家级基金项目关键词Top15
(1)“图书馆”研究是基金项目的重中之重。“图书馆”的出现频次最高,学者主要从图书馆类型、评价、创新建设、数字图书馆、服务、图书馆员、图书馆发展史等方面展开研究。如,重点项目“基于绩效和成效集成的公共图书馆评估理论与评估标准创新研究”“基于知识组织的图书馆资源发现服务体系研究”“中国古代图书馆学研究”等。
(2)“服务”成为图情档学科的重要研究内容。“服务”的出现频率较高说明图情档学科的研究呈现服务化趋势,其中信息服务和知识服务是研究重点。如,重点项目“面向国家发展与安全决策的情报服务创新研究”“创新驱动的中国特色新型智库知识服务发展机制研究”“大数据环境下战略性新兴产业的信息资源服务创新研究”等。
(3)“信息”“知识”“数据”仍然是重点研究对象。根据DIKW(数据—信息—知识—智慧)模型,当数据转换为信息再转换为知识后,数据能实现更高的价值,而如何组织、利用信息、数据和知识仍然是学者们重点研究的问题。其中与“信息”相关的研究数量最多(词频位居第2),其次是“知识”(词频位居第4),再次是“数据”(词频位居第12)。2013年是我国的“大数据元年”,从2013年开始,我国学者对于大数据的研究呈蓬勃发展之势,2013-2019年,“大数据”的词频超过了传统的“数据”。如,“面向企业技术创新的专利大数据挖掘与分析研究”“大数据时代政府数据治理体系建构研究”“大数据环境下战略性新兴产业的信息资源服务创新研究”等。
(4)对传统文献资源的研究仍受关注。以“文献”“档案”“资源”为关键词的研究项目占据较大比例,这些研究主要集中在文献整理、档案管理、信息资源方面。如,“新时代我国档案管理体制改革研究”“民国时期革命历史文献整理与研究”“大数据环境下战略性新兴产业的信息资源服务创新研究”等。
(5)新兴网络技术扩大学科研究范围。“数字”“网络”等高频关键词标志着图情档学科的研究已进入数字化和网络化环境,新方法和新技术为图情档学科的一些问题提供了新的解决方案,促使立项项目转向创新性研究。因此,“创新”也是已立项的基金项目中一个不可忽视的关键词。如,“社会连接和认知负荷视角下网络用户从众信息行为研究”“数字保存的风险型元数据与风险监控研究”“学术出版体制机制创新研究”等。
3.1.2 主题分析
笔者使用K-means算法对我国国家级基金项目的名称进行共词聚类,结合手肘法与轮廓系数判断出8类最佳聚类簇,每个类簇的关键词Top10见表3。
表3 中国国家级基金项目主题聚类
(1)信息资源管理。第1类簇的研究较为宏观,其主题主要为在国家战略背景下进行的信息资源管理研究,具体涉及数据治理、信息政策、信息安全、智库建设、非物质文化遗产数字化、数字档案等方面。如,“面向智慧服务的多源多维公共文化数据治理及政策保障研究”“个人信息保护政策的国际比较研究”“国际智库当代中国研究数据库与重要专题研究”“濒危土家族非物质文化遗产的征编与数字化保护研究”等。
(2)电子政务。第2类簇的研究围绕政府内部业务的信息化展开,利用现代信息技术对政府的信息化业务进行重组与改造,利用网络与社交媒体加强公众对政府服务的监督,使政府工作更有效、更公开,具体涉及数字政府、开放政府数据、政府信息服务、社交媒体等方面。如,“数字政府背景下电子文件单轨制管理的数字连续性保障框架研究”“共生视角下政府数据开放的运行机制与实现路径研究”“我国地方政府公信力的网络媒体评价机制研究”等。
(3)信息分析。第3类簇的研究主题可归纳为信息分析,这也是近年来情报学科的研究热点,主要包括信息评价、学术资源、语义分析、社会网络分析等相关研究。如,“大数据环境下移动社会网络中多维信任评价机制及实施路径研究”“基于文本内容挖掘的学术论文影响力评价研究”“基于专利语义分析的潜在竞争对手识别方法研究”等。
(4)古籍文献整理。第4类簇的研究主题可归纳为古籍文献整理。我国文化历史悠久、地域辽阔、民族众多,产生并传承了众多古籍文献和档案资源,整理这些资料对于我国的文化认知具有重要意义。该主题的研究具体涉及档案保护、档案数字化、数据库建设、文献整理与研究、史料整理与研究等。如,“彝文古籍及其数字化保护与利用研究”“广西京族口述历史资料收集整理与其有声数据库建设”“晚清、民国时期地方志中图书馆史料的整理和研究”等。
(5)图书馆建设与服务。第5类簇主要是与图书馆建设及服务相关的应用实践问题。数字化、大数据、云服务等技术推动了图书馆的发展,图书馆在大的社会背景下不断寻求创新与突破,这一主题的研究具体包括图书馆建设、图书馆服务、数字图书馆、移动图书馆、智慧图书馆等方面。如“图书馆服务体系层级结构与效能优化研究”“‘互联网+’背景下数字图书馆发展与创新研究”“移动图书馆的用户体验模型与服务质量提升研究”“智慧图书馆情境感知微服务模式研究”等。
(6)知识管理。第6类簇围绕“知识”这一主题聚类,体现了图情档学科对“知识”的重视与关注,主要涉及知识组织、知识服务、知识图谱、知识社区、知识挖掘、知识创新、知识共享、知识库构建等内容。如,“基于知识组织的图书馆资源发现服务体系研究”“大数据环境下面向图书馆资源的跨媒体知识服务研究”“基于深度学习的学术全文本知识图谱构建及检索研究”“信息生态链视角下在线知识社区用户贡献行为评价及预测研究”等。
(7)图书馆史与馆藏书目。第7类簇主要讨论的是与图书馆发展史以及图书馆馆藏书目相关的理论问题,具体涉及图书馆学研究、图书馆史研究、图书馆教育、专题馆藏研究、馆藏资源整理、总目编纂等方面。如,“信息科学视野下的图书馆学原理研究”“民国时期新知识群体图书馆学术思想史研究”“国家图书馆藏清宫戏曲文献研究”“百年中国苗学论著总目编纂与知识图谱研究(1917—2016)”等。
(8)信息服务。第8类簇涵盖的研究主要是医学视角下的信息服务。医学信息学和健康信息学是近年来的研究热点,旨在满足公众对医疗健康信息与技术的需求[12],主要涉及健康信息服务、健康知识组织体系、健康信息行为、健康信息检索、健康信息挖掘、电子病历、医学知识管理等内容。如,“大众健康信息服务体系中公共图书馆参与研究”“面向知识服务的健康知识组织体系构建研究”“融合SOR理论的网络健康信息搜寻行为与优化策略研究”“信息链视域下电子病历数据驱动健康服务供给侧决策的路径与模式研究”等。
3.2.1 关键词分析
笔者结合NSF资助项目的名称和摘要,利用NLTK进行分词,统计并绘制了高频词Top15水平条形图(见图2)。由于项目文本材料中的一些专业术语更多是以二元词组形式出现的,因此笔者通过2-gram方法抽取了二元词组的高频词Top15(见图3),据此综合分析美国国家级基金项目的研究热点。
图2 NSF基金项目高频词Top15
图3 NSF基金项目二元高频词组Top15
在高频词Top15中,“数据”(Data)的出现频率远远超过了其他关键词,是美国国家级基金项目研究的重要关注点。综合分析可以发现美国国家级基金项目的分布具有以下特点。
(1)“数据科学”(Data Science)是热点研究领域。2012年,Davenport T H等发表文章称“数据科学家是21世纪最性感的职业”[13],该文将数据科学带入大众视野,引起了人们的广泛讨论与关注。“数据科学”在NSF基金项目中的出现频率最高,与其相关联的“数据收集”(Data Collection)、“数据分析”(Data Analysis)、“机器学习”(Machine Learning)等术语的出现频次也较高。
(2)研究具有学科交叉性。在出现频次较高的关键词中,“计算机科学”(Computer Science)、“社会科学”(Social Science)分别占据第3位和第9位,为图情档学科呈现出新的研究视角。“社会媒介”(Social Medium)在词频统计中占据第2位,也体现了不同领域的交叉融合。
(3)学生实践教育是重要资助项目。与我国的国家级基金资助不同,NSF会资助学生参加学术研讨会、学术会议、学校实践项目等活动,“研究生”(Graduate Student)和“博士讨论会”(Doctoral Colloquium)显示了NSF对学生实践教育的关注。
(4)重视数据管理及与数据相关的伦理与安全问题。“数据管理”(Data Management)是图情档学科的一项重要研究内容,大数据的发展带来的数据伦理和数据隐私问题引起了研究者极高的重视,在NSF的图情档学科的基金项目中,“数据伦理”(Data Ethic)、“隐私安全”(Privacy Security)、“安全隐私”(Security Privacy)作为高频词汇出现。
(5)紧跟时事,出台资助项目较为迅速。NSF资助项目具有一个突出的特点——与社会的相关性较强。2020年,新型冠状病毒肺炎(Corona Virus Disease 2019,COVID-19)席卷全球,在NSF资助的项目中,笔者检索到了42项2020年立项的基金,其中有14项与COVID-19直接相关。
3.2.2 主题分析
笔者利用TF-IDF结合2-Gram方法提取NSF资助项目的关键词,并利用k-means算法对基金项目材料进行共词聚类,判断出8类最佳聚类簇,每个类簇的关键词Top10见表4。
表4 美国国家级基金项目主题聚类
(1)学生教育。第1类簇的研究主题主要围绕学生理论教育与实践教育,具体包括科学、技术、工程和数学教育、学生学习、服务学习、课堂设置、iConference会议资助、博士讨论会等。如,雪城大学连续两年申请了NSF基金资助博士参与iConference会议。
(2)数据管理与社群信息学。第2类簇的研究多与人相关,主要涉及社群信息学、数字不平等、计算机交互、社会计算、数据管理等内容,是图情档学科与计算机科学和社会科学的交叉研究领域。如,“社区决策的数据分析”项目的目的是通过多学科、多社区的努力,从社会技术视角实现智慧社区建设。
(3)数据科学与数据伦理。第3类簇的主题是数据科学以及与之相关的数据伦理问题,该主题主要涉及数据科学、数据密集、数据驱动、数据分析、数据伦理等内容。如今科学研究的范式已经转向第四科学范式,即数据密集型科学[14],随之而来的一系列研究方向值得学者们深入探索。如,“培养数据科学的伦理:学术界和产业界的挑战和机遇”项目旨在通过比较工业领域和学生领域的数据伦理的状态、结构和实质,提出提高跨社会背景和专业部门数据伦理的有效策略。
(4)数据安全与隐私。第4类簇的研究主题是数据安全与隐私,主要包括数据安全、安全设计、隐私安全、数据隐私、人类行为、数字素养等。如,“宾夕法尼亚州保障安全的数据科学劳动力开发”项目为年轻专业人员提供了一种保障安全的数据科学基础教育模式和课程,以实现智慧医疗,提高社会公益、智慧交通、社会进步、经济科学和保证智能分析的安全性。
(5)图书馆与数据分析。第5类簇的主题较为多元,包含数字图书馆、数据分析、数据驱动、计算基础设施、会议研讨会等。数字图书馆可以将各类信息资源存储为数字化内容,既能方便用户获取文献和信息,也能避免因纸张破损或丢失导致的信息缺失问题。如,“通过项目评估改善研究问责制”项目的一个目的是开发评价系统EASE,使用者可以用其将他们的实验内容上传并存档于数字图书馆中。
(6)数据检索。第6类簇的研究主题是信息检索,包括多重搜索、聚合搜索、敏感内容检索、检索系统、搜索引擎等内容。如,“用于探索性和协作性搜索的知识表示和重用”项目通过分析搜索系统捕获、共享和重用在搜索过程中开发知识的方法,帮助用户提高检索质量。
(7)信息技术。第7类簇主要讨论了与图情档学科相关的一些技术和方法,包括人工智能、机器学习、算法系统、自然语言处理、用户生成内容、网络科学、社会计算、计量经济学等内容。如,“消费者对安全事件和数据泄露通知的响应”项目将计量经济学技术与机器学习技术相结合,旨在识别由不良安全事件或违规通知而导致的用户行为变化程度。
(8)社交媒体。第8类簇的研究项目围绕社交媒体展开,具体涉及社会网络、媒体网站、媒体平台、舆情监督、应急事件管理等内容。如,“通过社会媒体的使用,了解在抗灾能力方面的社会和地理差异”项目研究了在紧急情况管理的不同阶段如何挖掘实时社交媒体数据,从而分析其中存在的社会和地理差异。
4.1.1 相同之处
(1)重视图书馆研究。作为数量众多、分布广泛的公共文化机构,无论是中国还是美国对图书馆的研究始终热度不减。物联网、云计算、云服务等技术的更新和发展使得图书馆逐渐转向数字化和个性化,图书馆研究也得以不断推进,主要集中在数字图书馆的发展过程中图书馆本身的建设和技术应用、图书馆资源的整理和利用、以及图书馆员的培养上。
(2)重视对大数据及数据科学的探讨。我们的科学研究已经经历了实验科学、理论科学、计算科学这三种范式,正在转向数据密集型科学范式。大数据时代催生了“数据科学”这一新兴学科,因此中美两国的基金项目中都对大数据问题进行了深入探讨,如,我国国家级基金项目关键词中排在第10位的“大数据”,NSF基金项目二元高频词组排在第1位的“数据科学”。
(3)对用户的关注程度较高。“用户”是中美两国基金项目中共有的一个高频词,图情档学科的研究主题均呈现出服务化趋势[15],以用户为中心正是服务化的前提,因此结合用户的需求开展用户画像、用户行为评价、用户行为分析、用户信息搜索、用户情感分析、用户生成内容、用户隐私行为等研究是中美两国基金项目的重要组成部分。
4.1.2 不同之处
(1)“信息”与“数据”分别是两国的研究焦点。从词频来看,在我国国家级基金项目关键词中,“信息”的数量仅次于“图书馆”;在NSF基金项目高频词中,“数据”的数量远超其他关键词。从项目主题来看,我国国家级基金项目中关于“信息”的主题包括信息资源管理、信息分析、信息服务;NSF基金项目中关于“数据”的主题包括数据管理、数据科学与数据伦理、数据安全与数据隐私、数据分析。
(2)“古籍文献整理”是我国基金项目中的重要研究主题。“古籍文献整理”在我国的基金项目研究中占较大比例,而NSF基金项目的研究主题中没有关于古籍文献的内容。我国历史上各个朝代都非常重视对史料的记载与传承,既有专门的史官记录本朝代发生的大事并整理前朝史书,也有民间文人进行非官方的记录。出于对历史的研究考证及对传统文化保护的支持,我国的基金项目对古籍文献整理的研究课题给予了众多资助。
(3)美国的基金项目对于大数据带来的衍生问题研究较多。NSF较多地将数据安全、数据隐私、数据伦理等衍生问题纳入研究主题范围。由于我国对大数据的研究刚刚起步,故仍将研究重点聚焦在大数据的技术与方法、大数据在其他学科的应用等与大数据本身相关的问题上,而对大数据衍生问题的探讨较少。
(4)美国的基金项目对于产业与实践活动的资助较多。NSF对于与学生培养、教育等主题有关的项目给予了较多资助,为学生提供了较多的实践项目和科研计划,重视从实践活动中锻炼学生的能力,而我国基金项目的覆盖范围几乎仅限于科研领域。
(1)深入数据科学及其相关问题的研究。2012年,Davenport T H等在
(《哈佛商业评论》)上发表了《数据科学家——21世纪最性感的职业》一文[13],使数据科学进入大众视野。我国自2014年起,多所学校开设了“数据科学与大数据技术”专业,但目前已有研究和相关课程设置较多集中在机器学习和统计领域,我国图情档学科对数据科学与大数据的重视程度还不足,与数据科学和大数据相关的数据伦理、数据安全、数据隐私等问题的研究还比较欠缺,对数据科学及其相关问题的研究应成为日后重要的研究内容。大数据是情报学科的一个重要研究对象,随着数据科学与大数据技术的迅猛推进,其必将深入渗透到图情档学科的相关领域并为图情档学科发展带来新的契机。
(2)深化人文关怀。我国国家级基金项目中多是对信息、数据、知识等资源本身的研究,较少关注人文关怀,即对人、人性、人的精神、文化、生活的关注和理解。社群信息学旨在研究与社群/社区的信息相关的领域,为数字时代信息不平等现象提供解决方案,这是近些年在我国发展起来的一个新兴板块。2019年,中共中央办公厅和国务院办公厅发布《数字乡村发展战略纲要》[16],提出要着力弥合城乡“数字鸿沟”,培育信息时代新农民,体现了国家政策层面对信息社会人文关怀的保障。此外,与用户相关的研究体现了图情档学科对信息用户的重视,必将在未来的研究中继续占据重要地位。
(3)同时兼顾信息技术。除了人文关怀这样的“软研究”,也需要同时兼顾信息技术这一图情档学科研究中不可忽视的重要硬性方面。云计算、物联网、机器学习、图谱挖掘、实时计算、数据仓库等信息技术拓宽和加深了图情档学科的研究广度和深度,随着技术的不断更迭,学科研究也须及时跟上技术发展的脚步。
(4)开展社交媒体的相关研究。社交媒体是人们日常生活和娱乐中一个必不可少的平台,如国外的Facebook、Twitter、LinkedIn等,国内的微博、贴吧、豆瓣、知乎等,人们通常在这些社交媒体上进行信息获取、信息利用、信息检索、信息扩散等活动,分析和研究这些信息行为及其动因有利于提高用户体验、实施个性化推荐、提高社交媒体的影响力和内容质量;且社交媒体在对突发事件、紧急情况等的应对和管理上也能发挥有效作用。因此,社交媒体与其他领域的交叉研究是值得研究的一个方向。此外,与社交媒体相关的信息安全与隐私也是一个重要的研究课题。