我国社科学术期刊科研数据状况分析
——国家社会科学基金资助的CSSCI论文的调查

2022-05-20 01:54秦长江吴思洁王丹丹
中国科技期刊研究 2022年4期
关键词:数据类型社科数据管理

■秦长江 吴思洁 王丹丹

河南科技大学管理学院,河南省洛阳市开元大道263号 471000

一流的科研数据可以支撑一流的科学研究。科研数据(Research Data)是指研究者进行原创性研究而收集、创建或观察、观测、实验得到的各种信息[1]。它格式多样(包括数值、文本、软件代码、多媒体文件、模型、特定学科及特定工具格式等)、类型丰富(包括实验型、观察型、模拟型、编译型、派生型及参考型数据等)[2]。科研数据是研究记录的重要组成部分,也是开放科学的关键要素。制定完善的科研数据管理与共享政策,使原处于割裂状态的学术论文与科研数据融合,可以保证科研成果的完整性和透明性[3]。

目前我国对科研数据开放获取的意识不强,科研数据管理的实践还未形成规模,拥有科研数据政策的科研资助机构和学术期刊数量非常有限,这一问题在社科领域更为突出。因此,分析研究我国社科科研数据的产生和使用情况,把握和认识社科科研数据的特征,能提高社科科研数据的可获取性与可信度,能有效促进科研数据增值[4]。同时对我国数据管理与数据服务、数据共享与数据再利用等有明显的促进作用。

由国家哲学社会科学工作办公室管理的国家社会科学基金资助项目是我国社科研究项目的高水平代表,其资助的研究成果大部分发表在高水平期刊上,因此这些研究在一定程度上能代表我国社科研究水平。本文通过调研国家社会科学基金资助论文中科研数据的来源、类型等特征,探寻我国社科科研数据的产生与使用情况。由于社科数据收集方法多样灵活,对研究者的依赖性强,影响因素(背景、时间等)多[5],敏感数据处理和数据权益等问题更为突出,数据管理与数据共享更为困难[6]。本文对国内社科学术期刊科研数据实践现状的深入调查结果,将有助于我国重要科研资助机构、学术期刊等相关群体共同制定科研数据政策,为推进社科科研数据的管理和共享重用提供参考,从而促进我国社科研究的创新[7]。

国外学者对学术期刊科研数据的研究自20世纪80年代开始,目前研究已经较为成熟、系统、全面,研究主要内容可以总结为3个方面:数据政策制定内容研究、数据可用性政策研究、数据政策制定和实施情况研究。在政策制定和实施情况研究方面,20世纪90年代,有国外研究者调查期刊制定和实施数据政策,发现只有少部分期刊真正制定了数据政策。Pitt和Tang[8]就科研数据共享政策制定过程中遇到的问题和部分解决方法进行探讨。Vlaeminck[9]实证分析了141种经济学期刊的数据政策,详细研究了这些期刊科研数据政策的内容。2013年,Zenk-Möltgen和Lepthien[10]通过JCR确定了140种社会学期刊,通过研究期刊数据政策和作者在社会学中的行为来分析影响数据共享的因素。

笔者通过检索中国知网全文数据库发现,我国有关科研数据政策的研究成果较少,起步较晚,主要研究内容也可归纳为3个方面:数据出版政策研究、政策实施评价研究及政策实践调查研究。在政策实践调查研究方面:刘晓霞等[11]统计分析了我国中文核心期刊科研数据政策的制定情况,指出我国学术期刊科研数据政策制定非常欠缺;吴蓉等[12]通过提炼政策要素,对PLoS系列期刊、Science、Nature等国外学术期刊的数据政策实施细节进行调研探索和分析,认为学术期刊应制定数据提交、数据审查和数据权益政策,指出我国应结合自身实际情况,不断探索适合中国学术期刊的数据政策。

以上研究表明,我国现有的社科科研数据管理还处于探索和规划阶段,对社科科研数据的研究较少。本文对现阶段国内社科学术期刊科研数据产生和使用情况进行深入调研,分析总结社科科研数据的总体实践状况和特点,以期为我国社科科研数据政策的制定及实施提供建议,为解决我国社科科研数据管理和服务中存在的问题提供参考。

1 概念界定与研究方法

1.1 样本选择

选取2011年由国家社会科学基金资助①,涉及管理学、理论经济、应用经济、中国历史、世界历史、党史党建等23个社科学科的2883个项目所产生的论文进行分析,通过文本分析法对社科论文的数据来源、类型和特征进行提取,以详细了解我国社科科研数据情况。

1.2 相关概念界定

1.2.1 科研数据类型界定

调查数据是指研究人员为实现具体的政治、经济、社会、文化等目标,通过实地调查、网络问卷在线调查、抽样调查、媒体报道等方式获得的数据。调查数据中的他有数据是指获取渠道为其他研究者的调查数据。实验数据是指从具体科学实验中得到的数据。自有实验数据是指研究者通过亲自实验获得的数据。访谈数据是指通过实地访谈或其他文献中的访谈记录所得的数据。统计数据是指通过对现有数据进行统计、分析、计算等加工处理所得的数据。图片数据是指以图片形式呈现的支撑研究结果的数据,主要包括实地考察文物照片、关系示意图、古文字图片、模型图等。档案数据是指政府、权威机构、媒体、研究人员等组织或个人公开的数据及已存在或发生过的历史文献记载或既定事实。

1.2.2 “自有数据”和“他有数据”界定

目前国际通行的数据管理要求,针对的是“有数据”的科研项目。本研究将在科研过程中通过调查、实验、观察、访谈等方式收集到的原始数据以及由这些数据加工处理得到的数据称为“自有数据”;将研究过程中参考其他研究者初始数据以及在他人研究成果基础上继续实验得到的科研数据称为“他有数据”。具体来说:当样本论文中出现“由×××调查结果显示”“据××××报道”“据×××调查”等文字,认为是调查数据中的他有数据;文中出现“测试结果显示”“实验得出”等关键词,认为是实验数据中的自有数据;他有实验数据是指文中引用其他研究者实验得来的数据,关键词包括“×××实验研究数据表明”“与×××的实验结果比较”等。

1.3 研究方法

2020年1月,笔者以中国知网为检索平台,检索由2011年国家社会科学基金资助而产生的论文。检索策略如下:利用中国知网的高级检索功能,选择期刊检索,限定期刊来源类别为CSSCI,以“项目名称”为检索入口,在支持基金栏目下进行检索。批量下载论文后按照统一的标准科学管理论文文档。具体步骤分三步:第一步,建立学科总文件夹,命名为“年度+学科名称”。第二步,在学科总文件夹中建立项目文件夹,命名为“1. 项目名称”“ 2. 项目名称”…(注:命名顺序及序号按照国家社会科学基金文档中的顺序)。若项目产生论文数量为0,直接标注论文数量为0,无需再另建文件夹。第三步,通过E-study平台下载所有论文,并存至相关研究文件夹下的子文件夹“论文”中,命名为“1. 论文名称”“2. 论文名称”“3. 论文名称”…(注:论文整理顺序参照中国知网默认排序“发表时间+降序”,然后采用文本分析法逐一阅读②,按照学科分析论文情况和论文数据情况)。

①国家社会科学基金资助项目一般在当年年中正式公布,项目研究周期一般为3~5年,论文的发表又有一定滞后性,个别期刊的出版时滞甚至达到2年之久;同时,本研究的对象不仅仅是社科科研数据的使用,还包括社科科研数据的引用特征。因此,为保证不遗漏重要的研究样本,最大限度地保证研究的完整性和准确性,本研究确定研究样本为2011年由国家社会科学基金资助的所有论文。

②第一作者和第三作者指导的研究生吴思洁(第二作者)作为团队负责人,团队成员有:马皓童、冯全利、王欢、葛力云、王悦、肖慈慧、暴文聪(均为第三作者指导的本科生),组成第八届挑战杯全国大学生课外学术科技作品竞赛参赛团队,该团队对本研究项目进行论文调研以及数据的整理和分析。

为了提取不同学科的数据来源及数据类型特征,在确定数据来源之后,研究者对数据类型进行提取。由于每一种数据类型(如数据集、文本、图片、音频等)无统一标准,因此数据类型的提取难度增大。为避免统计结果具有主观性,以及不同学科数据类型界定存在不一致性,本研究对研究样本按照学科建立资料库并设计编码表,明确每一类数据的界定范围并给出示范,形成数据类型资料库。在统计实践中不断地将文本分析过程中发现的新类型加入数据基本类型资料库并优化其统计方法,最终形成了一个相对完整的资料库。所有编码均按照资料库统一的标准来提取数据类型,并归类和统计,以保证统计结果的客观性和一致性。本研究对所有样本论文数据进行编码处理的方法如下:逐一提取各项目下论文的数据特征并在拟定好的表格中对每篇论文进行编码。具有此数据特征,在其所对应单元格中填写“1”;不具有此数据特征,在其所对应单元格中填写“0”。待本研究所有论文文本的数据特征提取完整后进行数量汇总,填入“总计”栏目下。以此类推,再对不同学科科研数据产生情况进行汇总。样本论文数据统计样例见表1。

表1 样本论文数据统计样例 单位:篇

2 结果与分析

2.1 国家社会科学基金资助项目产生论文和论文数据分析

2011年国家社会科学基金在23个社科学科共资助项目2883项,这些项目共产生论文13113篇,其中发表在CSSCI来源期刊的论文共7968篇,这7968篇论文中有数据(即论文中含有科研数据)的论文共5132篇,占64.4%,见表2。这说明由国家社会科学基金资助的研究成果的一大半都涉及科研数据,因此无论是开放科学的需要,还是为了更有效地管理社科基金资助项目所产生的科研成果,国家哲学社会科学工作办公室都应尽快出台科研数据管理政策。

本研究针对数据来源和数据类型等的分析,均以5132篇发表在CSSCI来源期刊的论文为分析对象。由表2可知,23个学科中,CSSCI论文数量占比最高的10个学科依次是图书馆·情报与文献学(79.78%)、世界历史(71.72%)、统计学(67.65%)、中国历史(65.63%)、理论经济(65.39%)、法学(65.14%)、国际问题研究(63.72%)、考古学(63.64%)、应用经济(63.77%)、社会学(63.09%)。发表CSSCI论文数量占比最低的学科是体育学(38.46%)、马克思主义·科学社会主义(45.40%)、党建·党史(50.35%)。这在一定程度上说明,由国家社会科学基金资助产生的科研成果质量较高,对这些论文的科研数据进行分析具有代表性。

分析有数据的CSSCI论文情况:有数据的CSSCI论文数量占比最高的10个学科依次是人口学(97.20%)、国际问题研究(86.86%)、应用经济学(85.50%)、理论经济(85.10%)、社会学(83.20%)、统计学(82.61%)、体育学(78.18%)、新闻学(76.61%)、民族问题研究(76.25%)、图书馆·情报与文献学(75.51%)。有数据的CSSCI论文数量占比最低的学科是外国文学(12.96%)、哲学(20.41%)、中国文学(21.29%)、马克思主义·科学社会主义(33.19%)、宗教学(40.65%)、政治学(53.22%)。通过上述分析得到的启示是:如果实施科研数据管理工作,可以首先将这些有数据的CSSCI论文数量占比较高的学科作为第一批试行的学科。

表2 2011年国家社会科学基金资助项目产生的论文以及论文数据情况

图1 不同学科CSSCI论文的数据来源情况对比

2.2 有数据的CSSCI论文科研数据来源情况

从表3和图1可以看到,5132篇发表在CSSCI来源期刊的有数据论文中,有“自有数据”的论文共942篇(占18%),有“他有数据”的论文共2990篇(占58%),既有“自有数据”,又有“他有数据”的论文共1200篇(占24%)。由此可见,使用“他有数据”的论文占比达82%,科研数据共享非常必要。如图2所示,含有“自有数据”的论文占比超过50%的7个学科依次为语言学(占86.40%)、图书馆·情报与文献学(占73.47%)、管理学(占68.81%)、人口学(占63.46%)、社会学(占62.95%)、体育学(占58.14%)、民族问题研究(占55.78%)。图3显示,“他有数据”除语言学(占32.80%)和图书馆·情报与文献学(占48.53%)的“他有数据”占比低于50%外,其他21个学科的“他有数据”论文占比均超过75%。

表3 有数据的CSSCI论文数据来源分布

图2 不同学科“自有数据”论文数量占比分布

2.3 有数据的CSSCI论文中科研数据类型分析

2.3.1 自有数据类型分析

分析结果显示,社科科研数据类型较为复杂多样。各学科数据类型的不同也基本反映出学科研究特点的多样性和差异性,如图4所示。含有调查数据的论文数量最多的5个学科依次是社会学(209篇)、管理学(126篇)、图书馆·情报与文献学(93篇)、民族问题研究(83篇)、应用经济学(63篇);访谈数据最多的5个学科依次是社会学(100篇)、管理学(57篇)、民族问题研究(46篇)、人口学(12篇)、图书馆·情报与文献学(12篇);统计数据最多的5个学科依次是图书馆·情报与文献学(226篇)、法学(175篇)、社会学(161篇)、语言学(151篇)、管理学(99篇);实验数据最多的5个学科依次是管理学(273篇)、图书馆·情报与文献学(82篇)、统计学(43篇)、语言学(30篇)、国际问题研究(30篇);模拟数据最多的5个学科依次是图书馆·情报与文献学(59篇)、社会学(53篇)、人口学(29篇)、理论经济(29篇);图片数据最多的两个学科依次是语言学(41篇)、中国历史(26篇)。

图3 不同学科“他有数据”占比情况对比

由于哲学、世界历史、党建·党史、考古学无自有数据,将其他19个学科含有“自有数据”的论文数量按占比从高到低的顺序排列,依次是统计数据(占40%)、调查数据(占27%)、实验数据(占16%)、访谈数据(占9%)、模拟数据(占6%)、图片数据(占2%),如表4所示。就“自有数据”而言,占比超过50%的7个学科依次是语言学(占86.40%)、图书馆·情报与文献学(占73.53%)、管理学(占68.81%)、人口学(占63.46%)、社会学(占62.95%)、体育学(占58.14%)、民族问题研究(占55.78%)。

表4 23个学科“自有数据”的数据类型分布

图4 23个学科“自有数据”类型分布

对这7个学科的“自有数据”类型进一步分析,发现:语言学和图书馆·情报与文献学的自有数据中最多的都是统计数据,占比分别为61%和48%;管理学领域仅实验数据(占49%)和调查数据(占23%)的占比就超过了72%;人口学领域则以统计数据(占40%)、调查数据(占25%)和模拟数据(占22%)为主;社会学领域最主要的数据类型是调查数据(占40%),其次是统计数据(占30%)和访谈数据(占19%);体育学领域则以统计数据(占40%)、调查数据(占35%)以及访谈数据(占20%)为主;民族问题研究领域的主要数据类型依次是调查数据(占39%)、统计数据(占30%)以及访谈数据(占22%)。

2.3.2 他有数据类型分析

23个学科的“他有数据”大致可以分为表5所示的7种类型。按照占比从高到低的顺序排列,依次是统计数据(占61%)、档案数据(占29%)、调查数据(占6%)、图片数据(占2%)、实验数据(占0.6%)。其中,含有调查数据的论文数量最多的学科依次是新闻学(155篇)、社会学(107篇)、人口学(20篇)、党建·党史(19篇);统计数据最多的学科依次是应用经济学(795篇)、理论经济学(477篇)、法学(310篇)、管理学(277篇)、社会学(186篇)、政治学(140篇)、图书馆·情报与文献学(136篇)、中国历史(120篇);实验数据最多的学科是统计学(10篇)、马克思主义·科学社会主义(6篇)、语言学(3篇)、图书馆·情报与文献学(3篇);档案数据最多的学科依次是法学(300篇)、政治学(170篇)、社会学(132篇)、民族问题研究(130篇);图片数据最多的学科依次是图书馆·情报与文献学(18篇)、语言学(12篇)、中国历史(12篇)、宗教学(11篇)、考古学(7篇);商业数据库统计数据最多的学科是管理学(74篇)。此外,考古学领域还有独有的一类数据——实地考古发掘数据,将其归为其他类(图5)。对23个学科“他有数据”(包括只有“他有数据”的论文和既有“自有数据”又有“他有数据”的论文)的论文数量进行统计,发现“他有数据”论文数量最多的7个学科依次是应用经济(796篇)、理论经济(492篇)、法学(439篇)、管理学(362篇)、社会学(327篇)、图书馆·情报与文献学(214篇)、政治学(211篇)。对这7个学科的“他有数据”类型进行进一步分析,发现:“他有数据”均有“统计数据”这一类型数据;除应用经济学学科没有档案数据外,其余学科均有档案数据,其中法学和政治学学科的档案数据最多;商业数据库统计数据是管理学领域的特有数据类型;此外,应用经济学和理论经济学中还使用他有调查数据这一类型的数据(图6)。

表5 23个学科“他有数据”的数据类型分布

图5 23个学科“他有数据”类型分布情况对比

图6 含有“他有数据”的论文数量最多的7个学科的数据类型分布

2.4 他有数据的引用情况分析

引用是科学研究的基本规范,科研数据也需要正确引用。科研数据规范引用可以帮助研究者快速、准确地找到所需数据,也可以使数据引用像参考文献引用一样用于评价数据集影响,认可数据产生者的贡献,扩大其学术影响力。本研究采用内容分析法,对4157篇含有“他有数据”的论文引用行为进行识别。由于目前还没有规范、统一的数据引用格式,无法依靠机器进行识别,因此,本研究主要采用人工识别方式对数据引用情况进行调研。对样本论文中的870处引用数据进行分析,结果见图7。

图7 23个学科他有数据的引用情况

引用数据时文中注/尾注的数据标注形式最为常见,中国历史学科在引用数据的标注上使用文中注/尾注最多(占80.65%),使用参考文献形式标注引用他人数据的也较多。语言学学科使用参考文献标注的数据引用最多,占本学科论文数量的58.97%。文中说明是在引用他人图片或表格时,在图表下方声明数据来源。文中说明也经常被科研人员用来说明图表来源,在引用后不再重复进行数据引用标注。无标注说明是指在文中引用他人数据时,未在文中说明数据来源。调查分析发现,政治学学科无标注说明的占比最大,为42.85%。

世界历史、中国历史、语言学、社会学、政治学五大学科的引用数据总量为870条,期刊文献以“文中注/尾注”形式引用数据的占比为60.8%,以“参考文献”形式引用数据的占比为24.6%,以“文中说明”形式引用数据的占比为5.7%,无标注说明数据来源的样本占比为8.4%。中国历史、世界历史、社会学、政治学学科的科研人员在数据引用标注上更偏向于使用文中注/尾注的数据标注形式,语言学学科更偏向于使用参考文献的标注形式。整体而言,科研人员在数据引用的标注上更偏向文中注/尾注,其次是参考文献,在对图表的引用上更偏向文中说明标注形式,但这些学科或多或少都存在一些无标注引用数据。

3 启示与建议

目前我国社科学科有数据的CSSCI论文数占CSSCI论文总数的比例都非常高。无论是“自有数据”,还是“他有数据”,在不同学科中的占比都非常高,这说明我国社科研究产生的科研数据总量非常庞大,数据产生的具体类型和格式复杂多样且数据分散。本研究得到的结论如下:(1)我国科研数据的研究和实践还未受到国内相关机构和学者的足够重视,科研数据管理的实践与相关研究都相对滞后;(2)由于我国科研数据管理缺少完善的标准框架和良好的实践环境,数据价值未得到充分发挥,数据流失严重,我国科研数据管理整体上比较薄弱;(3)我国大量拥有潜在开发价值的原始科研数据掌握在科研人员手中,绝大多数科研数据没有得到良好的组织、管理、共享与重用,我国科技期刊亟须制定完善的科研数据管理政策。

据此,本研究提出以下建议:(1)我国科研资助机构应尽快出台有关数据管理办法,完善数据管理服务和相应的配套设施平台;(2)我国学术期刊应遵循国家提出的法律法规,尽快推出满足期刊个性化需求、符合最佳实践的科研数据管理政策;(3)期望国家层面制定和推广完善的科研数据管理标准框架,推进我国科研数据管理的落实,促进科研数据共享,降低科研成本,提高科技资源的利用效率,增强我国的科技创新能力。

社科科研数据管理对于我国社科研究具有重要意义,希望本研究能对科研数据管理的实施产生积极作用,希望学者们在本研究的基础上,借鉴国外科研数据管理和实施的相关经验,扩大研究数据样本容量,对我国社科科研数据管理进行更深入的研究。

猜你喜欢
数据类型社科数据管理
社科成果展示
基于大数据管理的管道智慧检验系统的研发及应用
企业级BOM数据管理概要
定制化汽车制造的数据管理分析
西安交通大学社科三刊简介
CTCS-2级报文数据管理需求分析和实现
我校首次获批教育部人文社科一般项目
如何理解数据结构中的抽象数据类型
基于SeisBase模型的地震勘探成果数据管理系统设计
线上众筹产品的特征分析与研究