党洪莉(湖南师范大学图书馆)
共享数据、信息、思想和研究材料一直是公认的学术合作和推动科学发现的基本特征之一。科学研究者们对大量共享资源中的数据进行实时、动态地监测与分析以进行科学研究,或者基于数据来思考、设计和解决科学问题。“数据驱动科学”,数据因而也被视为最有价值的共享资源。自Gray提出科学研究的第四范式,[1]即以大数据为基础的数据密集型科学以来,国内外学者非常重视数据收集、分析及管理研究。延伸到社会科学领域,研究人员也逐渐重视社科数据的作用和价值,采纳并使用具有“人文计算”、计算机处理模式和分析方法、计算机模拟与实证,社会科学研究的精确性明显增强。然而不可否认的是,社会科学领域依然存在诸多问题:现有的科学数据共享平台主要依据自然科学领域而建,数据共享建设也集中于自然科学领域,适用于社会科学的数据共享平台及体制建设非常少;社会科学领域充斥着大量科研数据,但其存储形式和管理都很不规范;相较自然科学领域,社科人员的数据共享意识低。在开放科学的环境下,推动社会科学数据的开放与共享不仅有利于社会科学学科发展,还能极大地促进社会经济发展。
社会科学是用科学的方法,研究人类社会现象本质和发展规律的学科。社会科学数据是指人们在社会生活中和研究人类社会的过程中,所产生的各种原始数据和基础性数据,以及各种社会系统运行过程中产生和加工的数据产品和相关信息。社会科学数据不仅仅是重要的科研成果产出,更是人文社会科学研究的基石与创新的保障,对于社会科学领域的实证研究具有重要价值和决定性意义。社会科学的数据来源较自然科学有所不同,其复杂性、主观性及学科差异性决定了数据创建方式、类型、数据搜集和利用的侧重点等与自然科学有较大差异:如档案研究、资料汇编是历史学创建数据的主要方法,数据类型集中于一些如记录、照片和观测数据之类的定性数据;教育测量、心理测量、观察法则是教育学的创建方法,数据主要是调查数据、数值数据、个体或微观数据;商业和经济学偏向于定量方法,更多的使用政府公开的二手数据,其数据类型以列表数据、数值数据、汇编或宏观数据为主;社会学通过大量的社会调查,以调查数据、数值数据、个体或微观数据为主,研究使用一手数据达44%。[2]总体来说,社会科学数据类型复杂多样,不仅包括数值型数据,还包括文本数据、档案数据、汇编数据、音频、图片等非结构化数据,以及微观宏观尺度数据等。[3]访谈、问卷调查、资料汇编、档案研究是社会科学数据创建的常用方式。
(1)主观性。在社会活动中,由于社会交往对象之间利益关系(主要是经济利益关系)的影响,人们对于社会事物的认识和评价不可避免地会受到社会主体的主观因素(特别是感情因素)的制约,因而社会科学很容易带有强烈的感情色彩。受利益关系影响的主观因素(特别是民族感情和阶级感情),很容易“先入为主”诱导人们形成非理性、非客观、非中性的观察态度,进一步影响所取得的社会科学数据的客观性。
(2)依赖性和持续性。社会科学研究的目的是发现社会生活规律的逻辑性,研究社会科学的一切方法都需要经历时间的累积。随着时间的推移,社会科学对研究内容做出新的研究和分析,不断地解释这些变化并总结规律。[4]此外,社会科学中不同的变量个体具有不同的社会属性,运用不同的组合方式形成复杂的社会体系结构,能够得出不同的解释客观社会问题的结果。相比线性的自然科学数据集合,社会科学数据关系是社会关系变量的网状结构体,数据关系更复杂,也更依赖语境。
(3)复杂性。社会科学的研究受到观察者的思想动机限制,社会科学数据也就呈现出较强的随机性和模糊性。社会科学的研究对象一般都具有自我组织、自我创造、自我发展的能力,这些都给社会科学研究的精确、客观分析带来了巨大的困难。作为研究成果的社科数据,种类繁多,不仅包括数值数据,还包括用于语言研究的声音或语言分析的电影;甚至还会使用书籍、地图、报纸、期刊、照片和行政记录之类的历史资料。有时会出现研究数据和出版物被混淆或混合的情况。
(4)难验证性和不可逆性。社会事物的运行周期一般较长,且过程也具有不可逆性,有些社会事物在运行过程中会涉及到复杂或者重大的利益关系,甚至会引起一些不可预测的灾难,因而难以精确重复其演进的过程,许多社会科学的数据难以在短期内和较小范围内得以验证。
(5)保密性和匿名性。在数据收集过程中,大多数的社会科学数据直接或间接与受试者相关,对于共享和重用这类数据特别是定性数据时,需要更多的考虑伦理道德方面的因素。在存档和共享数据时,确保保密性和匿名性(即保护参与者的身份)尤其重要。
与一般意义上的研究成果或汇总结果共享不同,社会科学数据开放与共享不仅需要国家层面上提供法律依据、规范化标准化政策,还需适用的共享平台提供技术支撑,从而进一步实现对原始数据的深入揭示与发现。欧美等国家很早就从宏观层面上主导社会科学数据管理,最大化共享数据。表现在成立了专门的机构制定相关政策,欧洲社会科学数据存储委员会(Council of European Social Science Data Archive,CESS-DA)、社会科学数据组织国际联合会(International Federation of Data Organization for Social Sciences,IFDO)、国际社会科学信息服务与技术协会(International Association for Social Science Information Services and Technology,IASSIST)等机构从组织上提供了社科数据开放与共享的保障。此外,一些大型数据中心建立了数据管理平台和数据标准,并提供相关服务。如,美国密歇根大学的高校校际政治和社会研究联盟(Inter-university Consortium for Political and Social Research,ICPSR)、英国数据存档计划(UKDataArchives,UKDA)、德国波恩的社会科学信息中心(GESIS)、日本社会科学数据存档项目 (Social Science Japan Data Archive,SSJDA),这些机构均采用了适合自身的数据管理与共享平台、制定了资源保存政策和数据服务政策,以及统一的元数据标准。
我国社会科学数据管理与共享处于起步阶段,近些年逐渐被重视,表现在开始建设数据中心与数据管理平台,推进共享政策,共享观念被逐渐接受。国内的社科数据管理机构主要有两种类型,一种是以调查业务为主的数据中心(人大、北大),另一种是以图书馆建立的机构知识产权为基础的数据集(复旦、武大)。中国人民大学的中国社会调查与数据中心是我国最早的全国性、综合性、连续性学术调查项目,自2003年起,每年一次,对我国大陆10000多户家庭进行连续性横截面调查。年度调查结束两年后,向全社会公布原始数据和所有资料。该中心负责执行的中国国家调查数据库开创了我国社会科学数据开放与共享的先河。北京大学中国社会科学调查中心(Instituteof SocialScienceSurvey,ISSS)主要对中国家庭、中国健康与养老进行追踪调查,调查结束1-2年后,数据对学术界开放。目前,复旦大学人文社会科学数据中心(FudanUniversityInstituteforSocialResearch,FISR) 已有长三角居民消费与碳排放数据库、新中国历次人口普查分省数据库、中国人口、消费与碳排放数据库等数据集,初步实现了科学数据长期保存和公开获取。武汉大学图书馆通过试点院系、搭建共享平台的方式逐步面向全校提供数据存储和共享服务。
整体来看,我国数据共享理念越来越为学界所接受,人大和北大的数据中心都能主动开放自己的数据,但依然存在诸多问题,“资源单一,集成度共享度不高;缺乏统一的组织标准规范,缺乏完善的管理与服务政策体系”被认为是国内目前社会科学数据管理与服务的缺陷。[5]此外,数据管理机构数据搜集程度不够高,多数数据管理机构以一两个主要的数据集来带动其他数据的收集;数据政策是非强制性的,数据搜集策略以后期资助为推手的协商和自愿为基础;数据服务水平相对较低,主要业务仍以调查为主;数据管理水平还有待提高,平台建设还需加强。
国外大量的研究显示个体、制度、技术等因素影响了数据共享行为。其中个体因素又包括职业风险、感知努力和对数据共享的态度。[6]科研人员拒绝数据共享主要是担心数据的恶意使用、篡改、知识产权等问题。[7]在对我国科研人员调查的结果显示:影响我国科研人员数据共享行为意愿的直接因素主要有态度、主观规范,间接因素有感知行为控制、感知风险、感知有用性。[8]另有学者认为科研人员的自我价值感知、互惠预期、人际信任、形象是形成共享信念的重要维度。[9]我国社会科学数据共享的主要驱动因素包括个体驱动因素(经济补偿、数据积累意识、节省成本、道德激励)、科研驱动因素(数据回报、学术交流、学术认可)、社会驱动因素(政策驱动、社会评价)。[10]总体来讲,当前影响社会科学数据共享的因素有以下方面。
多数社会科学学者高度重视数据分享,但是他们并不分享自己的数据。原因之一是数据创建者对数据共享风险的感知,而感知风险侧面说明了数据创建者对数据规范及引用等相关政策的执行程度的信任不够。Louis[11]、Campbell[12]等发现部分研究人员拒绝共享研究数据主要是为了保留将来数据出版的专有权。Fisher等[13]认为目前各个国家正式的知识产权法并没有涉及到数据共享。这些都变相说明了建立社会科学数据共享等相关法律政策的重要性。
社会科学数据中包含大量的观测数据、调查数据,这些都是可以进行再分析利用的数据,但重用之前需要制定引用标准对其进行规范的标引。美国研究信息网(Research Information Network,RIN)在报告中指出,[14]阻碍研究人员共享科学数据的原因之一是缺乏管理缺少统一的元数据标准。Jeng等[15]在对社会科学数据共享的研究中发现,标准完善是社会科学学科数据共享中亟待解决的问题。目前,国外许多研究团体已开始采用统一的元数据标准来支持数据的发现和重用。[16,17]而我国数据标准不完善成为社会科学数据共享的瓶颈。
社会科学数据方面的分析软件或工具非常有限。目前绝大部分工具并不是为数据共享而设计的,主要集中在数据监管 (如 Data Curation Profiles,DCP)、数据保存(如康奈尔成熟度模型,The Cornell Maturity Model)、数据管理(如CMM for SDM),及数据支持基础设施(如Community Capability Model Framework,CCMF)。现有的工具主要是用于大科学或数据密集型研究(如CCMF)的自然科学,并不完全适用于社会科学或人文科学。
Tenopir[18]等指出研究人员的数据共享行为受到研究过程中的学科文化氛围的影响,他认为正是由于学科文化的多元性导致目前各个学科实践中的数据共享差异性。Akers[19]也指出学科文化在研究人员管理和分享数据中起着重要的作用。学科文化是在各学科形成和发展过程中积累起来的一些共同的价值观念和行为规范等,最终沉淀为各学科稳定而明显的文化特质。成熟的学科具有特定的语言系统、价值观念和思维方式,形成了独特的理论体系、研究方法及学科文化。社会科学是以社会为研究对象的科学,包括经济学、社会学、政治学、法学等。社会科学有着区别于自然科学的学科文化,而社会科学各子学科又有着自己独特的学科文化。学科文化的多元性造就了共享数据的差异性。
由于社会科学数据与受试者直接相关,开放与共享还面临着严格的道德制约、伦理等方面的问题。
扫除科学数据共享的制度性障碍,健全科学数据共享政策法规,保障数据创建者的合法权益,才能从根本上解决科学数据的知识产权保护和共享之间的矛盾。国家层面上可以建议科技部等职能部门制定《数据保护法案》,规定公众访问公共机构科学数据的权限;各级科学基金委、厅局级等项目资金资助机构也可以效仿欧美国家,对由政府资助的项目在结题后明确规定科研数据无偿向公众开放;期刊杂志社要求作者在发表文章时提供原始数据,或者作者将数据包存储于定向储存库,建立科研论文与原始科研数据的关联,再通过数据期刊的发表为读者提供开放式浏览和获取数据方式。建立长久的政策保障,长远规划,才能从立法角度有效保障科学数据开发与共享,有效促进科研和社会的发展。
在科研和学术交流体系中,科研人员既是科学数据的生产者也是接受者和利用者。积极调动科研人员的数据共享意识,应当加强科研主体之间的相互信任,降低科研人员对科学数据共享的风险感知并提升其对科学数据共享的长期利益的认知。依据数据质量评价体系,对科学数据创建者实行奖励能有效提高数据共享的感知有用性。要真正做到科研人员、科研团体、科研机构主动地开放和共享科研数据,除了适当的奖励外,将开放数据作为科研评价体系的指标或是科研立项的条件之一不失为目前激励数据分享的有效方式。
欧美国家相当重视数据管理机构的合作与共享,而调查中发现我国社科数据管理机构中北大、人大和复旦开展的几项大型数据集被重复利用,有较大的共享需求。因而国内对社会科学数据的利用和管理可以考虑从大型数据集开始,加大此类数据集的共享力度。高校是科研的重要力量,也是数据的主要使用者。在全国高校中大范围宣传和联合推广使用这些数据集,加强机构间的合作,是开放和共享数据的有效途径。制定相关可行性计划,明确各自的权责范围,发挥各机构专业领域特长,紧密协作,有效提升数据管理的效率和质量。与此同时,各机构还可以凭借丰富的实践经验,为其他机构提供可行的参考与指导。在此基础上,还可以将合作延伸到其它领域。通过与高校、社科院的合作,加强数据的管理与整合能力;通过与企业、IT服务等部门的合作,借助其技术的专业性,对基础设施和技术支持进行规划,提升数据的开放与共享范围。
在技术层面,充分开放数据资源共享交换平台,加快各级数据资源共享交换平台建设,建立各类数据资源共享交换主干通道,构建统一的社会科学领域数据资源共享和交换体系,推动与各种科学信息系统的互联互通。要尽快实施开放共享标准规范建设。研究完善社会科学领域数据标准体系,加快元数据、资源标识符编码规则等基础性数据标准制订及修订,并进一步加强标准执行的监督管理力度。建立数据目录服务系统,推动社科数据资源目录服务体系建设,开展存量数据著录工作,实现基于目录的数据资产管理及服务,逐步提高数据服务水平。
开发适用于社会科学数据共享的分析工具,综合各种数据工具的优缺点同时在配置文件上可以根据社会科学数据的特点及项目本身的需求进行设置,如数据格式、数据量(数据规模)、数据敏感度和数据可共享性都可以根据实际情况因时因事而宜。分析工具要简洁,但又呈结构化的形式帮助研究人员收集、分析数据和集合信息,帮助上游从事数据管理的人员做出决策,下游需要查询服务的科研人员快速准确的找到所需信息。对待社会科学研究人员比较担心的隐私数据,可以在访问方式上进行设置,或者开发专用的工具来管理机密数据,并提供必要的安全保障。
每一门学科都有自己的理论、方法,简而言之,每门学科有自己的文化。在实现科学研究的开放性时,没有千篇一律的方法。可以根据学科类别在不同学科建立自己的学科数据共享框架,既适应于自己的学科特点,又能在本学科内实现数据的互操作性,实现共享。每个学科还须兼顾管理其子学科的多样性。