数据驱动范式下的人文社科知识服务创新研究

2019-06-25 01:57刘雨农是沁

图书与情报 2019年1期

刘雨农是沁

摘要：文章基于人文社科研究的特点，分析了人文社科知识服务在数据驱动范式下存在的现实性困境与诉求，进而从资源、功能、制度三个方面构建了知识服务框架，并对部分关键问题进行讨论。研究认为，数据驱动下的人文社科知识服务应通过拓展数据源、引入大数据处理技术等方式，为人文社科研究者提供数据定制、技术指导、辅助分析、智慧推送服务，并在数据安全、数据产权和人才建设方面予以保障。

关键词：人文社科;数据驱动;知识服务;服务创新

中图分类号：G250.2;C3 文献标识码：A DOI：10.11968/tsyqb.1003-6938.2019004

Abstract Focus on the characteristics of social science， this paper analyzes the dilemma and requirement of data-driven knowledge service， introduces a knowledge service framework from three aspects： resource， function and institution， and then discusses some key issues such as the role of service. Data is the core of knowledge services. It is necessary to expand the data source and adopt new technology to help researchers by providing customized data set， technical training， analysis assistance and smart recommendations. Issues such as data security， data property and human resources are also mentioned.

Key words humanities and social sciences; data-driven; knowledge service; service innovation

作為一次重大的时代转型，大数据对人类生活、工作与思维方式产生了深远影响[1]。近年来，随着机器学习、云计算等相关技术走向成熟，基于海量异构性数据的深度挖掘和场景化应用正逐步成为现实。当前，大数据浪潮中的人文社科研究正处于全新的历史机遇期，大数据驱动的“第四范式”在人文社科研究领域获得了广泛的推崇[2]。在此背景下，大数据环境不仅为人文社科传统研究问题的验证和解释带来全新思路，也为新现象、新规律的发现提供了更多可能。然而，由于特殊的学科特性，哲学、政治、历史等人文学科在过去的研究中很少涉及定量数据，而经济、管理等社会学科对复杂数据的处理相对陌生。面对日益复杂的大数据环境，人文社科研究人员难以独自完成大数据的处理工作，急需从与数据科学相关的专业领域获取外部支持。

过去对于此类面向科研的外部支持获取途径主要存在两种思路：一是开展跨领域、跨学科的学术合作。学术合作在知识融合的深度和稳定性等方面具有较大优势，但是在实际操作过程中需要科研机构和人员建立长期、稳定的关系。由于在一定程度上会受到机构组织形式和管理机制的制约，使得合作的广度和深度存在较大限制;二是从第三方机构获取相关的知识服务内容。传统的知识服务指图书情报等机构利用自身信息资源优势，按照学科领域发展和信息需求规律提供的一种专业化服务。长期以来，知识服务通过不断的完善创新满足了不同学科研究者对于文献、信息和知识的诉求。随着大数据环境的不断加深，面向人文社科科研的知识服务体系被寄予更高期望，即不仅要兼顾大数据的一般技术特征，更要扎根于人文社科本身的学科特点与应用场景。因此，探讨适应数据驱动范式下人文社科研究需求的知识服务模式与内容创新具有紧迫性和现实性。

1 当前人文社科知识服务的现状与新诉求

1.1 传统人文社科知识服务模式及其局限性

知识服务是在知识经济与知识管理背景下提出的重要概念，作为获取、加工、共享知识的一种服务方式，在人文社科研究中扮演着重要角色。总体来看，我国面向人文社科研究的知识服务主要包括以下两种模式：

（1）以传统图书馆为背景的文献服务。在知识服务概念提出前的较长时间里，信息匮乏仍是困扰人文社科研究的主要原因之一。由于人文社科研究人员的需求主要集中于文献方面，如何充分保障文献资料的供给，成为了图书馆、情报所等相关服务机构着力解决的核心问题。20世纪80年代末，中国人民大学图书馆对全国文献资源开展了一次全面调查，全国社科文献资源调查与分布研究作为其重要的组成部分，明确提出了海外资源匮乏、学科分布不均、资源重复建设等问题[3]。对此，图书情报界从不同角度展开研究，并提出了大量指导性意见[4-5]。作为文献的主要储藏和流通中心，传统图书馆毫无疑问成为文献资源服务的中坚力量。21世纪初，在《高校图书馆规程》的引导下，各图书馆以CALIS建设为契机，掀起了文献保障系统建设热潮[6]。文献保障系统不仅促进了全国资源建设的统一和协调，也通过馆际互借、文献传递等服务推动了文献资源的开放共享。

然而，21世纪以来，信息环境发生了巨大的变化，以解决“信息稀缺”为目标的知识服务模式呈现出愈发明显的局限性[7]。一方面，信息中心的转移使图书馆的认知度和存在价值有所降低，研究人员可直接通过搜索引擎提供的检索功能在各类数据库中寻找资源;另一方面，在信息爆炸的背景下，人文社科研究迫切需要从海量信息中获取个性化、精确化的信息，而这种以图书馆传统文献资源为核心的被动式服务与人文社科研究需求的契合度不高，服务效果有限。

（2）以学科嵌入式为核心的信息服务。自1993年Michel Bauwens第一次提出“嵌入式”概念以来，嵌入式服务就在教学科研信息服务中得到动态展现[8]。嵌入式服务指以科研服务用户为中心，无缝地、动态地、互动地嵌入到一线用户的科研环境中，为研究人员提供直接、专业、个性化的服务[9]。随着Web2.0等技术在人文社科领域的广泛普及与人文社科研究人员在获取信息的网络化、数字化趋势愈发明显，这种服务理念受到了广泛的认同，并得到了长足的发展[8]。2005年以来，国内外不断对嵌入式服务的深度和广度进行扩充，学术界甚至提出学科服务不仅要嵌入到科学研究中，更要嵌入到教学、生活以及社会活动中[10]。

然而，在数据驱动环境下，嵌入式服务模式仍然存在局限。第一，嵌入式服务模式建立在学科化分类的基础上，与大数据背景下人文社科研究学科边界日益模糊、跨学科合作研究的主流趋势背道而驰;第二，以学科馆员为核心的嵌入式服务模式始终受到馆员自身学科背景和科研经验的制约，使得服务内容多局限于信息资源检索，服务深度较为有限。随着数据驱动环境对人文社科研究在知识层面的要求逐渐升高，这种局限将被进一步扩大。

总体来看，随着社会全面步入大数据时代，人文社科研究者信息需求多样化与信息环境复杂化的矛盾更为突出[11]，对知识服务模式与内容的创新提出了更高的要求——即打破学科边界，注重于数据本身的深度挖掘与加工，通过智慧化数据来驱动面向科研的知识服务。然而，当前面向人文社科的知识服务体系依然习惯性建立在图书馆系统的框架下，忽视了实际情况中人员、技术、经费等因素的限制，可操作性依然存在疑问。更为重要的是，相关研究鲜有对数据驱动范式与人文社科研究特殊性的综合考量，知识服务创新的功能、模式等具体内容依然有待进一步挖掘。

1.2 数据驱动下人文社科知识服务新诉求

数据驱动的人文社科研究改变了传统人文社科研究的惯用逻辑，在研究范畴、研究重心和研究方法等方面呈现出重大变化。如直接面向总体的多维度分析而非基于局部样本的抽样调查、以大规模标签化数据表示的量化研究而非理论论证为主的归纳性研究、基于海量实时数据挖掘的前瞻性预测而非静态数据的回溯性解释。这些变化为相应的知识服务提出了全新的诉求，需要通過知识服务创新来解决新环境下人文社科研究的关键性新问题。

（1）桥接人文社科数据资源“孤岛”。人文社科领域的大数据多产生于各类社会活动中，要求研究者能够从海量数据中发现新问题、探索新规律。然而，由于数据极大的开发价值和经济效益，也涉及更多安全性问题，在数据资产私有化的背景下，真正意义的大数据仍集中于政府、银行、互联网公司等机构中，很少由研究人员和研究机构完整掌握。此外，人文社科的历史性研究数据广泛的分散于大量研究人员之中，由于缺乏统一有效的共享机制，难以实现有效协同。因此，对于人文社科研究来说，数据增长并未改变研究数据稀缺性的现实[12]，反而在数据获取过程中进一步提高了经济成本和法律、道德门槛。

科学研究数据的“孤岛”现象对人文社科长远发展十分不利，会使“数据驱动”沦为空谈，无法解决实质性学术问题，更难在社会经济建设中发挥作用。对此，需要面向人文社科的知识服务从资源层加大科研数据的建设力度，提供总量充足、涵盖面广、共享性高、适用性强、粒度可缩放、获取门槛低的大数据资源供给服务，进而改善人文社科大数据资源的匮乏状况。

（2）缓解人文社科数据技术压力。数据科学涉及计算机科学、数学、信息科学、统计学等众多学科知识的复杂协同，具有较高的技术门槛。大数据并非人文社科的传统研究领域，近年来的研究多侧重于理念解释，尚未积累起太多成熟的实证经验。考虑到传统人文社科的学科背景和技术储备，在短期内提升人文社科研究者的数据分析与处理能力，效果相对有限，独自承担数据驱动的研究工作必然承担着一定的技术压力。

尽管数据驱动的人文社科研究提升了数据的地位，提高了大数据相关技术的要求，但并未改变人文社科研究的重心。在本质上技术的进步最终要服务于对人类文化、社会、经济等问题的洞察与规律的解释。人文社科背景的学者不宜在单纯的技术层面耗费过多精力，需要通过人文社科知识服务缓解数据驱动研究的技术压力，尤其是从专业的数据挖掘、处理、分析的角度获得充分的帮助和指导。

（3）服务人文社科数据场景应用。从数据驱动概念引入人文社科领域以来，许多研究者尝试采用新的范式对人文社科问题进行研究。但在近期的研究过程中逐渐暴露出一个关键问题，即基于大数据的主流研究方法多擅长于发现不同变量间的相关性，而非发现变量间的因果关系。这就意味着对待现实性研究问题时难以对各类相关性现象进行有效解释，在一定程度上动摇了研究的价值。如何明确数据驱动的人文社科研究价值，是对知识服务提出的重要诉求。

现实场景应用是人文社科研究成果重要的价值实现途径。大数据来源于社会实践的积累与探索，在数据驱动环境下将相关研究成果应用于实践、并接受实践检验是各界对人文社科研究的普遍性诉求。因此，需要知识服务提供方充分结合自身资源优势和技术优势，对人文社科多样化应用场景进行构建或描述，进而实现数据驱动的人文社科研究成果实现与应用场景的对接。

基于上述诉求，本文结合数据驱动环境下人文社科研究的总体过程和特点，充分考虑人文社科研究者的现有条件和现实需求，提出创新型的知识服务的理论框架，以期为相关服务内容开展提供支持。

2 数据驱动下人文社科知识服务框架构建

对于数据驱动的人文社科知识服务框架，本文将从资源、功能、制度三个层面展开论述。其中，数据资源建设是开展知识服务的基础和前提，具体功能实现是知识服务的核心和关键，而科学的制度安排则是知识服务落实的根本保障。

2.1 资源层：基于“数据-科研”闭环的科学大数据管理框架

面向人文社科数据驱动研究的知识服务，核心问题在于大数据资源的组织与管理。大数据环境复杂性增加，数据流转速率变大，知识服务应在总体上力求实现数据输入、数据输出、科研产出三方面的闭环（见图1），即将与科研有关的大数据通过一系列清洗、存储、挖掘过程，以智慧化的方式服务于科研活动，助力人文社科科研产出。同时将分散的高质量科研数据重新汇集和整理，作为新的数据源汇入数据管理周期，进而服务于其他的研究工作。

数据驱动的人文社科研究已不再局限于传统意义上的学科边界，数据来源极其广泛，涉及社会经济众多方面，过去看似不相关的数据均可能在特定的人文社科研究中发挥重要作用。当前，与人文社科研究相关的数据涉及社会经济众多领域，增长速度空前，盲目地将所有具备潜在价值的数据全部收纳显然缺乏操作性。因此，在数据采集阶段的重点任务应是打通数据输入渠道，与不同数据源形成稳定数据接口，并根据科研用户的具体需求提供定制化的数据输入方案。

随着大数据在社会生活中的全方位渗透，人文社科研究的数据来源呈现出多样化的分布态势。除一般性人文社科文献数据库、人文社科专题数据库以及科研团队主动发布的研究数据集外，与人文社科研究对象相关的内容理论上均可通过数字化表示而囊括在内。如广泛分散在行业或政府部门的数据库中的产业发展数据，企业经营信息，社会经济指标等。尤其在移动互联网高速发展的背景下，各类社会感知数据能够通过遥感设备、可穿戴或移动传感设备、Web社交媒体进行间接测度，这些数据在未来的人文社科研究中具有极大价值。显然，数据的复杂来源进一步加剧了数据的异构性，对数据的规范化组织提出了更高的要求。相较于小数据的组织模式，大数据的清洗、存储和挖掘工作更加复杂，需采取全新的技术策略进行应对。如云存储技术的应用具有扩容便捷、管理成本低、安全性高的优势，可以较好地契合大数据的量级特征。而机器学习等算法的实现有助于从价值密度较低的数据中挖掘出潜在价值，为智慧预测和智能推荐等服务的实施提供良好的基础。

2.2 功能层：面向科研全过程的知识服务内容

传统人文社科研究多以理论和模型驱动，由于涉及数据量不大，统计方法相对简单，研究项目仅需要少量研究人员和几台普通计算机即可完成。对于知识服务的需求主要集中于研究前端，如选题阶段中根据文献计量分析为研究者提供研究热点发现，以及在模型构建过程中进行相关文献支持，提供成熟的理论、经验、方法供研究人员参考（见图2）。

数据驱动的人文社科研究呈现出同过去截然不同的研究模式，由于涉及的科研数据数量激增、多源异构，导致技术门槛提高，处理难度增大。在既有条件下，人文社科科研人员很难轻易依靠小规模团队完成复杂的研究工作，需要能够涵盖研究全过程的多元化外部支持（见图3）。

（1）数据资源的提取和定制。根据研究人员的个性化需求，提供定制化的研究数据集或数据采集方案。对于来源不同的数据集，需要进一步清洗和整理，如统一存储格式和内容结构化等。数据应能够通过一致性和可信度检验，在质量上达到人文社科研究的基本要求。

（2）数据技术的推荐与指导。针对人文社科研究的一线研究团队，开展一系列大数据研究培训与讲座，重点关注机器学习等大数据前沿研究方法的理论和实操，帮助研究者了解和掌握大数据相关研究范式与技术的适用范围、优势劣势、发展趋势。除特定服务对象外，还应面向人文社科普及數据素养教育，引导培育从数据中发现问题，从数据中驱动研究的新思路。

（3）协助大数据分析和处理。近年来，Rapidminer、Weka等窗口化机器学习工具的出现让人文社科研究者能够在不具备较强编程技术和算法理解的情况下开展各类大数据研究。然而，如果不了解工具的基本原理，很难针对特定科研需求调整算法，也无法独自对可能出现异常情况进行调试。因此，在研究过程中，上述内容需要具备数据专业背景的专业人员参与，协助科研大数据的分析和处理。

（4）科研讯息的智慧推送。除服务于用户研究外，也要充分发挥自身数据资源优势，提供特色化服务。如基于有关科研工作者属性、成果、行为、轨迹、网络等海量数据，结合特定人文社科研究领域的内容与特征构建用户画像。进而以深度学习等算法为基础，建立智慧化推送系统，为用户推荐相关的科研成果、热门研究方向和潜在科研合作者。

2.3 制度层：基于人文社科发展战略的机制化保障

知识服务不能仅仅着眼于数据驱动热潮下的人文社科研究需求，应紧密结合大数据环境下人文社科研究的长期发展战略，保障服务内容的持续、稳定和成熟。这就要求将大数据服务的保障措施上升到制度层面，包括安全保障、人力保障、产权保障等。

（1）数据安全制度。数据驱动的人文社科研究涉及大量与社会经济领域相关的高价值数据，对特定利益相关群体具有较强的吸引力。在知识服务过程中，研究数据不可避免地出现集中存储和高频交换，必须采用相应的安全技术和机制降低数据泄露的风险。首先，应在知识服务提供方内部建立完善的保密制度，尤其是内网的数据输出端口（如USB、打印设备等）应受到严格管理，防止敏感数据的内部泄露;其次，对于部分核心数据和敏感数据，在技术上可采取“数据沙箱”架构[13]，使人文社科研究者在不真正取走数据的前提下进行数据的分析与处理，做到数据不落地，既能提高数据安全性，又能减少数据平台的维护成本。

（2）数据专员制度。面向大数据人文社科研究的知识服务除提供数据检索等被动式服务外，还应通过数据专员制度，组织专业团队以积极主动的方式深入到相关的人文社科研究中。本文认为，数据专员至少包括三个方面：数据科学专员，负责专项人文社科领域大数据的分析与挖掘;数据工程专员，负责数据平台的构建、运维以及人文社科大数据的采集、组织和存储;数据服务专员，负责外部数据源的协调、面向人文社科科研人员的咨询、推荐和数据素养的培训等。数据专员制度强调了服务过程中服务人员的主观能动性作用，数据专员不仅需要掌握数据科学领域的专业性技能，熟悉数据驱动的研究范式，也需要在不同人文社科领域具备一定研究经验和工作基础，这与过去学科馆员制度侧重于文献学背景有所区别。

（3）数据产权制度。大数据时代，数据资产的所有权归属问题在学界存在广泛的争议。在人文社科研究中，对于涉及大量个人隐私信息的社会大数据使用是否适用于知识产权法中的例外条款，目前尚未出现明确和权威的定论。在以大数据为中心的知识服务过程中，尤其要处理好数据供给者与数据使用者的关系界定。首先，对于互联网企业、政府、数据库等不同数据源，应签订多方数据许可协议，尤其要明确人文社科科研成果转化过程中的数据资产问题;其次，对于涉及隐私问题、敏感问题的数据应在提供相关服务的过程中进行匿名化和模糊化处理，最低限度减少数据伦理争端;最后，应借鉴相对成熟的学术引用体系，全面建立科学数据引用规范，充分尊重科研数据贡献者的知识产权。

3 开展新型知识服务的若干关键问题

面向数据驱动人文社科研究的知识服务与传统服务模式既有一定继承，也存在较大差别，在讲求服务创新的同时，应根据现有条件和实际需求采取针对性的措施，盲目地扩张服务内容反而会适得其反。本文认为，以下三个问题在具体的知识服务过程中应得到充分重视。

3.1 准确定位知识服务角色功能

数据驱动范式下的人文社科知识服务涉及到众多学科、资源、技术，过去单独以图书馆为基础，简单地扩充服务内容的思路在实践层面缺乏可行性。本文认为，知识服务的提供者需要汇集多方支持，包括但不限于图书馆、商业数据库、公共部门、信息产业以及相关人文社科学科领域。这种知识服务模式应定位为人文社科科研数据服务平台，该平台并不意味拥有并存储所有人文社科研究的数据集，也不要求在用户使用层面实现绝对的开放和免费，而是作为人文社科研究大数据的集散中心和人文社科跨学科研究的孵化培育中心进行建设。即通过智能化的检索、发现、推送系统，成为连接学科、数据与技术的桥梁和纽带，实现研究者、数据集、工具包之间的三方对话。

3.2 妥善处理服务与研究的关系

科研知识服务的本质任务是以用户为中心，满足用户科研知识需求，帮助用户解决特定的科研数据问题。服务模式的创新并不意味着越俎代庖，替代科研人员的研究工作。研究数据处理是人文社科研究中的重要组成，不仅需要数据技术支持，更需要特定人文社科学科背景的理论知识作为支撑。如果数据服务人员直接承担部分研究工作，由于缺乏对研究场景必要的理解和经验，容易陷入到“唯数据论”的陷阱中，反而对服务对象的科学研究造成一定程度的干扰和误导。因此，知识服务应重点针对人文社科研究人员在数据获取和分析技术方面的短板，数据使用与情景解释等问题应由科研人员自身承担。

3.3 对传统服务模式的科学扬弃

从文献服务、学科服务、到数据服务，不同的服务模式顺应了特定环境下人文社科研究的需求。在大数据时代，数据被提升到全新高度，围绕大数据展开智能化的知识服务逐渐成为新的潮流。然而，这并不意味着过去文献保障服务和嵌入式学科服务失去了意义。从人文社科研究的角度上看，当前数据驱动的研究范式对因果关系的解释力不足、数据生成和采集过程中的“信号问题”、数据伦理和规范等问题[14]仍然存在较大的争议，并非所有人文社科问题都适用于数据驱动研究范式，大量社会经济问题依然需要采用过去较为成熟的方法和手段进行的研究。本文提出的知识服务模式并不能完全替代以往的图书情报工作，应作为一种创新和补充服务于人文社科研究。

4 结语

数据密集型科学范式是对传统科学研究的一次重大变革，需要创新性的知识服务进行支持。作为以数据资源管理出发的科学探索，本文结合数据驱动范式与人文社科学科特征，提出了以数据为核心的知识服务框架，并从资源建设、功能服务、制度保障层面分别展开了论证。

当前，数据驱动的人文社科研究已受到广泛重视，已有图书馆、情报单位、研究机构在面向人文社科研究的大数据服务方面进行了针对性地探索。但在人文社科研究领域，由于人文社科具有学科特色鲜明、知识互相贯通的特征，不同研究者对大数据的理解和需求也存在较大差异，为知识服务工作规范化、体系化、标准化工作带来巨大挑战。针对普适性推广不足的现实困境，亟需根据特定的现实条件和用户需求，进行差异性的调适，形成具有针对性的精细化知识服务，以推进我国人文社科知识服务的整体性推进。因此，未来研究可在数据服务、合作协同、知识共享等方面进一步推进，进一步提高知识服务的效率和精准度，更好地服务于数据驱动下的人文社科研究工作。

参考文献：

[1] （英）维克托·迈尔·舍恩伯格，肯尼思·库克耶.周涛等译.大数据时代[M].杭州：浙江人民出版社，2012.

[2] 邓仲华，李志芳.科学研究范式的演化——大数据时代的科学研究第四范式[J].情报资料工作，2013（4）：19-23.

[3] 孔令乾，胡广翔，董焱.全国文献资源调研分报告之五全国社科文献资源调查与布局研究[J].图书馆学通讯（中国图书馆学报），1990（4）：40-43，93.

[4] 马继刚，林平，刘柳.人文社科文献保障与共建共享的现状分析与发展策略[J].大学图书馆学报，2013，31（2）：26-30.

[5] 王新才，王海宁.高校图书馆期刊文献保障实证研究——以武汉大学为例[J].中国图书馆学报，2015，41（5）：4-15.

[6] 卢章平，袁润，王正兴.发现服务：大学与研究机构图书馆的趋势[J].中国图书馆学报，2014，40（3）：20-26.

[7] Anderson R.The Crisis in Research Librarianship[J].The Journal of Academic Librarianship，2011，37（4）：289-290.

[8] 刘芳.大数据时代高校图书馆信息服务创新研究[M].北京：光明日报出版社，2016.

[9] 羅亚泓.广州高校图书馆嵌入式学科服务的SWOT分析和策略研究[J].图书情报工作，2015，59（7）：112-116.

[10] 张红琳，叶文伟.高校图书馆嵌入式学科服务的实践与发展建议[J].图书与情报，2015（2）：133-136.

[11] 李桂华.基于美国大学参考咨询提问的当代社会科学信息需求研究[J].情报学报，2015，34（10）：1079-1087.

[12] 何胜，熊太纯，周冰，等.高校图书馆大数据服务现实困境与应用模式分析[J].图书情报工作，2015，59（22）：50-55.

[13] 边卫红，单文.Fintech发展与“监管沙箱”——基于主要国家的比较分析[J].金融监管研究，2017（7）：85-98.

[14] 王世伟，俞平，轩传树.国外社会信息化研究文摘[M].上海：上海社会科学出版社，2016.

作者简介：刘雨农（1991-），男，南京大学信息管理学院博士研究生;是沁（1992-），女，南京大学信息管理学院博士研究生。