宋姗姗,白文琳
(1.中国科学院武汉文献情报中心,武汉 430071;2.中国科学院大学经济与管理学院图书情报与档案管理系,北京 100049;3.天津师范大学管理学院,天津 300387)
伴随着新一轮信息技术革命浪潮的出现和大数据时代的到来,大数据已经成为关键性生产要素和国家基础性战略资源,利用大数据技术手段提升国家治理能力现代化已经成为趋势。党的十八届三中全会明确将“推进国家治理体系和治理能力现代化”作为全面深化改革的总目标,十八届五中全会提出要实施“国家大数据战略”,同时 《促进大数据发展行动纲要》 的实施,使中国大数据事业开启了快速发展模式。2020年党的十九届四中全会首次将“数据”列为生产要素,明确提出要“加强数字社会、数字政府建设,提升公共服务、社会治理等数字化智能化水平”。
大数据价值的释放有赖于一套科学完善的大数据治理体系,因而“大数据治理”在近几年已经成为学术界所关注的焦点问题,国内学者开展了大量有关大数据治理的理论探索和实践创新研究。基于此,本文对国内大数据治理的已有研究进行发展脉络梳理和文献述评,进而试图厘清大数据治理的概念体系、实施评估及应用实践内容,以期更好发挥大数据作为新型生产要素和社会治理手段的正向实践功能。
本文以中国知网(CNKI)为来源数据库,以TI=(' 大数据'*' 治理')or' 大数据治理' 为检索式进行中文期刊文献检索(检索时间:2021 年12 月31 日),论文发表时间不限,检索结果为1 704 篇。经过人工清洗与去重合并,剔除新闻报道、图书推介及与研究主题明显不符的文献,最终得到1 635 篇有效论文作为本研究的原始数据来源。
从文献数量的时间分布图1 可知,在2013 年以前,学界对于大数据治理的相关研究还没有进行,这一领域还属于研究空白。从2013 年起至今,年度论文、参与机构、研究人员的数量都开始逐渐上升,大数据治理的相关研究呈现出一个迅猛发展的势态。其中有两个关键的节点时间是2013 年和2015 年。2013年11 月党的十八届三中全会通过 《关于全面深化改革若干重大问题的决定》 提出要“创新社会治理体制”;2015 年印发 《关于积极推进“互联网+”行动的指导意见》 《促进大数据发展行动纲要》,以及 《关于运用大数据加强对市场主体服务和监管的若干意见》,明确提出要“运用大数据技术推动政府精准治理、市场资源整合和经济转型发展,形成多方协作的社会治理新模式”。基于以上政策的实施,引领着学界特别是公共管理学科的学者更多地把研究聚焦在大数据治理的相关领域上来。从研究涉及的学科领域来看,国内关于大数据治理的学科分布相对比较宽泛,发表相关论文较多的学科有行政管理、计算机科学、信息经济学、新闻传媒以及社会统计学等;发文较多的期刊包括《电子政务》 《情报杂志》 《中国行政管理》 《情报理论与实践》 《图书情报知识》 等;发文较多的代表性学者包括中国人民大学安小米、上海财经大学郑大庆、武汉大学夏义堃、清华大学孟天广以及北京大学黄璜等。
图1 中国大数据治理领域研究发展趋势Fig.1 Distribution of big data governance research in China
本文通过对国内有关“大数据治理”的文献关键词进行聚类分析可以看出,近年来关于大数据治理的研究热度不断上升,且受到较多领域的广泛关注,涉及的核心关键词包括:大数据、数据治理、社会治理、政府治理、大数据技术、数据资源、网络舆情、风险治理、数据安全等,研究主题聚类结果如图2 所示,具体聚类主题详见表1。
表1 中国大数据治理领域研究聚类主题及核心关键词Table 1 Topics and keywords of big data governance research in China
图2 中国大数据治理领域研究主题聚类结果Fig.2 Distribution of big data governance research topics in China
通过文献计量分析可以看出,国内关于大数据治理的研究已有一定成果积累,相关主题涉及大数据治理概念、政府治理能力、数据开放与共享活动、大数据技术运用、数据安全与隐私问题等,据此,本研究将从概念体系、实施评估与实践挑战3 个方面对中国大数据治理相关研究进行述评,其中构建具有标准化和普遍意义的、覆盖大数据治理全要素和全过程的大数据治理体系研究是最为关键的部分。
治理理论在20 世纪90 年代逐步兴起,该理论强调“多元治理主体在治理过程中通力合作,以此解决复杂的公共社会问题”。一般认为,治理包含了评估、指导和监督3 个关键活动[1]。大数据作为近年来的新兴主题,大数据技术与治理理论的结合,催生了“大数据治理”这个崭新的研究领域。由于大数据具有规模巨大、类型多样、流转高速、数据价值产生于多源融合,数据权属复杂等特征,使得当前相关研究成果还较为分散。
目前应用较为广泛的“大数据治理”定义由美国学者Sunil Soares(桑尼尔·索雷斯)在Big Data Governance:An Emerging Imperative(《大数据治理》)一书中提出,他认为“大数据治理是是广义信息治理计划的一部分,它通过协调多个职能部门的目标和利益来制定有关大数据优化、隐私保护以及数据资产变现的策略[2]”。基于此,国内学者从不同角度对大数据治理概念进行定义,核心内容上具有一定的共同点。相关研究可以归纳为以下4 个方面。
(1)大数据治理与数据治理的关系。大数据治理形成于大数据时代,是在“数据治理”概念基础上发展而来。郑大庆[3]认为数据治理与大数据治理的目标相同,都是为了“实现价值”和“管控风险”,不同在于数据治理侧重于效率提升,大数据治理强调效益提升和风险管控。黄璜[4]阐述了数据治理是为有效地使用数据资产而组织实施的政策、流程和标准的实践。夏义堃[5]从数据治理部署的角度,指出政府数据治理是综合运用法律制度、人员组织、技术方法、流程标准等手段,对政府数据的可用性、完整性、安全性等进行全面有效管理。
(2)大数据治理与数据资产变现。现有大数据治理研究都重点关注了数据资产变现问题。安小米[6]从提出政府大数据治理是政府机构进行大数据决策权分配和职责分工的活动过程,旨在促进政府数据资产价值最大化。朝乐门[7]认为大数据治理是为了帮助组织更好地管理数据资产,改善组织在整个业务领域的数据管理实践。张绍华[8]提出大数据治理是对大数据的管理和利用进行评估、指导和监督的体系框架,其目的之一是实现数据的价值创造,并提供创新的大数据服务。
(3)大数据治理与信息技术支撑。信息技术是实现大数据治理的重要依托工具。向芳青[9]认为大数据治理要借助信息技术获取、互联网平台汇聚,先进的技术手段和方法进行数据分析,提升科学高效的治理能力。梁芷铭[10]提出大数据治理是运用技术工具进行大数据收集、整理、存储、分析及挖掘其价值的行为。此外,也有学者认为大数据治理不仅需要信息技术工具的支持,还需要关注大数据治理形成的规则和政策框架,实现大数据治理工具从技术维度到管理维度的转变[11]。
(4)大数据治理与国家治理变革。大数据治理被视为国家治理的关键组成部分。戴香智[12]提出大数据为社会治理带来了多中心治理范式、“用数据说话”方法论、全数据关联视角、主动预见型治理流程、治理技术能力提升。石火学[13]认为政府大数据治理正朝着治理主体协同化、治理内容预防化、治理过程透明化、治理技术迭代化、治理方式数据化和治理结果精准化等方向发展。张明斗[14]提出大数据治理通过数据共享、法律约束、绩效评估、运营保障4 个机制推动城市治理现代化。
大数据治理是一项复杂、多层次、多维度的系统化工程,需要充分调动相关主体资源和工具手段,形成一个普遍科学有效的大数据治理体系,更好地支持大数据治理应用实践。马广惠[11]提出大数据治理体系由人、物、技术、数据构成。刘越男[15]提出了涵盖治理主体、治理客体、治理方法和流程的政府大数据治理理论框架。据此,本研究从大数据治理目标、治理主体、治理客体、治理工具4 个层面对大数据治理体系研究进行归纳,具体如表2 所示。
表2 大数据治理体系及构成要素梳理Table 2 Big data governance system and constituent elements
表2(续)Table 2 Continue
(1)大数据治理目标。在大数据治理实施过程中,首先需要明确大数据治理的目标,从而让决策者对大数据治理的实施制定总体规划。从宏观层面来看,实现大数据的风险管控、运营合规和价值创造,确定数据的资产地位,是大数据治理与数据治理的根本区别,也是当前研究较为公认的大数据治理目标。从微观层面来看,吴善鹏[16]将政务大数据治理目标归纳为:提升数据质量、促进数据融合、规范数据流程以及发掘数据价值。大多数学者在大数据治理目标上都重点关注了数据价值创造的话题,数据本身不产生价值,但是从庞杂的数据背后评估和预测相关利益者的需求,并有针对性地产生一系列创新的大数据服务,才能达到价值共创的结果。
(2)大数据治理主体。治理主体是治理活动的决策者、组织者和协调者。在大数据治理主体的研究中,学界基本统一认为大数据治理主体主要涉及政府,企业、社会组织和公民个人等,同时也针对这些主体在大数据治理中的地位、作用及效果进行了探讨[17]。在具体组织内部,大数据治理团队是大数据治理的促成要素,是组织机构中参与决策的群体,包括大数据利益相关者、大数据治理委员会、大数据管理团队以及大数据专家等,有效的组织架构和明确的职责分工是大数据治理目标实现的有力保障[18]。
(3)大数据治理客体。大数据治理客体即治理的对象和内容。在对大数据治理客体理解上,学者们还尚未达成共识,多数学者都尝试采用“归类”与“分层”的方法进行大数据治理客体的研究。从狭义上理解,大数据治理范围既涵盖传统的业务数据,也包括大量非结构化的网络数据[19]。从广义上说,大数据治理的核心客体是数据本身,同时也包含了一系列与大数据治理相关的活动和要素,涉及数据生命周期、数据质量、数据技术与平台、信息基础设施、数据隐私与安全、组织人员和业务管理等[5]。
(4)大数据治理工具。治理工具是实现大数据治理活动的有力保障,具有多样性特征。在现有研究中,可以将大数据治理工具归纳为环境因素和促成因素两个方面[20],环境因素包括国家政策、行业规范、市场需求、企业制度等内外部环境;促成因素包括管理、组织、技术、标准、流程、文化等。也有学者提出数据治理的工具大部分也适用于大数据治理,所以大数据治理既包括元数据、数据质量控制、数据标准制定等传统数据治理方法,也需要制定特殊的管理规则,综合运用物联网、云计算、关联数据、机器学习等大数据技术手段来管理大数据生命周期[21]。
通过对国内大数据治理体系要素构成的文献梳理结果表明,近年来有关大数据治理体系构建已经取得了较多的研究成果,但还存在维度单一、层面隔离、缺少多样化治理场景的研究局限,对于建立一个行之有效、灵活通用、覆盖多主体、多学科、多维度、多应用场景的大数据治理体系研究还比较缺乏,所以大数据治理体系的构建是一项长期性、计划性和连续性的工作,也是一个不断持续改进的过程。
大数据治理实施与评估的重点就在于建立大数据治理体系。杨琳等[23]认为政府大数据治理活动包括组织规划、具体实施以及评估优化3 个阶段,其中组织规划阶段包括制定实施方针和构建治理组织,具体实施阶段包括元数据与主数据管理、数据质量与数据安全保障等,评估优化阶段是对数据治理结果进行评估分析,并根据反馈结果持续优化。综上,本研究将大数据治理实施与评估需要重点关注的内容归纳为图3所示。
图3 大数据治理实施与评估的重点内容Fig.3 Content of big data governance implementation and evaluation
治理实施描述了在大数据治理过程中需要重点关注的内容,从而为组织进行大数据治理提供指导性方案,治理重点包括大数据生命周期、大数据质量管理以及大数据安全与隐私保护3 个方面。
(1)大数据生命周期。从大数据治理涉及的数据生命周期来看,大数据治理是在大数据战略的指导上,从治理问题的发现与理解、数据采集与整合、数据建模与分析以及解决方案的提出等一系列过程。与传统的数据生命周期不同在于,大数据生命周期管理更关注在风险管控的条件下,最大程度发挥数据的潜在价值。吴善鹏[16]指出政务大数据治理活动涉及数据源分析、治理活动规划、数据资源和标准管理、数据治理策略管理以及治理活动实施。从大数据治理的具体实践情况来看,数据质量、个人隐私保护和信息安全是研究中的重要议题,马广惠[26]面向跨系统和跨部门的政府大数据平台,提出大数据治理活动需要重点关注5项具体内容:数据集成、数据一致性、数据处理、数据存储和数据共享。
(2)大数据质量管理。当前大数据治理领域对于数据质量的研究主要集中在数据质量的评估和提升两个方面。数据质量评估是数据质量管理的基础,关键在于评估指标的选取,大数据治理评估指标的选取要基于数据质量特征、数据生命周期、数据使用问题、数据应用情景等[27]。莫祖英[28]认为数据质量要求应包括客观数据质量范畴(规范性、安全性、增值性)和主观数据质量范畴(可用性、可靠性、及时性、可获取性、可理解性)。朱建平[29]从数据收集(客观性、适用性、准确性),数据处理(方法的健全性、可靠性、可比性),数据公布(及时性、完整性、可获得性)3 个环节阐述了数据质量评价构想。数据质量的提升侧重于从管理和技术两个视角出发,续瑾成[30]从管理角度来看,数据质量的提升重点在于建立相关组织架构、设计数据质量标准、加强对主数据的管理等策略实施,宗威[31]从应用数据库技术、数据分析技术、数据质量监测技术的技术角度研究了数据质量的提升路径。
(3)大数据安全与隐私保护。当前,大数据安全管理问题日渐凸显,大数据的4V 特征、数据的跨组织和跨系统流通、数据应用的复杂性以及数据分析挖掘技术的迅速发展,进一步加速了数据被盗用和滥用的安全风险。数据安全防护主要通过区块链技术来实现数据的安全存储与安全计算,如分布式存储、数据异地备份、加密手段、身份统一认证、权限控制技术、入侵检测与防御、高危操作防护等。肖人毅[32]总结了基于不经意随机访问存储器(ORAM)、对称加密、公钥体制以及文档的排名查询和模糊查询4 个方面的数据保护技术。数据隐私保护的主要目的是解决在不泄露用户隐私的前提下、提高数据利用率及价值,方滨兴[33]提出数据隐私保护涉及匿名、加密存储、第三方审计、访问控制、数据脱敏技术等。此外,大部分学者认为大数据的安全与隐私保护还需要非技术性层面的协同支持,如专门的数据安全管理组织、全面的数据管理工具与机制、相关法律法规保障、标准统一的数据安全服务等[34]。因此如何在合理监管的基础上保证数据获取与利用的可靠性,实现数据价值挖掘,是大数据治理研究领域面临的巨大挑战。
通过治理成熟度评估可以详细了解当前大数据治理的实施状态,实现组织对大数据管理能力的量化评价,是大数据治理体系规划的起点,大数据治理审计有利于促进大数据治理的规范合规性,为实现数据价值最大化提供依据。
(1)大数据治理成熟度评估。当前比较通用的是IBM 数据治理成熟度模型,该模型包括成效(数据风险管理、业务价值创造),支持要素(组织结构与文化、数据管理、政策),核心准则(数据质量管理、信息生命周期管理、信息安全与因素),支撑准则(数据架构、分类与元数据、信息审计记录与报告)4 个相互关联的组及11 个关键要素。中国于2018 年发布了国家标准 《数据管理能力成熟度评估模型》,该模型包含了组织层面(数据战略、数据生命周期),技术层面(数据应用、数据安全),制度层面(数据治理、数据架构),流程层面(数据质量、数据标准)4 个评估层面及8 个关键过程域。国内学者程广明[22]提出了包括初始级、基本级、定义级、管理级和优化级5 个评价等级、15 个具体评价指标的大数据治理成熟度评估模型。张宇杰[35]提出大数据治理成熟度评估内容主要集中在战略规划、数据管理、组织保障、制度保障、技术架构、治理能力6 个方面。
(2)大数据治理审计。开展大数据治理审计是对大数据治理活动进行综合检查和评价,发现存在的潜在风险,并给出详细、有价值的审计意见,促进大数据治理的持续优化和规范发展。张绍华[8]提出大数据治理的审计范围涵盖了大数据治理的整个生命周期过程,以及在该过程中产生的中间产物和相关的治理环境,具体可对应大数据治理目标进行检查评估,分别为战略一致审计、风险可控审计、运营合规审计、绩效提升审计,同时还包括在大数据治理过程中的组织机构审计、数据生命周期审计、数据架构审计、数据安全与隐私管理审计、数据质量审计。郑伟[36]提出大数据的参与创新了基于数据式的审计模式,并从逻辑流程、网络构建和应用架构3 个方面阐述了大数据审计的完善路径。
当前,中国通过制定大数据发展战略,部署相关行动计划,积极将大数据应用于公共管理、政府治理和产业经济发展等领域,取得了一定成效。国内学者也均从不同领域的实践出发,强调了大数据治理的重要价值,主要研究集中在中国政府积极运用大数据提升科学决策能力、社会管理水平及公共服务建设3 个方面。
政府的科学决策是建立在充足的数据支撑、科学的决策程序和有效的决策手段基础之上。胡税根[37]认为基于大数据的智慧公共决策具有全面感知、客观透明、实时连续、自主预置和多元共治等新的特征。单志广[38]提出大数据的快速发展为社会管理带来了思维方式和管理模式的变革,要积极把大数据技术与思维运用到政府治理能力与决策之中。马琳[39]总结在大数据环境下,社会管理从静态化向动态化、从碎片化向协同化、从单一政府管理向多元公众参与转变。赵亚珠[40]认为大数据应用保障政府决策的科学化和民主化、实现公共利益表达的自由化和平等化、推动社会管理的透明化和精细化。此外,基于大数据衍生出的智能公共服务与个性化公共服务已经成为当前的发展趋势,受到大数据影响的社会服务领域包括工业企业、商业金融、科技教育、农业环境、医疗卫生、城市管理等重点领域,具体如表3 所示。特别是在新冠疫情防控工作中,大数据在疫情监测、行程跟踪、资源调配、物流运输等方面得到了广泛应用。
表3 大数据治理应用领域研究开展情况Table 3 Application of big data governance research
尽管当前各行业和领域都十分重视并大力推进大数据技术在社会治理中的应用探索,但大数据作为近几年逐渐发展的新兴事物,中国对于大数据的实践应用整体来说还处于探索发展阶段。国外研究发现大数据治理面临的主要挑战在于技术障碍,社会、组织和经济障碍,法律和政策障碍,其根本还是管理问题[51]。总体而言,大数据治理挑战主要包括管理和技术两个方面。
管理挑战主要表现为:①数据垄断问题。数据依赖平台存在,目前一些拥有大量数据的支配组织对其他经营者的数据访问行为进行限制,意图垄断数据资源,因而有序推进数据开放、加强数据法律体系建设、构建良好的数据生态的过程还很漫长。②数据权属问题。数据作为一种全新的无形虚拟资产,具有巨大的潜在应用价值,数据权属不清一直是影响数据资产化和数据交易的首要问题,因此“确认数据权属”和“保护数据产权”对于数据资产化具有重要意义[52]。③数据隐私问题。如何在数据安全隐私保护和提高大数据利用价值之间实现有益平衡,是目前大数据治理研究的关键问题之一,因此未来涉及国家安全、网络安全、数据安全和个人隐私保护的数据标准和数据立法还需要更多研究。④数据壁垒问题。传统信息管理多头交叉容易导致“信息孤岛”现象,“信息孤岛”现象使得大数据治理无法获得多样化的丰富数据,阻碍了数据效能的提升,因此优化与数据共享、交易、流通相关的制度和服务体系势在必行。⑤数据质量问题。由规模巨大、类型复杂、来源多样的数据构成的大数据海洋,由于缺乏一致的数据质量标准,使得数据的完备性、有效性、标准化、权威性不足,大数据治理一直处于一种无序状态,给数据的整合共享造成困难[53]。
技术挑战主要表现在:①大数据技术滞后。当前中国虽然在大数据相关技术方面有所突破,但在海量数据存储与组织、数据挖掘与处理、以及融合云计算、人工智能、区块链等技术进行大数据治理方面与国外先进水平还存在明显差异,对一些前瞻新兴领域的数据分析还存在不足。②“暗数据”广泛存在。数据规模呈几何数高速增长,及大量异质、半结构化和非结构化数据的存在,显著增加了数据存储、整合和处理的困难,数据资源迅猛增长与数据处理能力提升之间的“剪刀差”不断扩大,广泛产生了未被有效利用的“暗数据”。③“通用”大数据技术体系缺乏。目前大数据技术应用平台已有大量研究,针对大数据治理特定领域和特定问题的解决也已有完善的技术体系作为保障,但尚缺乏“领域通用”的大数据技术体系,数据的融合、流动、监管和应用还面临一定挑战。
近年来,大数据作为核心战略资源和治理能力现代化的重要抓手,在重塑国家治理理念、推动数字经济发展、提高政府科学决策、加快智慧城市建设、营造良好社会生态等方面发挥了关键性作用。大数据治理作为一种制度与技术双驱动的治理模式,将从治理理念到治理实践对国家治理现代化产生变革性影响。本文利用文献计量和综述对中国有关大数据治理的研究进行分析,从文献分布与研究主题整体来看,大数据治理研究受到了国内学术界的广泛关注,其重要性日渐凸显,相关研究主题也展现了广泛多样性和多学科交融等特征。
但大数据治理作为一个开放性议题和动态性过程,目前国内有关研究还是多以概念性、描述性的定性分析为主,偏重于理论的论述和经验的总结,针对大数据治理面临的实际关键问题,还缺少相关的实践案例支撑和技术应用研究,很难对大数据治理的整体情况进行全面反映。此外,大数据治理体系的设计和实施评估还有待完善和优化,有关大数据治理价值释放、成熟度评估、数据政策标准、数据质量、数据安全隐私等主题需要被给予更多的关注,大数据治理这一问题的研究也应被学术界给予更深的思考。