周 众
(山西传媒学院 组织部,山西 榆次 030619)
随着开放数据运动的推广,越来越多的机构参与到数据发布与使用的整体流程中。开放数据的经济价值越来越明显,欧盟报告中预测2011年开放公开数据将带来直接收益是每年400亿欧元[1],世界银行认为开放数据的经济潜力是巨大的[2]。但是,随着开放数据数量的增加,数据质量问题日益凸显,数据价值本身受到用户质疑。如何有效地提高数据质量,追踪数据来源,提高数据生命周期,各个用户的参与度将成为重要问题。数据管理不再是单纯数据本身的问题,而应该是涉及到人、所有权、技术、制度等多层面的问题。数据管理不再是单方向的信息处理问题,而应该是双向信息流的问题,尤其是用户信息反馈流将对数据质量的提升具有重大意义。生态系统强调系统构成各部分之间相互依赖,通过合作与竞争实现系统的有序与平衡。采用生态系统的观点认识数据管理,有助于提升数据管理水平,充分发挥数据的价值。整个生态链中,技术不再是核心,人的作用得到重视。社会环境中,需考虑各个构成部分如何相互依赖相互影响,通过动态演化达到生态平衡。如何促进数据资源在生态链中快速顺畅地流动,借助外部世界的反馈信息有效地调整自身行为,从而最大程度地发挥其在网络经济中的价值。
2011年,开放数据生态系统最早在经济学家Pollock博客中提及[3],认为数据处理的基本模型应从单方向向数据循环的动态系统转换,中介者以重用方式发布清洗、正确、集成的数据集。2014年维基年会上,进一步肯定了开放数据带来的广泛影响,认为需增强数据发布者、分析者和使用者之间合作,以促使基于对话的数据生态系统的建立。毫无疑问,网络环境下开放数据的出现,进一步带来了人们对营造良好数据生态环境的渴望。基于此,探讨数据生态的提出到发展的演变过程,梳理信息生态、知识生态、数据生态三者之间的关系,提炼出不同研究者对于数据生态系统构成要素的代表性观点,旨在对国内学者深入开展数据生态理论的研究奠定基础,为营造国内良好的数据生态系统提供可参考性的建议,真正发挥数据在经济领域中的价值。
20世纪90年代,为获得可持续的发展,许多企业纷纷引进信息系统,但并未给企业带来应有的效益,针对当时组织仅仅关注于信息技术的问题,1997年达文波特首次正式提出了“信息生态”概念,强调一个组织的信息生态是该组织的信息环境,由大量交互、互相联系的社会、文化、政治子系统构成,可以分为政策、文化及人员要素[4]。信息政策明确管理与使用信息的职责,信息文化促使组织内部员工形成共同的信息交换、共享、合作等信息行为规范和价值理念,信息技术专家及信息内容加工专业人员是信息处理的关键。组织的信息生态影响到信息的生产及存储状态、信息获取与信息需求数量及其信息价值。由此许多研究者展开了此研究[5],从各类型的研究成果中可以看出,信息生态理论研究注重于系统观,将信息管理作为整体看待,其由各种不同的要素如技术、人、行为、文化、政策等构成,如何有机地发挥各种要素之间相互依赖关系,如何重视人的作用,实现信息生态的平衡及良好运转,促进组织内部的信息的创建、流动及其使用是信息生态学的研究目标。
与此相应地,信息生态比较成熟的理论应用到许多相关领域,研究者提出了“知识生态”、“数字生态”等新概念。
知识管理环境下,如何将信息转换为行动成为关注的核心,因此信息生态(以信息为核心)延伸到知识生态(以行动为核心),知识生态由知识节点、知识交换和知识流构成。与信息生态更多地强调外部控制,比如采用激励、奖励、规章等方式相比,知识生态更强调如何构建自适应系统,通过内在激发、自我控制实现个人的主动积极参与。其更注重人的知识交流及其在交流上建立的关系,同时研究知识如何影响人的行为(包含潜在行为),以实现新知识的创造及旧知识的更新,促进知识的创造、集成、共享及使用。
数字生态指由媒介、通信及IT行业形成的聚合空间,其由用户、公司、政府、社会及促进数字交互的通信设施构成[6], 旨在支持该环境中各个不同独立实体间的数据自由流动,促进公开、灵活、交互的信息环境的发展。其被应用于不同的领域,如教育、医学、生物、网络。数字生态系统应由一系列数字实体构成,如网络化个体或组织、服务、软件、应用,它们在数字化环境中通过信息及交易流相互联接[7]。与信息生态相比,数字生态不再局限于围绕信息系统为核心的信息环境,而是延伸到网络信息技术变革所带来的数字化环境。
数据提供者的日益增加导致数据量的激增,数据管理问题丛生,Parsons等提出创建跨学科全球数据生态系统,通过技术、人、组织及其社会的协调适应以形成不断演化的科学数据生态系统[8],其成为数字生态的主要类型之一。随着web2.0发展,用户参与度进一步促进了网络数据的开放、自由、透明,2007年首次提出了开放数据的概念,继而兴起了开放数据的运动,出现了开放获取、开放资源、开放政府等。在此背景下,开放数据生态系统受到关注,旨在利用生态学理论促进开放数据的质量提升,发挥开放数据的经济价值。大数据技术的出现,促进了数据生产、管理、消费过程自动化,但大数据不仅仅是一个数据库或者HADOOP问题,尽管大数据处理及分析构成了技术核心,它应该是存储、处理、可视化及提交结果到目标应用的复杂构成[9],大数据生态系统因此产生。可以看出,数据量的猛增,数据处理技术的发展,以开放数据、大数据为核心的数据生态的理论研究及发展已受到各界学者的关注。
任何生态系统都是由若干子系统构成,信息技术的快速发展改变了当前的经济、社会环境,个人、组织机构、政府等实体之间数字化交互频繁、快速,数字化生态系统逐步形成。在此系统中,最核心的构成是数据、信息、知识的流动。依据这三者在机构中发挥的作用价值不同,因此将数字化生态系统分为数据生态、信息生态、知识生态三个子系统。其中数据生态强调数据流的高质量、自由通畅及其交互反馈,其作为数字化生态系统的基础构成,制约了其它生态系统的发展,信息生态强调信息流的良好运转,实现数据流的再加工及更好利用,并进一步为知识生态系统运转提供高质量的输入信息流。知识生态强调知识的创造及运用,与其它子系统相比,更强调人的主观能动性,是数字生态系统中最具活力、创造力的生态环境。
从各个概念所提出的时间节点看,信息生态最先提出,知识生态其次,数据生态最晚,这与信息技术的发展规律相吻合。从20世纪60年代到90年代末,信息技术广泛应用于信息系统中,带来了企业管理层面的变革,如何有效地发挥信息系统的作用,从信息生态学角度看待信息系统问题,成为学者及管理者关注的问题。随着90年代初美国经济学家罗默和卢卡斯的新经济增长理论的提出,知识经济进入人们的视野,相比信息管理而言,知识管理的难度更大,对组织要求更高,而知识生态的提出旨在形成个人-知识-技术的三层网络体系,达到知识共享交流与创造应用。90年代后期网络及通信技术的迅速发展,引起了经济、社会、政治等各个层面的变革,网络经济、虚拟经济的提出,使人们更多地着眼于生态环境的数字化、开放性、自由性变化特征,在研究数字化生态环境的同时,人们既关注外部宏观环境变化,注意到数据的价值,又重视微观环境的审视研究,数据生态因此产生。随着数字化信息的大量涌现,如何有效地辨别数据质量,提高数据加工处理效率、拓展数据的应用价值成为重要问题。数据是产生信息、知识的原料,从信息生态延伸到数据生态问题,实际回归到本原问题,只有创建良好的数据生态系统,才可为信息生态、知识生态系统的发展提供原动力。
数据生态系统是一个有机体,其由各个构成要素之间相互依赖相互作用而形成一个有序的整体。由于研究者分析角度的差异,各构成要素的划分标准有所不同,但从其划分中可窥见数据生态系统研究所关注的重点依然是数据本身。
数据生命周期理论的提出旨在提高数据管理及保存效率,促进数据的使用及重用。从所提出的理论看,数据生命周期包含几个核心的阶段: 数据收集、数据处理、数据发布、数据利用。研究者基于开放数据生态系统,提出数据生态系统由数据审核、数据选取、数据发布、数据获取及发现、用户参与、评估等要素构成[10]。
图1 基于数据生命周期的数据生态系统要素划分
数据审核需明确所发布数据的状态(所有权、收集频率、格式、价值等),选取价值高、影响度大、以需求驱动为主的数据,保护数据稳私,进行授权使用,发布高质量的数据(格式、元数据、标准、URI),确认用户获取数据的途径,运用目录或门户网站组织数据以保证数据被发现,获得政府部门政策、财政、能力层面的支持,提供各种用户反馈渠道(社交媒体、传统媒体),提高用户的参与度,积极提倡数据经济价值的发挥,对数据进行定期评估,支持数据的实践活动。
数据生命周期理论下数据生态系统,强调数据的计划性管理方式,分层次按步骤地完成数据的高效率管理。各个要素之间互相依赖,前一个要素决定着后一个要素的实施效果,同样,该循环应该是一个闭合循环,数据评估结果需反馈到数据的审核及选取环节,提高数据的使用价值。可以看出,该理论强调科学化数据管理方式,重视数据的质量及其用户的使用。
数据生态系统的核心资源是数据,围绕数据处理的主体,按照增值链条将数据生态系统分为数据提供者(Suppliers)数据中介(Intermediaries)、赋能者(Enablers)、数据消费者(Consumers)四大要素[11]。
图2 数据处理主体划分的数据生态系统要素
开放数据平台中,数据提供者指那些收集、发布数据的机构,负责信息的更新与维护,旨在提高其声誉度及参与度。中介者则使用开放数据向最终用户提供开放数据,主要分为三种类型聚合者(Aggregators)、开发者(Developers)、增值者(Enrichers)。聚合者负责收集、聚合开放数据,通过数据间复杂关联生成知识,开发者设计、实施、出售基于开放数据的应用,增值者指利用开放数据提高当前服务和产品。可以看出,数据中介搭建了数据提供者与消费者之间的桥梁,通过数据的再加工实现增值服务(包括新的知识、应用程序、基础设施的服务)。赋能者(Enablers)有助于促进开放数据使用,通过提供基础设施来实现获取、存储、检索数据的服务。数据消费者不仅浏览数据,而且贡献、提供反馈,他们可以编辑数据实现数据的纠错及其更新,有助于数据的维护,他们也可对数据提供评论标注。通过有效的反馈环节使数据生态系统中的数据趋于完善。
数据在生态系统中被循环反复处理,经过不同的数据处理主体,实现进一步的编辑、更新、扩展及应用,每一要素之间相互依赖,如果数据提供者不能充分地提供数据,则数据中介则不能实现数据的再加工,数据消费者无从利用此数据。而数据消费者反馈信息渠道不畅,则会形成单向的信息传递,数据提供者、数据中介所处理的数据缺乏指向性、针对性,影响所生产数据的质量。该理论强调各个数据处理主体之间的有效配合,重视数据的增值作用。
生态学强调生物与外界环境之间协调发展,生态系统的组分结构是指生态系统中由不同生物类型或品种以及它们之间不同的数量组合关系所构成的系统结构。达尔波特所提出信息生态系统构成划分则体现了此思想,认为是由社会、文化、政治子系统构成。同样数据生态被看作是信息生态的一种类型,其应该是人、数据、技术等复杂环境构成的整体系统,被应用到不同领域研究者有不同的认识。开放政府生态系统中,研究者强调其由开放数据提供者及其由政策法律、文化、技术、组织机构、资源等构成的环境、数据使用者、政府构成[12][13]。
图3 基于组合结构的数据生态系统要素
电子政府生态系统由网络通讯基础设施、电子政府、人力资源、政策及规章制度构成[14]。大数据生态系统中,其由5V大数据属性、数据模型及结构、大数据基础设施、大数据生命周期管理(数据流动),大数据安全设施构成。
数据生态系统中,各个要素之间相互作用,共同影响着系统的运行。该理论强调数据管理中各参与要素的关系,尤其是软要素,如政策制度、文化、人员影响,各个要素之间如何有效地交互,使整个数据生态系统趋于动态平衡且可持续发展是研究者关注的重心。
开放数据、大数据的出现,进一步改变了互联网的生态环境。如何利用丰富的数据,发挥数据的价值,提高数据质量成为用户关注的问题。数据生态管理理论的提出及发展,将围绕此核心问题开展的系列研究,无论从数据生命周期管理,还是价值增值链、组合结构角度地分析,都旨在剖析数据生态系统的构成要素,从而为深入分析各个要素之间的互动性奠定基础。
[1]Vickery 1.,G.Review of recent studies on PSI re-use and related market developments.[N/OL].Information Economics,2011[2015-12-06].http://rcc.gov.pt/SiteCollectionDocuments/Final%20Version%20Study%20PSI.pdf.
[2]World Bank.Open data for economic growth[R/OL].2014-06-25[2015-12-14].http://www.worldbank.org/content/dam/Worldbank/document/Open-Data-for-Economic-Growth.pdf.
[3]Pollock R.Building the (Open) Data Ecosystem[N/OL].2011-09-13[2015-2-06].http://blog.okfn.org/2011/03/31/building-the-open-data-ecosystem/.
[4]Davenport,T.H.Information Ecology: Mastering the Information and Knowledge Environment[M].Oxford University Press: New York,1997:106
[5]Detlor B.The influence of information ecology on e-commerce initiatives[J].Internet Research,2001,11(4).
[6]The World Economic Forum.Digital Ecosystem Convergence between IT,Telecoms,Media and Entertainment: Scenarios to 2015[R/OL].2007[2015-11-07].http://www.weforum.org/pdf/scenarios/de_executive_summary.pdf.
[7]Caschera M C,D’Ulizia A,Ferri F,et al.Studying network dynamics in digital ecosystems[C].Management of Emergent Digital EcoSystems.2009:21-27.
[8]Parsons M A,Øystein Godøy,Ledrew E,et al.A conceptual framework for managing very diverse data for complex,interdisciplinary science[J].Journal of Information Science,2011,37(6).
[9]Membrey.Architecture Framework and Components for the Big Data Ecosystem[J].Journal of System and Network Engineering,2013(1).
[10]Deirdre Lee.Building an Open Data Ecosystem - An Irish Experience[C].ICEGOV2014,Guimaraes: Portugal,2014:351-360.
[11]Ponte,Diego.Enabling an Open Data Ecosystem[R/OL].2015[2015-12-13].http://aisel.aisnet.org/ecis2015_rip/55.
[12]Ubaldi B.Open Government Data: Towards Empirical Analysis of Open Government Data Initiatives[J].Oecd Working Papers on Public Governance,2013,27(3).
[13]Zuiderwijk A,Janssen M.Innovation with open data: Essential elements of open data ecosystems[J].Information Polity,2014(19).
[14]L.Abrahams,Innovation in monitoring and evaluation for e-development and transformational government[C/OL].Sustainable e-Government and e-Business Innovations (E-LEADERSHIP),2012:1-7.