赵宇翔,仝 冲,张 妍
互联网的飞速发展推动了开放数据的进程。图书馆、档案馆、博物馆等文化遗产和文化记忆机构作为公共文化服务领域的主体单位,承担着文化资源组织、传播、保存、利用和服务的职责。伴随着知识获取方式和文化服务方式的数字化浪潮,公共文化服务机构在大数据时代面临一系列数字化转型。2018年国务院颁布《科学数据管理办法》,进一步加强和规范各学科领域的科学数据管理并提升科学数据开放共享程度。目前各级政府部门和专业学科在政策引领下开展数据开放与共享工作,并规划建设相应的开放数据平台,进一步推进开放数据应用。然而,公共文化服务机构的开放数据存在体量庞大、结构复杂、形式多样、分散孤立等问题,在开发、利用和深度聚合等方面还存在较大困难,仅仅依靠公共文化服务机构自身的力量还不足以应对在开放数据价值挖掘以及基于公众差异化需求的知识创新服务等方面带来的挑战。
鉴于此,为了更好地利用及深度开发各类开放数据资源,激励更多的公众参与到该过程中,开放数据竞赛(open data competition)模式在一些公共文化机构中得以开展。开放数据竞赛是主办方以推动互联网公共的开放数据的挖掘和使用为目的,旨在收集某一领域对网络开放数据成功应用案例的一种竞赛形式[1]。开放数据竞赛与开源软件竞赛和众包竞赛类似,均以竞赛形式号召相关个体、学术团体和社会各界力量的参与,激发新的服务创意和原型产品(如微信小程序、Apps、交互式信息系统)的开发,最终实现更大程度的开放创新(open innovation)[2]和价值共创(value co-creation)[3]。此外,随着信息技术在公共文化服务等人文社科领域的广泛应用和推广,传统的人文研究也在创新和拓展,一个新兴的交叉研究领域——数字人文(digital humanities)逐渐被学界和业界所关注。数字人文将现代计算机和网络技术深入应用于人文研究和探索,得益于信息时代人文资料的信息化组织、标引、存储、检索和利用,数字人文使传统的人文内容和结构在数字化的情境中得以进一步深入分析和挖掘。面向公共文化服务的开放数据竞赛就是数字人文视域下的新兴模式和研究对象,竞赛作品结合了科技、文化、艺术、历史、文学等领域的素材,充分体现了数字人文的概念内涵和应用外延。
已有学者基于国内外成功的开放数据竞赛实践,对项目运作机制进行初步探索[4]。然而,这部分研究仍然停留在宏观层面,虽然将开放数据竞赛看作一种价值共创模式,但对价值共创过程中多主体参与的协作机制和机理还缺乏深入分析,尤其是忽略开放数据竞赛中竞争性与合作性共存的特点[5]。开放数据竞赛的竞争合作关系是对立统一的。一方面,有限的获奖名额和奖励意味着开放数据竞赛具有天然的竞争属性;另一方面,参赛者在参赛过程中也会收到来自主办方、团队成员以及其他参赛者之间的帮助和支持。从长远来看,在参赛过程中所积累的人脉关系和社会资本也能为参赛者带来更多互利共赢的机会。因此,本文选取上海图书馆数字人文类开放数据竞赛为案例,从竞赛主办方和参赛者的双主体视角,采用社会网络分析的方法探究竞赛各主体之间体现的协作特征。
近年越来越多的政府部门和机构开始向公众开放社会重要领域的数据集,如教育、健康医疗、消费、衣食住行等方面。这些曾经只在政府和公共服务机构内部获取和使用的数据,如今可以通过互联网在诸多平台上公开获得[6]。2009年美国联邦政府发布data.gov开放数据平台,提供上千可以免费获取的政府开放数据集[7]。开放数据的一个重要目标是让公众在使用这些数据集的同时,将他们的创造力和技术能力转换成可以解决现实问题并更好地创造价值的软件应用和产品[8]。随着开放数据在学界和业界的应用和推广,越来越多的学者将开放数据视为开放创新的源泉和新形式。
国外开放数据竞赛起步较早,学者率先对开放数据竞赛进行理论和实践探索[1,9]。Hjalmarsson等提出开放数据竞赛通常指在规定的时间内,参赛者利用开放数据开发出新的想法和原型的一种竞赛形式,逐渐成为刺激新产品开发的流行趋势[10-11]。这种参与形式利用竞争的特点和激励因素(如物质奖励、名声、经验)刺激公众开发更高性能的软件应用[12-13]。从主办方角度,Schottner对不同的开放数据竞赛奖项设置进行对比研究,发现竞拍制和排名制会吸引不同类型的参赛者[14]。从参赛者角度,现有研究集中在参赛者的行为模式上。Bullinger等发现具有较高和较低合作程度的参赛团队会在开放数据竞赛中取得较好的结果,合作程度中等的参赛团队在开放数据竞赛中的结果较差[15]。Huang发现开放数据竞赛的形式可以激发具有更高抱负的人的自我选择,而缺乏自我追求的人则会避开开放竞赛[16]。
国内对开放数据竞赛的探究起步较晚,目前较为知名的开放数据竞赛有上海开放数据创新应用大赛(SODA)、上海图书馆开放数据应用开发竞赛。前者是以提供开放数据集下载的形式让开发者参与到开放数据的数据分析过程中,以更好地解决上海的城市问题[17];后者通过上海图书馆搭建开放数据平台,以应用程序接口(API)的形式允许开发者在个人开发的产品中获取该馆开放数据,实现对开放知识服务模式的应用和创新[18]。赵宇翔等在分析国内外开放数据竞赛的案例基础上,提出开放数据竞赛的运作机制[4],并结合数字人文领域的特色,构建创意类开放数据竞赛作品的评价体系[19]。董行基于开放数据竞赛作品对面向跨语言家谱服务的多元关联数据匹配进行研究[20]。张磊等结合开放数据竞赛探讨面向数字人文的图书馆开放数据服务架构和模式[18]。赵星等以开放数据竞赛作品为例,构建数字人文视域下的人物专题数据库[21]。总的来看,目前对开放数据竞赛的研究更多关注作品本身,而对竞赛中协作和竞争特征的直接探索还较少。
尽管目前在开放数据竞赛中针对群体协作特征的研究不多,然而在很多传统的开放创新环境下开展的相关研究已经为这一主题积累了不少经验,特别是在开源软件和众包等开放情境下。
GitHub是一个面向开源及私有软件项目的托管平台[22],因为支持开源项目并为团队提供协作支持,受到众多开放创新应用开发者的欢迎。许多学者以GitHub为例,探究开放创新过程中的协作行为与协作模式。Cui等通过模拟仿真的方法对开源软件社区的共识主动性协作进行探究[23]。Shah基于开源软件和体育用品的产品开发过程,探索开放创新社区的协作方式[24]。James提出软件工程将会围绕社会技术型协作开展[25]。Enkel等从战略、组织、行为、知识、法律和商业观点及其经济意义方面讨论开放创新开发的现象和趋势[26]。总体而言,一些团队注重通过交流提升团队的协作程度,属于显性协作;一些团队则会非常依赖系统和工作流程,形成一种隐形协作模式,两种协作方式都依赖于团队成员对自己和他人的工作进度的意识(Awareness)[27]。由此可见,现有的开放创新协作行为研究大多聚焦参与者团队内部的协作行为与协作模式,以及开放社群的群体协作行为。
有学者采用竞合(coopetition)概念描述开放创新的竞争与合作共存的关系。Noorda1992年提出“竞合”概念,用于描述诺威尔公司的发展策略[28]。起初竞合被认为是跨组织层面的企业发展战略,随后越来越多的学者将竞合看作一种多层级的理论框架[5]。因此,从广义看,竞合是一种存在于多个主体之间的竞争与合作共存的情况。现有实证研究大多关注开放创新竞争性和合作性的差异,对二者共存特性的解释较少[29]。也有学者从社会依赖理论视角发展开放创新的竞合特征框架,并对不同性质的众包平台竞合特征进行归纳总结[30]。由此可见,竞合共存的特征已经逐渐受到学者的关注[15]。该理论为开放创新的竞合特性提供了概念框架,也为本文奠定了研究基础。基于上述内容,本研究认为对开放数据竞赛这一开放创新形式的探究,需要充分考虑到竞赛的竞合特性,因此将采用社会网络分析的方法,分析开放数据竞赛的案例,以期发现竞赛中各团体之间存在的协作特征。
随着互联网环境的普及和发展,通过微信、QQ、钉钉等即时通讯工具进行工作和学习已经常态化,人们的协作行为也能够通过这些即时通讯工具体现出来。赵蓉英等认为协作的本质是信息的交互,因此对信息交流痕迹进行量化分析可以揭示协作行为的特征和规律[31]。QQ、微信等软件的聊天记录的独到之处是将交流内容和社会关系都记录下来,并且数据结构比较齐整。从社群的角度来看,聊天记录是对社群成员信息行为的“数字映像”,对其交流内容和社会网络关系进行分析有助于探究社群成员的协作行为。社会网络分析可以测量行动者之间各种有形和无形的客观信息,能够通过中心度、集群、小世界等指标更准确地探究成员之间的协作关系[32]。
社会网络思想源于英国人类学家布朗,他认为社会的行动者及其成员之间会构成一种社会关系的集合,即社会网络[33]。一个社会网络是由多个社会行动者构成的点与各个行动者之间关系形成的线组成的网络集合,用点和线来表达网络,是社会网络的形式化界定[34]。在社会网络中,如果几个行动者之间保持紧密联系,就形成了较紧密的关系网络。在互联网时代,虚拟社群不再是空间上被界定的地点,而是由网络成员们根据信息需求和归属感延伸形成的社会网络。通过社会网络,人们在特定的领域实现聚合、分离、竞争和协作行为[35]。社会网络分析被广泛应用于社会学、心理学、教育学、管理学和图书情报学等诸多领域。其中,许多学者采用社会网络分析方法,对QQ群等基于即时通讯软件构成的网络协作关系进行分析,以对知识分享、群体协作等行为进行研究[31,36-37]。Kakimoto等对OSS社群的知识协作行为进行社会网络分析,发现4种具有不同活跃度和模式的协作社群[38]。Van通过社会网络分析的方法对科学家在线协作行为进行研究[39]。可见,社会网络分析广泛应用于在线群体协作的行为探索。
在开放数据竞赛中,参赛者和主办方需要就选题规划与设计、开放数据使用、技术实现、竞赛流程等话题进行充分交流,在交流过程中完成竞赛涉及主体构成的社会网络中各行动者之间的协作行为。基于此,本文采用社会网络分析的方法探究开放数据竞赛中的协作行为。
上海图书馆(以下简称“上图”)开放数据应用开发竞赛迄今已经成功举办4届,2017年获得第14届IFLA BibLibre国际营销奖第二名,其数字人文知识库服务平台还入围LODLAM2017国际竞赛前五名,该赛事正成为具有国际水平的开放数据竞赛。2019年的上海图书馆与CADAL项目管理中心、哈佛大学计量社会科学研究中心、复旦大学图书馆、广州搜韵文化发展有限公司、《全国报刊索引》编辑部、上海创图网络科技等多家数据机构合作,以“老建筑的故事”为主题,面向全社会征集以开放数据为基础的优秀移动应用产品原型或服务创意,以期更加充分地释放开放数据的价值,从而更好地实现知识创新。
上图举办的开放数据竞赛尝试在每一届设置不同的主题并不断吸纳更多的开放数据集。2019年的核心主题是“老建筑的故事”,旨在弘扬海派文化、江南文化和红色文化,推荐了阅读建筑、红色记忆、民国影事、故居旅游、名人掌故、民国书刊、寻根之旅、古今诗词、古籍探索等创意主题,同时鼓励更多的数字人文类创意。竞赛数据主要来源于上海图书馆的数字人文项目开放数据平台。该平台以关联数据(Linked Data)方式向互联网公开发布上海图书馆数字人文项目所用的基础知识库(人、地、时、事、物)、文献知识库(家谱、手稿档案、古籍等)、本体词表和数字人文项目建设过程中所用到的各种数据清洗和转换工具,以及项目组发表的相关论文、课件等资料。开放数据以REST API,Sparql Endpoint,内容协商(Content Negotiation)等方式提供各种数据消费接口供开发人员调用,以促进数据的开发获取、共享和使用。
本届竞赛设置竞赛奖和人气奖两个奖项。竞赛奖项设置一等奖1 名,奖金10 万元(人民币,下同);二等奖2名,各5万元;三等奖3名,各2万元;优秀奖6名,各5,000元。人气奖项设置最佳人气奖1 名,奖金3,000 元;人气奖7 名,各1,000元。整体的奖金达到30万元,是国内现有的开放数据竞赛中总奖金额最高的赛事。
参赛作品形式多样,以微站(移动Web应用)或iOS、Android等平台上的App为主要呈现方式。参赛团队基本由多人组成,提倡团队内部的分工明确及各司其职,1名参赛人员仅允许参加1支团队。参赛团队在报名时须提交真实的个人身份信息,主办方承诺对所有涉及个人隐私的信息予以严格保密,参赛团队报名提交的个人信息仅用于赛事相关程序。参赛团队名单以在官网上提交的报名表为准,不予更改。竞赛评奖的主要依据为作品创新性、可行性、技术含量、交互体验、开放数据利用程度等,具体可详见笔者前期研究[4]。所有竞赛入围作品(含获奖作品)的知识产权归属作者和上海图书馆(上海科学技术情报研究所)共有。参赛作品应为未经发表的原创作品,具有创新性和独特性。竞赛奖项评委由国家公共文化服务体系建设专家委员会专家,图书情报、计算机、大数据等领域的专家,上海图书馆理事会成员,专业媒体和用户代表等组成。
本文以上海图书馆开放数据应用开发竞赛(简称“上图竞赛”)为例,选取该竞赛官方微信群的聊天记录作为本次社会网络分析的数据样本。本研究选取2019年4月23日(竞赛报名起始日期)到2019年9月24日(竞赛公布获奖作品日期)之间在群里至少有一次发言的成员,其中包括78名参赛者与10名上图工作人员共88人。本文通过微信客户端的同步功能将聊天记录的网页版导入计算机中,使用Python对网页数据进行预处理并转化为表格数据,如表1所示。
表1 微信聊天记录格式表
单条微信聊天群记录的结构由ID、时间、联系人、微信号、类型、消息组成。其中消息可以通过“@”的方式确定聊天记录发送的对象,但绝大部分的消息没有采用“@”方式,因此无法确定聊天内容发送的对象。此外,部分表情文字和简单回复缺乏实质性的信息交流内容。为明确聊天记录涉及的主题,以便于后续对群中每一个行动者进行社会网络分析,需要对聊天记录进行编码处理。为了保证编码的客观性和科学性,本文由两位编码员单独对分析单元进行开放编码工作。在编码的过程中,会对同义指标和概念进行合并,并将新的指标和概念添加到编码手册中。
编码结束后对编码的信度和效度进行检验。在信度方面,现有的研究常常选用一致百分比作为检验编码信度的指标[40]。Holdford提出在编码的过程中,会有随机产生的一致性编码结果,仅仅通过一致百分比作为检验编码信度的指标,会因概率一致性的数据导致最终计算的信度结果偏高[41]。因此,本研究选取Cohen's Kappa系数作为检验编码结果的信度指标。Cohen's Kappa系数度量将N个分析单元分成C个类别的一致性程度。计算公式如下:
其中,Pr(a)是观察到的一致百分比,,aii是编码结果中一致的数量,N表示总的分析单元数。Pr(e)是期望的一致百分比,,其中Ri和Ci分别表示编码结果矩阵中第i 个格点对应的行合计和列合计。如果编码员的编码结果完全一致,则k=1;如果编码员除了期望的偶然一致性外没有一致的编码结果,则k=0。通常情况下,k的值大于0.75时,编码结果具有较好的信度。本次编码的Kappa系数为0.87,说明本次编码具有较好的信度。
在效度方面,本研究选取的样本包含竞赛期间所有聊天记录,具有很好的外部效度。两位编码员在遵守编码规则和标准的基础上,合作完成编码任务,保证了编码结果的有效性。部分编码结果见表2。原始的1,895条聊天记录经过上述的编码过程,去除了系统通知、表情符号、语气词和停用词,同时合并了同一语句的多行聊天记录,最终得到524条有效聊天记录。
表2 数据编码表(部分)
为满足数据分析需要,同时隐藏样本真实信息,以在数字代号前添加字母D的方式对不同成员进行表示。编码结果显示,开放数据竞赛微信群主要讨论话题分为技术问题、竞赛流程问题和其他问题,见表3。从表3看出,技术问题占微信群的主要聊天内容,占比69.65%,且开放数据接口占46.37%。由此可见,虽然主办方在5月23日组织统一的线下培训,集中对上图的开放数据平台和开放数据接口形式进行交接和培训,且将培训资料通过线上形式发布给未能参加线下培训的参赛者,但从聊天记录的结果看出参赛者仍然对竞赛的技术问题产生困惑。通过对消息文本进行细粒度分析后发现,如下几方面的问题经常出现:“数据接口能否支持https 协议?”“接口的key传值失败该怎样处理?”“部分数据集没有提供接口。”这些问题说明主办方在技术准备和技术宣传等方面有待进一步深化,主办方和参赛者在作品的设计和开发阶段需要花费大量的时间和精力处理技术性问题,一定程度上会影响整体项目的协作效率。
表3 话题分类编码结果表
关于赛程安排的讨论也具有较高比例,一方面说明赛程是备受参赛者关注的问题,另一方面体现了主办方在重要赛程安排信息传递方面需要强化。在竞赛流程方面,竞赛组队消息占4.96%,甚至高于对评分标准(3.44%)讨论的比例。从下文研究结果可以得知,开放数据竞赛具有很强的社交性和合作性,这与聊天记录分析的结果相一致。为进一步了解上述讨论话题的组成情况,本研究选取了参与次数最多的前20 个人,其中11人属于获奖团队的成员。基于他们的角色和不同话题中的参与程度,结合本次开放数据竞赛的部分获奖情况,探究其在竞赛中的协作行为,具体如表4和图1所示。
表4 部分参赛团队获奖情况表
图1 参赛者参与话题分布图
图1中 的D8、D13、D85、D17、D39、D70为竞赛的主办方人员,其余均为参赛者。其中,D8和D70是负责开放数据接口相关问题的技术专家,D17是负责网站功能和交互方面的技术专家,D13是负责竞赛流程的工作人员,D39是负责联络各参赛团队的通讯员,D85是竞赛主办方总体负责人,这与图1中的结果基本符合,主办方的工作人员基本都在群里负责解答各自的问题。从参赛者角度来看,D63、D65、D87等参赛者主要关注技术问题,其中D65是三等奖团队中的成员,该团队的作品很好地关联了上图的开放数据集。图1还可以看出D33的讨论话题与其他参赛者有着明显的差别,集中在数字人文方面。该成员是一等奖的团队成员,该团队的作品有着非常浓厚的数字人文烙印。由此可见,参赛者在作品设计过程中会通过与主办方和其他团队的成员交流创意,在竞赛中开发出优秀的作品。另外,D87和D53也是一等奖团队的成员。综合来看,一等奖团队的所有成员在官方微信群中都有着较活跃的交流行为,交流内容不仅仅是对主办方的提问,也包括与其他团队的成员在作品的设计、技术的实现等方面进行深入交流。这也证明了开放数据竞赛在参赛团队之间也存在一定的协作和互动行为。
通过对微信群成员的聊天记录条数以及参与不同主题讨论的次数可以衡量微信群中不同成员的活跃程度。然而,上述统计数据尚不能完全展现出不同行动者之间的关系程度以及整个微信群形成的社群成员协作行为特征。鉴于此,采用社会网络分析工具进一步分析成员之间的协作关系强度。借鉴社会网络分析的基本概念和方法,在可视化分析的基础上,从中心度分析、集群分析、小世界效应分析3 个方面,选用可视化与定量研究软件Gephi对开放数据竞赛主体的协作行为进行分析[34]。
图2 参赛者完整社会网络关系图
在对开放数据竞赛微信群进行社会网络分析之前,采用Gephi软件,通过可视化的方式展示社会网络中不同行动者之间构成的关系,并在此基础上进行总体分析。可视化分析结果见图2,位于网络中心位置的有9位成员,其中5位是主办方单位成员,分别为D85、D17、D88、D8和D39;4 位为参赛者成员,分别为D53、D33、D19 和D59。网络以这9 位成员为中心构建起来,其余成员从里向外大体按照4个层级分布。图2中红色的边表示参赛者之间的交流,绿色的边表示主办方之间的交流,灰色的边表示两类行动者之间的交流。处于网络中央位置的5位主办方成员主要和参赛者进行交流,即交流内容以答疑和通知为主。处于网络中央位置的4位参赛者有3位在竞赛中获得较好名次。其中,D53与参赛团队和主办方关系都较为紧密,不仅就选题、技术、流程等问题与主办方进行多次交流,其团队作品也是通过与其他团队以及主办方进行较高程度的协作完成的;另外,竞赛的社交性越强,参赛者们最终的参与意愿会越强。边缘位置的参赛者对竞赛感知的社交性较弱,这可能会影响他们参与竞赛的意愿与积极性。
基于竞赛的部分日志记录数据,下文对参赛者完整社会网络可视化结果进行了简要分析。为了更细致了解开放数据竞赛双方主体的协作行为,将通过中心度分析、集群分析和小世界效应检验对该社会网络的关系和特征进行研究。
学者常用中心度分析方法探究一个社会网络中的个体具有怎样的地位和影响力。中心度指标主要包括点度中心度(Degree Centrality)和中间中心度(Between Centrality)。社会网络中一个节点的点度中心度指的是与其有直接联系的其他节点的数量。一个节点的中间中心度衡量的是任何两点之间测地线(最短路程)与经过该点的测地线比值。因此,点度中心度衡量了一个行动者影响其他行动者发生的能力,中间中心度衡量了一个行动者控制其他行动者的能力。在开放数据竞赛官方微信群中,一个成员的点度中心度越高,则说明他与其他成员的协作性更高,中间中心度越高,则说明其他成员对该成员的依赖性越强。
5.2.1 点度中心度分析
在Gephi中,根据菜单路径“概览”→“统计”→“网络概述”→“平均度”和“加权平均度”进行点度中心度分析,结果按照加权点度中心度由高到低排序,见表5。从表5中看出,点度中心度最高的5 个成员分别为D85、D17、D39、D8、D33。其中,D85、D17、D39、D8均为竞赛的主办方成员,他们具有较高的点度中心度说明在整个竞赛期间,主办方会时刻与参赛团队保持密切联系,从而保证整体的竞赛能够顺利进行。此外,一等奖获奖团队中的成员D33也有着较高的点度中心度,说明在整个竞赛期间,该成员与竞赛主办方以及竞赛的其他团队保持着紧密的联系。根据上一小节描述性统计的结果可知,D33与其他成员的协作体现在对作品主题相关的数字人文话题的讨论行为。
表5 点度中心度计算结果
5.2.2 中间中心度分析
在Gephi中,根据菜单路径“概览”→“统计”→“网络概述”→“网络直径”进行中间中心度分析,结果由高到低排序,具体见表6。表6展示了中间中心度较高的8 个成员,其中D8、D85、D17、D39、D88是竞赛主办方成员,基本囊括了主办方中负责竞赛事务的成员。较高的中间中心度说明主办方的老师们基本上会与群里绝大部分的参赛者都保持紧密的联系,避免遗漏可能出现的咨询问题。另外,D19作为三等奖获奖团队的参赛成员,参与话题讨论的绝对次数不多,但每一次参与话题讨论时,都会面向所有参赛者发表意见,且影响话题讨论的主题。此外,D19还与D53和D87这两位一等奖获奖团队的成员进行交流。后两位也多次就选题、技术、流程等多方面的问题与群其他成员进行交流。该团队在技术上和设计上的很多创意和解决方案都来自于和群内其他参赛成员的讨论结果,由此可见两个获奖团队都充分利用了开放数据竞赛作为开放创新形式的强社交性特点,加强了团队之间协作程度,从而提高最终作品的质量。
表6 中间中心度计算结果
与中心性分析关注行动者在网络中所处位置的角度不同,社会网络集群分析关注的是网络中那些关系紧密的行动者形成的次级团体网络,这种次级团体网络在社会网络分析中被称为凝聚子群(Cohesive Subgroups)[42]。通过对开放数据竞赛官方微信群的社会网络进行集群分析,可以了解到参赛团队与主办方之间的协作关系,以及不同参赛团队之间可能存在的协作关系。
5.3.1 模块化分析
在Gephi中,根据菜单路径“概览”→“统计”→“网络概述”→“模块化”进行模块化分析。如表7所示,整体的社会网络共划分为9个社群(注:加粗为主办方单位成员)。其中,社群9是除前8个社群外的所有成员,人数较多,无统一话题,因此后续的子群分析仅针对前8 个社群。人数最少的社群3 和社群4 仅包含两名成员,且大多数社群是由多个参赛者成员与一个主办方老师形成的。不同的主办方老师所负责的讨论话题有所差异,反映在分析的结果上则是不同的凝聚子群会有较为统一的话题关注点。例如,社群6的成员会围绕竞赛流程等相关问题展开讨论,社群8则会围绕开放数据接口等相关问题展开讨论。此外,同一个参赛团队的成员往往分布在不同的社群中。例如,一等奖获奖团队的成员分别分布在社群3、社群4、社群5中。该现象一方面因为同一获奖团队的成员可以通过线下的交流完成协作;另一方面也说明该团队注重和其他团队的成员进行交流和协作,且每个成员的角色定位明确,会注重不同的话题。通过上述分析可以看出,此次开放数据竞赛注重不同的参赛团队之间的交流,且这些交流往往会在主办方相关人员的引导下呈现主题分化的趋势。在这一趋势下,不同团队之间产生了一定的协作行为。
表7 模块化分析结果表
5.3.2 凝聚子群密度分析
凝聚子群密度(Eternal-Internal Index,E-I Index)是子群密度和整个社会网络的密度之比,能衡量各个凝聚子群内部以及不同凝聚子群之间的紧密程度[43]。该指标取值范围为[-1,1],指标越靠近1,说明行动者之间的关系趋向于群体之外;指标越靠近-1,说明行动者之间的关系越趋向于群体之内;指标趋向于0说明不存在明显的子群划分的趋势。本模型的凝聚子群密度为0.631,接近于1,说明凝聚子群的现象较明显,且不同群体之间的交流和协作较频繁。上述结果进一步说明了开放数据竞赛具有很强的协作性,不同参赛群体之间也存在明显的协作行为。
小世界效应(Small World Effect)是“六度分割理论”在社会网络中的体现。考虑一个无向网络,定义L为节点对之间的平均最短路径,则L通过式(2)计算。dij是节点i到节点j的距离,如果两个节点不可达,则距离为无限远。
一个满足小世界特性的网络应当满足在所有情况下,L的值都远比节点数n要小[43]。一般情况下,L的值会介于1到7之间,最多不会超过10。在微信群成员构成的社会网络中,如果存在小世界效应,则每产生一个新的话题,都应当迅速引起相关的成员关注。
在Gephi中,根据菜单路径“概览”→“统计”→“边概述”→“平均路径分析”对微信群成员之间的平均距离进行计算,从而验证微信群的社会网络小世界特性。经过计算,该网络的平均距离L为1.78,说明在微信群中每个成员之间仅需1.78个人就能联系起来。根据小世界理论,此开放数据竞赛的微信群是具有显著小世界特征的网络,也反应了该微信群具有较好的信息交流模式和良好的协作氛围。
经过上述社会网络分析,本文认为上海图书馆开放数据应用开发竞赛具备优秀的实践经验,体现在如下的协作特征中。
(1)主办方群体在竞赛过程中参与程度高、分工明确、协作能力较强。D8、D85、D17、D39、D88是主办方成员,他们具有较高的中心度,分别负责技术问题、竞赛流程问题和其他问题等话题,并作为参赛者团队的子社群成员针对不同的话题参与协作。主办方在开放数据竞赛中扮演的不仅仅是组织者的角色,还需要在作品主题的选取、开放数据集的筛选、开放数据接口的提供和技术支持、赛制流程优化等方面实时为参赛者群体提供帮助。同时,主办方群体内部之间也存在一定的分工和协作,如安排不同的人员负责竞赛宣传、参赛者招募、开放数据技术支持等工作。社会网络分析的结果证明,主办方群体在竞赛的过程中基本具有较高的参与程度,且和活跃程度不同的参赛者都保持一定的联系,在参赛者团队需要协助的时候能实时提供帮助。
(2)竞赛成绩靠前的参赛团队成员具有较强的协作程度,且团队内部有明确的角色分工。获奖团队T1、T2、T3 中的D87、D53、D33、D9、D65、D19成员均具有较高的中心度,说明他们与整个开放数据竞赛网络的行动者们之间关系较为紧密。此外,同一团队内部的参赛成员往往具有明确的角色分工,针对作品主题、开放数据集获取与使用、产品设计、产品开发等不同的工作内容有不同的人员负责,他们各自通过官方微信群与其他团队成员以及主办方成员进行深入和密切的交流,实现竞赛过程的协作。
(3)不同参赛团队之间存在明显的协作行为,且基于不同的话题类型形成了相应的子社群。通过集群分析,本研究发现了8个凝聚子群社群,这8个社群包含来自不同参赛团队和主办方的社群成员,这些社群分别就开放数据接口、网站技术、竞赛推广、竞赛主题、竞赛组队、评分标准、赛程安排等问题形成主题话题。开放数据竞赛强社交性的一个体现在于不同的参赛团队之间也存在明显的协作行为。虽然团队之间本身存在一定的竞争性,但通过彼此之间的团队协作可以完成更好的作品,达到互利共赢的局面。在本开放数据竞赛案例中,优胜的参赛团队之间具有紧密的联系,往往就选题和技术等多个方面进行沟通和交流,通过这种协作让彼此都能取得更优异的成绩。在这种协作过程中,面对不同的话题,他们还各自形成了一定的子社群,并在主办方成员的辅助下,达成更深层次和多元化的协作。
(4)竞赛成员之间的关系比较紧密,信息交流比较通畅。本案例竞赛成员构成的社会网络具有明显的小世界特征,平均1到2个人的距离就可以实现信息快速传达,即社群中处于边缘位置且与其他参赛成员以及主办方交流较少的个体也能够在这个网络中快速地传达和分享信息。微信作为一种即时通讯软件,群聊天提供了一种成员之间无障碍通讯的环境,然而很多成员由于熟悉程度并不会积极参与所有成员和所有话题的讨论和协作,即使同处在一个微信群中,处于较远距离的两个社会网络节点成员也需要通过他人传达信息和分工协作。因此,如果主办方采取一些措施鼓励参赛者们参与交流以及和其他成员进行协作,那参与者之间以及参与者和主办方之间会很容易构建起相应的协作网络。
研究发现,开放数据应用竞赛存在着明显的竞合特征,协作关系不仅体现在各个参赛团队中,也体现在参赛团队之间,以及团队和主办方之间。因此,竞赛的主办方应当加强对竞赛社交性和合作性的宣传,在赛制设置上也应当鼓励团队性,如采用多元化竞赛的评判标准,鼓励团队配置产品、数据、设计、开发等不同类型的人才,从而激励人才复合型的团队参赛;在竞赛宣传的早期,公开竞赛官方的微信、QQ或论坛等社交平台,吸引用户和有参赛意愿的人员加入相关话题的讨论,重视早期报名的参赛者在二次宣传上起到的重要作用,鼓励他们在线上和线下进行宣传,如设置特别的贡献奖项激励参赛者们在参赛的同时积极参与竞赛的宣传工作,同时告知参赛者招募更多的参赛者有利于多元化的团队配置,完善自身的作品;在竞赛宣传的中后期,鼓励参赛者在官方群中进行跨团队的交流和协作。开放数据竞赛的主办方应当充分利用竞赛的竞合统一性质,为参赛者提供良好的协作环境,提出互利共赢的协作理念,鼓励跨专业的协作行为。
本研究结论有助于揭示开放数据竞赛运作模式中的“竞合”特征,并对公共文化服务机构如何更加有效且高效地开展开放数据竞赛提供了对策和建议。未来研究工作将从3个方面进一步开展。首先,结合社会依赖理论,对开放数据竞赛竞合特征下各主体的社会互动和依赖性进行探索。其次,结合问卷、实验等方法,进一步对开放数据竞赛的参与者协作行为进行实证分析。最后,结合价值共创理论,深入分析开放数据竞赛的价值链和共创流程,探索开放数据竞赛的价值创造机理及群体协作机制。