孙金娟,郑建明
公共文化服务大数据是公共文化服务机构开展各种活动所需要和产生的、以用户为中心的多源异构大规模数据[1],不包括公共文化产业数据,是狭义范畴的公共文化大数据。公共文化领域已经积累了丰富的原始数据资源,为公共文化服务大数据的开发利用提供了基础。公共文化服务大数据除具有数据资源规模庞大、数据结构复杂、数据更新快和数据价值逐步显现等特征外[2],还呈现出显著的多源多维特征。公共文化服务大数据的来源机构多样,主要包括公共文化系统内部(图书馆、博物馆、文化馆等)和系统外相关组织机构(政府、学校、信息产业等)。随着信息技术发展,一方面,图书馆等公共文化机构建立了完善的信息管理系统,这些机构的各项系统、设备和服务本身每天都在生产大量数据,最具代表性的就是资源数据和核心运营数据;另一方面,物联网、人工智能、可穿戴设备等现代信息技术和设备广泛应用于人类生产生活领域和各种场所,生产了海量的用户行为数据;网民在网络上的所有活动足迹也是主要来源之一。除数据来源广,公共文化服务大数据还呈现出显著的多维特征。多维特征体现的是公共文化服务大数据的复杂性和应用多样性,是基于情境对公共文化服务大数据的全景揭示和复杂观察,目的是为满足用户个性化、多样化的信息需求。本文从3个方面对多维进行理解:第一是多视角,不同的人对同一对象或同一场景有不同的描述或理解,即可以用不同的数据来对同一个场景或者对象进行描述;第二是多方法,指的是对多源数据使用多种方法进行融合、进行多种关系的融合、从多个研究的视角进行融合,发掘数据之间的多重关系;第三是多主题,不同地域、民族和社会形态的公共文化,有着自身特色[3],形成具有区域特色的多主题数据维度。此外,跨域(跨界)融合也是公共文化服务大数据的典型多维特征。
公共文化服务大数据开发的价值在于挖掘数据背后的隐性知识,发现事物发展规律,支持组织的战略分析与决策。为实现多源多维数据管理、共享和重用的目的,需要构建一个标准统一、跨行业、跨区域、跨部门的综合性公共文化服务大数据分析平台,聚合多源异构的公共文化服务大数据。大数据分析平台要实现多源多维数据的采集、清洗、存储、管理、共享和利用,构建一个系统、统一的公共文化服务大数据分类体系至关重要,也将成为公共文化服务大数据质量控制的重要环节。本文在分类理论与方法的指导下,尝试构建基于多维组合的公共文化服务多源数据分类体系框架。
分类是人类认识世界的基础,通过分类过程建立对象实体的身份[4]。对公共文化服务大数据进行分类是对公共文化服务大数据实施科学管理、实现公共文化资源共享的前提,是公共文化服务大数据标准化建设和质量控制的重要工作。但国内外关于公共文化服务大数据的分类研究非常少。国外没有公共文化服务概念,更没有公共文化服务大数据概念[5],国内关于公共文化服务大数据的分类研究也比较零散。吴素舫和柯平[6]从基层标准、技术标准、管理标准和应用与服务标准4 个方面构建了文化大数据标准规范体系,但未对数据分类体系的构建展开论述。其他关于公共文化服务大数据的分类研究主要基于以下两种视角:
第一种是基于数据内容主题的划分。李广建等[1]划分了4个层次:核心数据、业务辅助数据、管理数据和支撑数据;刘炜等[7]划分为资源大数据和运营大数据两类;赵嘉凌[8]划分为辅助服务数据、用户数据和平台运行数据;郭路生等[9]划分为公共数字文化资源、公共文化活动大数据、公共文化场馆大数据、公共文化交流大数据等。基于数据主题的分类采用等级列举式的分类方法,呈现简单扁平化特点。为尽量减少数据分类层次,分类目录大都只有一、二级的深度,类目边界、内涵不清,缺少系统性和全面性,分类深度和精度达不到数据共享和重用需求。数据分类深度不够直接导致语义信息描述不完整,数据精度不够就无法准确识别数据,尤其是在用户数据需求不明确、对数据不了解的情况下,这种扁平化、缺少深度和精读的分类方法成为公共文化数据管理和共享使用的主要障碍。
第二种是基于数据维度的划分。嵇婷等[10]依据4种不同的维度对公共文化服务大数据进行类型划分:(1)根据机构和服务类型不同,分为图书馆大数据、博物馆大数据、文化馆大数据、科技馆大数据、美术馆大数据等;(2)依据服务平台不同,分为传统文化服务大数据和数字文化服务大数据;(3)依据信息类型不同,分为资源数据、用户数据、运行服务数据、用户行为数据;(4)根据数据结构不同,分为结构化数据、半结构化数据和用户行为数据。此外,还可依据数据来源不同,划分为业务数据、网络数据和管理数据。这种基于数据维度的划分具备多维数据分类的初步特征,但只是就分类结果进行简单列举,未对分类方法和分类过程展开详细论述,未脱离等级列举式分类方法局限。
本研究选择分面组配式分类法来构建公共文化服务大数据的分类体系框架。分面组配式分类法是以《冒号分类法》为代表的系统化分类理论[11]。它的核心理念是依据概念分析与综合组成“分面—亚面—类目”的分类结构体系,通过各分面内类目之间的组配来表达信息资源主题[12]。分面分类法具有组配能力强、标引结果专指性高、适应新主题与复杂主题标引等优点,其内含的多维视角与多元表达理念与大数据时代的多源多维数据融合理念达成高度一致。继承其基本原理并面向公共文化服务大数据等领域数据的主题呈现与价值开发,可实现面向用户、机器可读、自动组配等大数据分类设计目标。本研究借鉴了分面分类法的基本方法和原理,并为了适应网络环境下数据分类的特点和操作便捷性,对该分类法进行了简化和改造,具体包括主题领域、基本维度结构、分面组配3个方面。
基本部类是对信息组织的对象所做的最本质、最概括的划分,对基本部类的划分是分类法开展的基础[13]。大数据分类虽然与传统的信息资源分类有很大不同,但对数据进行主题领域分析、构建基本部类仍然是数据分类的基础和起点。根据马克思主义哲学理论,人在本质上是社会关系的总和,社会关系中的个人才是构成社会的基本实体[14],因此可以认为公共文化服务大数据本质上就是关于人的数据,人就是公共文化服务大数据的主要实体。可以把公共文化服务大数据的基本部类以人为中心归纳为人和物两大范畴,其中人的数据划分为人的客观属性数据、主观感受数据、行为轨迹数据;物的数据划分为资源数据、基础数据和管理数据,是服务于人、产生于人、与人间接相关的数据。主题领域的分类情况及其说明见表1。
将前文提到的公共文化服务大数据分类研究成果与表1中的主题领域进行比对发现,本研究提出的公共文化服务大数据主题领域划分可以很好地容纳不同维度的分类目录,具有一定的适用性与合理性(见表2)。
表1 公共文化服务大数据主题领域表
表2 公共文化服务大数据分类研究的大类对应表
分面就是把观察到的事物的某一共同属性抽取出来概括为一个维度,并依据该维度聚集一组类目,这一组类目就组成一个分面[15]。事物不同的属性形成不同的维度,不同的维度组成不同的分面,所以分面划分本质上是对事物的属性认知划分,也就是维度划分。传统分面分类法中并无维度概念,本研究根据大数据的特征和使用习惯,用维度代替分面分类法中范畴的概念。维是一种度量,简言之,0维是点,1维是线,2维是平面,3维是立体空间,4维是时间,静态系统通过点线面体的空间维进行描述,而动态系统就必须加入时间维度[16]。无论是古代朴素的整体思想还是现代对复杂系统的定量研究,都离不开维度的概念,多维分类的思想其实早就根植于信息组织的思想和方法当中[17]。不同行业在数据分类的实践过程中总结了灵活实用的维度结构,如面向水利科学数据的“科学属性、获取方法、数据载体、时空特征”维度结构[18]。公共文化系统是一个复杂的综合性系统,公共文化服务大数据类型多样,维度众多,各维度之间的关系复杂。错综复杂的维度关系影响了数据价值的发挥,因此,公共文化服务大数据分类框架的构建并不致力于穷尽所有维度,而是要在参考其他分类维度结构的基础上,根据主题分析寻找最能概括数据特征的维度,初步概括为4个最基本的维度:内容描述维、获取方式维、时间维和空间维。
2.3.1 内容描述维
内容描述维描述的是分类对象(主题领域)的内容特征,根据不同用户的不同需求,可以设立一级类目、二级类目甚至更多。例如主题领域之人的客观属性数据,其一级类目可以包括姓名、性别、学历、年龄等;一级类目学历可以生成二级类目:专科及以下、本科、研究生;二级类目研究生还可以生成三级类目:硕士研究生、博士研究生。如有必要,还可依据授予学位的学科不同,生成四级、五级类目,直至与用户的搜索目标匹配。现代信息处理技术无需考虑类目深度造成的标识复杂,只需以满足用户需求为标准。
2.3.2 获取方式维
获取方式维依据数据的获取方式分类,如调查数据、统计数据、测量数据、传感器数据。随着信息技术发展和传感器的普遍应用,公共文化系统中的人和物不断数据化,极大丰富了公共文化的数据量[19],统计数据、测量数据、传感器数据成为公共文化服务大数据的主要来源,然而传统问卷调查等方式生成的调查数据仍然重要,如人的主观感受数据虽然也可以通过数据建模与算法从人的行为轨迹数据中推测与模拟,但问卷调查与访谈等方式获取的调查数据将更准确和直观。
2.3.3 时间维与空间维
时间维和空间维共同描述定位数据的时空情境。前者是与数据直接相关或间接相关的各种主题现象发生、发展的过程与周期,划分尺度可以是某个时间点或某个时间区间;后者是与数据实体相关联的空间位置,能以区域或省为单位,也能以具体图书馆或博物馆为单位。两种维度的粒度都可依据用户的数据需求进行缩放。世界图书馆网站(WDL)和美国公共数字图书馆网站(DPLA)都提供按时间线和互动地图进行资源的可视化浏览:用户点击某个时间点或某个地点就可方便获取在此时或此地发生的所有数据资料,有助于帮助用户对数据内容的理解和意义的建构[20]。
以上4个维度是主题领域共有的、最基本的维度,每个主题领域还可以提出自己的特色维度,可以细分二级主题、三级主题等,每级主题都可以根据面向用户对象的不同,依据用户需求的不同形成不同的维度结构,最终生成不同层级的分面类表。为了表达的简洁性,这些维度在进行公共文化服务大数据分类体系的框架设计时不予展开,应用时可根据需要进行扩展或调整。
分面组配是以主题为轴,与其他组面按照一定次序排列,形成对主题的多维度阐述[21],其分面组配方式如图1所示。换言之,主题是个相对比较特殊的维度。在传统分类法中,主题维一般都是核心维度,其它维度可称之为是为进一步描述核心维度的边缘维度。对于用户来说,数据维度没有主次之分,只要是自己需要的,数据主体的任何维度都有可能是核心维度,如上文提到的时间维和空间维。公共文化服务大数据的分面组配就是以分类对象的某一维度为轴,与其他维度构成的分面一起组配组成分类体系。多源多维数据分面组配并非要把来源于不同系统,不同渠道,不同结构的数据简单合并,而是要根据不同的目的和情景需求把相应的数据内容整合并分析,集成一体,化繁为简,化难为易,将海量复杂的多维数据可视化,实现高低维间的协同转化,为决策所用。
图1 分面组配图
基于前文对主题领域分析、维度和组面的确定、分面组配的分析,本研究设计的公共文化服务大数据分类体系框架由主题领域、基本维度结构和分面组配三大部分组成,其概念模型如图2所示。在该分类体系框架的指导下,可以编制形成公共文化服务大数据目录,使多源公共文化服务大数据映射至该数据目录中,经标识后被计算机和人工识别与处理,实现高效率的数据检索、存储、共享和服务。
本分类体系框架为公共文化服务大数据分类提供思路,是开放和自适应的,并非一成不变,应充分考虑不同数据管理、应用与服务的情境需求和数据源特征,尤其是要考虑用户需求。无论是主题领域的确定还是基本维度结构的设计,都要围绕着收集与理解用户显性公共文化需求、发现公众隐性文化需求、促使隐性文化需求向显性文化需求转变,为用户提供智慧公共文化服务这一最初的出发点和最终目标,为用户正确认识数据和有效发现数据提供帮助,同时为计算机系统准确标识和著录数据做好准备工作。
公共文化服务大数据分类体系框架主要面向各类公共文化服务大数据服务平台,为其数据组织架构和用户数据检索路径规划提供参考。只有经过科学分类的数据才能被准确标识和著录,然后才能被分析、计算或挖掘[22]。现以国家公共文化云的资源数据分类实践为案例对公共文化服务大数据分类体系框架做进一步分析。
图2 公共文化服务大数据分类体系框架的概念模型
2017年11月国家公共文化云开通[23]。国家公共文化云是统筹整合全国文化信息资源共享工程、数字图书馆推广工程、公共电子阅览室建设计划而推出的,是文化共享工程在“互联网+”时代抢占移动服务的3.0版。国家公共文化云作为国家公共文化服务的大数据平台,目的是为了整合全国的公共数字文化资源和数据。国家云与其他地方公共文化平台的对接主要分为4个层面:端口互访、资源数据对接、统计数据对接和用户数据对接,其中资源数据的分类、标识和著录形成了一系列的标准规范,包括《国家公共文化云平台标准规范1:数字资源知识组织分类标准规范》[24](以下简称《标准规范1》)、《国家公共文化云平台标准规范2:数字资源唯一标识符规范》[25]、《国家公共文化云平台标准规范3:数字资源加工格式规范》[26]和《国家公共文化云平台标准规范4:数字资源元数据标准规范、交换标准规范及著录规则》[27]。《标准规范1》依据资源内容把公共文化资源数据分为12个基本大类,如表3所示。其中,B-P 为主体类目,W为资源类目,Z 为地区与民族语言类目。每个大类设置若干二级类目(如果必要可以扩充三级类目)。资源数据的分类组织整体上采用“列举-组配”相结合的编制方式,主体类目以列举的方式层层展开,对多重属性的数据采用复分、仿分技术深度揭示,必要时利用超文本链接技术重复反映,多维揭示。此外,为方便计算机自动处理,该分类标准对每一级类目都赋予了代码,并采用字母和数字混合号码的方式对类目进行统一编码。
国家公共文化云平台对资源数据的分类组织标准与本文的公共文化服务大数据分类体系框架理念一致,均采用多维结构和多维处理技术实现对多重属性对象的多维揭示。《标准规范1》的编制目标是建立分类查检工具,供浏览检索。基于此目标,国家公共文化云平台资源数据分类体系舍弃了不便于浏览展示的获取方式维和时间维,增加了与数据主题密切相关的文献类型维和民族语言维。在公共文化服务大数据分类体系框架的概念模型的指导下,构建国家公共文化云资源数据的分类体系框架(见图3),其中主题领域为资源数据,设置的4 个分面维度分别是内容描述维、文献类型维、空间维和民族语言维。主题领域与4 个分面维度通过分面组配,可以科学、便捷、多维度地揭示复杂的公共文化云资源数据,表述更简洁、层次也更清晰,混合号码的编码方式同样适用于公共文化服务大数据分类体系。
表3 国家公共文化云平台资源数据组织分类基本大类表
图3 国家公共文化云资源数据分类体系框架
公共文化云资源数据可归属于主题领域:物的数据-资源数据。资源数据主要来源于各公共文化机构购买或自建的数字图书馆,除了图书、期刊等之外,还包括电影、电视剧、歌曲、戏曲等。资源数据是公共文化机构开展服务的基础和前提,是公共文化领域最核心的数据,也是公共文化领域管理最完善的数据,因此成为国家公共文化云平台首先整合与共享的数据类型。
分面维度的内容描述维设立多级类目,图3框架中列举前两级类目,其中B-P 为一级类目,是根据公共文化系统的性质,结合资源数据的内容,大体按照文化、社会、科技的次序设类:B、D、E 属于文化层面的类目,F、G、H、J属于社会层面的类目,M、N、P 属于科技层面的类目。二级类目是对一级类目的进一步细分,如一级类目B文化可细分为公共文化、传统文化、地方文化、民族文化。根据用户检索浏览需要,这些类目还可进一步细分,但要综合考虑整体门类划分的均衡和资源数量支撑。文献类型维、空间维和民族语言维3 个维度是根据资源数据的性质,从国家公共文化云平台资源数据基本大类表的W、Z 类目拆分出的,提供从资源类型、地区、民族语言等角度的资源揭示。
国家公共文化云资源数据分类体系框架分面维度的划分与本文提出的公共文化服务大数据分类体系框架的概念模型(图2)并未一一对应:未使用获取方式维和时间维,增加了文献类型维和民族语言维。一方面这种不一致体现了图2概念模型的开放性与自适应性;另一方面也说明该分类体系有进一步提升的空间,如资源数据的获取方式维和时间维虽然可以在数据组织层面通过调用对应元数据的相关元素予以揭示[27],但是却失去了揭示的直观性和用户获取的便捷性。
公共文化服务大数据的分类研究与其他行业数据尤其是自然科学和工程技术科学领域的数据分类研究相比稍显滞后,目前还未形成公共文化数据相关的标准文件。事实上,不仅公共文化数据研究的成果较少,整个人文社会科学领域的数据研究都远远落后于自然科学和工程技术科学领域。公共文化数据研究属于人文社会科学范畴,其研究对象往往具有主观性和模糊性的特征,学科交叉频繁,数据来源广泛,其数据呈现系统异构、结构异构、语法异构和语义异构等特点,其开展研究的原始数据和结果数据多少存在不一致、不完整、不可靠等问题[28]。所以,虽然有大量科研人员从事人文社科研究,并通过观察、监测、考察、调研等研究获得大量的有价值的研究原始数据和结果数据,但由于缺少科学、系统、完整的数据分类体系,无法完成对数据集中统一的语义描述,成为数据发现、共享和重用的障碍。因此,开展公共文化服务大数据的分类研究不仅对公共文化服务大数据本身,对人文社会科学其他领域的数据研究也具有参考和借鉴价值。本研究还存在一些不足,主题领域的确定和基本维度结构的设计还是基于单个案例而进行的实证,后续研究将在此基础上通过问卷调查、专家访谈等方式对概念模型进行验证与修订。