贾君枝
(中国人民大学信息资源管理学院,北京 100872)
语义网技术的发展推动关联数据集不断出现,关联开放数据云(linked open data,LOD)项目2018年6月的数据集已达1 224个,链接数16 113个[1]。随着数据集的增长,数据的重用、消费不断发生,而数据质量在一定程度上会影响用户的使用效率,判断数据质量成为数据消费之前的一个重要决策,数据质量评估应运而生。由于不同的评估主体参与、采用的评估指标体系差异,单个机构的评估结果并不完全可信,而且这些评估结果并没有伴随数据集而存在,导致用户获得质量评估数据的难度增加。因此,有效地记录数据质量的不同维度信息,调动多个机构参与到数据质量评估建设中,对于数据消费者而言将可能获得各个层面的数据质量信息,为其数据集的选择判断以及对于数据发布者及开发者的信任度提供充分的数据支持。因此有效地描述数据集在不同阶段产生的各种类型的数据质量信息,对于数据生产者、开发者、消费者各个主体而言,都具有重要价值。
基于此,2004年2月W3C专利政策运营小组编制数据质量词表,并由Web最佳实践工作组发布数据。该词汇表旨在使发布、交换、消费高质量元数据变得更为容易,能够记录数据各个生命周期阶段关于数据质量的元数据信息,以帮助用户进行有效的选择与判断。本文旨在研究不同参与主体可能产生的数据质量信息,通过数据质量词表来客观地记载这些信息,以形成关于数据质量事实链,实现数据的追踪与利用。
2009年,Berners-Lee[2]提出关联数据的“五星标准”,旨在提高关联数据质量。随后Hoxha等[3]提出“绿色关联数据”的原则,魏来等[4]基于“绿色关联数据”总结出包括内容、表述、系统与应用的关联数据质量标准总框架。德国莱比锡大学Zaveri等[5]提出针对关联开放数据云图的数据质量评估框架。王振蒙等[6]利用RDF词汇、URI有效性等指标对5家国家图书馆发布的图书关联数据集进行分析和评估。Wei等[7]认为目前缺乏基于数据质量词表的数据集质量标注工具的系统研究,提出可视化用户接口以实现对数据集的质量标注。可以看出,关联数据质量评价日益得到重视,但如何有效地描述数据质量评价结果并未在相关研究中提及。
数据集的数据质量形成源于不同主体的共同参与,这些参与主体有数据提供者、数据质量评价者、数据消费者。除这些主体外,数据质量形成还依赖于一定的数据质量政策与法律。
数据提供者指收集、发布数据的机构,负责数据的更新与维护管理,旨在提高其声誉及社会参与度。数据提供者作为数据来源机构,由于各机构所提供的数据量较大且结构各异,对数据本身的理解、描述存在偏差,所发布的数据源可能存在不一致、相互矛盾及冲突。显而易见,关联数据同一般数据相比,具有自身的特点,其质量主要取决于数据提供者,质量层面包含的主要内容有数据集元数据信息(数据集的大小、发布机构、主题等)、数据模型(类、属性定义)、数据格式、数据发布状况(如发布时间、更新频率、是否接受用户修改等)、数据获取方式等。
数据质量评价者对所发布的数据集进行评价,获得的评价结果可以为数据消费者提供选择参考。通常数据质量评价者选择要评价的数据集须依据一定的数据质量评估体系,对各指标进行量化计算以获得可信度高的结论。数据质量评价者包括第三方评价机构、个人,通过对各类数据集的评价打分、排名,旨在获得高质量的数据集供用户选择使用。评价过程中,选用不同的数据质量评估体系决定评估的结果。ISO/IEC 25012将数据质量分为内在质量和系统依赖质量两大维度[8],共包括15个指标。内在质量有准确性、完整性、一致性、可信度、现时性,系统依赖质量有可检索性、准确率、保密性、效率、遵从性、可用性、可理解、可追踪、可携带、可恢复性。针对关联数据的数据质量评估体系,目前较权威的是Zaveri等[5]提出的指标体系,且将其分为存取性、内在性、上下文、表示四大维度。存取性包括可用性、授权、链接、安全性、性能,内在性包括语法验证、语义准确、一致性、简洁性、完整性,上下文包括相关性、可信度、可理解性、及时性,表示包括简洁性、互操作性、可解释性、可视化。
数据消费者不仅浏览数据,而且贡献、提供质量反馈。他们可以编辑数据,实现数据的纠错及其更新,有助于数据的维护;此外,他们也可对数据提供评论、标注。通过有效的反馈环节使数据质量趋于完善。数据消费者是关联数据集的最佳实践者,作为数据集的使用对象,他们有权且最有资格对数据质量进行评价监督,通过对数据质量反馈信息以保证数据质量处于不断上升状态。有效地设置由数据消费者参与的关联数据质量反馈环节,采用多手段积极倡导消费者参与,及时地搜集用户反馈信息,将有助于关联数据的质量提升。
关联数据集自身并不包括对其数据质量的描述,有效地记录不同主体所参与的数据质量活动,将成为获得数据质量、追踪数据质量的重要依据。为保证描述记录的可理解性、可操作性,需要制定专门型词表对其表示。因此,W3C的Web数据最佳实践工作组于2016年正式发布数据质量词表(data quality vocabulary)[9],其有机地记录数据的评估过程及其结果,反映了用户反馈。
2.1.1 数据目录词表的扩展
数据目录词表(data catalog vocabulary,DCAT)作为网络数据目录的互操作词表,旨在实现不同格式的数据共享与交换[10]。DCAT主要用于表示政府数据目录,定义了3个基本类,即目录、数据集、发布方式。目录定义了目录名、发布者、时间、地点、语种、所包含的数据集,数据集定义了数据集名称、发布者、关键词、描述、时间、地点、语种,发布方式定义了数据集的授权、存取URL、类型、格式、大小。DCAT词表对数据集的基本发布状况进行准确且较全面的描述,为数据质量词表的制定奠定了基础。但数据质量词表只侧重于对数据质量进行描述,关于描述对象数据集本身则应用DCAT词表,其所定义的数据质量类与DCAT词表中的目录、数据集、发布方式息息相关,实际是对数据集的质量元数据进行描述。
2.1.2 数据质量描述框架的确立
数据质量描述词表提供了数据质量描述框架,定义了数据质量描述中所涉及的类、属性、实例,构建了不同数据集质量描述的概念模型,为基于数据质量的各种应用提供可能。从其描述内容看,定义了数据质量评价对象、评价所采用的指标体系、评价结果值、评价政策及遵循的标准、用户反馈等,对数据质量评价过程及评估方法进行准确记载,并明确各个实体类间关系,以鼓励不同人员参与数据质量评价,全面地反映评价者的观点、评注及其相关证据。这些有助于帮助数据消费者进行选择判断。但是,其并不关注数据本身的质量问题,不对数据质量进行评价;其旨在实现用户及机器对这些质量数据的解读,有助于用户对数据集进行标注、评价、比较、选择,追踪数据质量的动态变化状况,为后期数据集成应用提供参考。
2.1.3 重用其他词表
数据质量词表构建并不是从零开始,而是在充分吸收现有多个词表的基础上发展而来,以实现最小成本构建。各个词表共同表述数据集质量信息,相互补充构成对数据集质量活动的完整描述。因此,除了定义自身特定的类及属性(命名空间定义为dqv),其重用了其他本体的类及属性作为描述构成。重用的本体有数据目录词表(DCAT)、都柏林核心元素集(DCMI)[11]、数据集使用词表(DUV)[12]、简单知识组织系统(SKOS)[13]、数据起源(PROV)[14]、Web注释词表(OA)[15]、ODRL词表[16]、数据立方体词表(QB)[17]等。数据目录词表用于定义数据集的特征信息,明确数据集对象。都柏林核心元素集用于描述通用类型的数据,如数据集的标题、数据标准。数据集使用词表描述了消费者关于数据集的使用经验、引用及其反馈信息,定义了评价反馈、使用、使用反馈、使用工具等基本类。数据起源描述了数据集产生、修改、拥有及其他影响的元数据,定义了实体、活动、代理3个基本类,用以追踪对数据集所产生影响的人员、活动及变化,如数据质量标准与评估体系之间的使用及生成关系采用此定义。简单知识组织系统定义了共享与链接知识组织系统的模型,提供了知识组织系统中概念及概念之间关系、不同词表映射的表示词汇。ODRL词表旨在发展促进开放式国际政策语言表述,支持发布、分配、消费内容、应用及服务中数字资产的透明且创新式使用;涉及政策类型,允许、禁止的职责行为,所扮演的功能角色、数字资产关系。Web注释词表定义了有效表达标注行为的互操作框架,用来描述关联数据环境下用户对网络数据的评注行为,客观记录评注人对评注对象所实施的评论、选择等活动。数据立方体词表用于交换及共享统计数据及元数据。
数据质量词表只定义了自身的核心类(如质量评估、质量标注、用户质量反馈、数据质量元数据),其他类都来源于其他词表。同时其将核心类通过子类、子属性关系与其他词表建立联系,如数据质量标注类放于OA词表的标注类下,评估的结果放于QB的数据集类下,这些为实现多个词表的互操作提供了可能,旨在充分发挥数据网络的价值。
数据质量词表实施的评估对象是数据集,主要记录对数据集所开展的质量评估、标注、元数据等一系列质量管理活动。
2.2.1 数据质量评估
数据质量评估需要明确所制定的数据质量政策、采纳的数据质量标准及其所应用的数据质量评价指标体系。数据质量政策指导数据质量活动,为其提供行动准则,通常包含目标、背景、范围、角色及职责、政策声明及定义。数据质量标准是保证数据质量管理活动具有可控性的重要手段,旨在形成跨国家、组织的统一性数据质量管理方法,以实现数据存储、传递和共享,促使各评估机构遵循统一的数据质量评估标准,在一定程度上降低数据质量评估成本。数据质量标准通常定义满足数据质量需求的一系列特征,对其进行解释说明并分层展示,实际上为数据质量评价提供指标体系。数据质量评估是依据数据质量政策及标准而实施的评估过程,以明确获得评价结果,评估过程涉及评估对象、评估指标(定义数据结构)及结果值。数据质量词表定义了3个基本大类,即质量政策(dqv:QualityPolicy)、标准(dcterms:Standard)、评估(dqv:QualityMeasurement)。评估指标体系又细分为3个子类:类(Category)、维度(Dimension)、指标(Metric),类划分为若干维度,维度下细分为若干指标。
2.2.2 数据质量标注活动
标注是创建不同资源之间的关联行为,数据质量标注旨在表达数据资源与资源的关系信息,一个完整的标注情境包括标注者、标注对象、标注行为、标注内容、时间。标注对象实际为标注目标,标注内容称为标注主体,表达对目标的标注内容。标注行为包括评价(评语、评级)、标签、收藏、描述、提问、回答、识别、分类、描述、编辑、联接、加亮等活动。数据质量标注描述了数据质量认证及反馈信息,包括数据质量认证、用户质量反馈。ISO在ISO/IEC指南2中将质量认证定义为第三方依据程序对产品、过程或服务符合规定的要求给出书面保证(合格证书)[18]。数据质量认证是第三方对数据质量符合质量标准给出书面保证,包含数据质量标准体系和数据集质量认证。数据质量认证将数据集与证书之间建立关联,数据集称为对象,证书称为主体,通过评估过程建立两者联系。用户反馈是识别用户需求、评估用户满意度、发现质量问题的重要方法[19]。用户质量反馈从用户角度反映对数据集的满意程度,通过用户参与来提供数据质量,包含用户、反馈方式、反馈内容。反馈方式来自标注行为类型,有评级、评语、提问、分类、描述、编辑等;反馈内容涉及内容主体及所提及对象。数据质量词表定义了数据质量标注类(dqv:QualityAnnotation),其划分为两个子类,即质量认证类(dqv:QualityCertificate)、用户质量反馈类(dqv:UserQualityFeedback)。
2.2.3 数据质量元数据
数据质量元数据描述了数据质量的基本信息,有助于用户迅速获取数据集的基本质量信息,指导用户进行查询及使用。数据质量元数据已成为数据质量的基本构成,包含数据源本身、数据质量认证、政策、数据集的评估活动、标注的记录。数据质量词表定义了质量元数据类(dqv:QualityMetadata)。
如图1所示,描述完成这3个基本活动后,则构建类之间的关系,形成数据模型[9]。
图1 数据质量词表的数据模型
应用数据质量词表可以准确地实现对数据质量评估、标注及元数据信息进行描述,据此用户或机器可以及时获取数据质量信息,为数据的消费及再利用提供依据。BNB是大英图书馆发布的RDF/XML格式的关联书目数据集,其包含图书、期刊、报纸等图书馆收藏的资源。大英图书馆的BNB数据集作为较早发布关联书目集的国家机构,成为许多机构所选用的数据集评价对象。现选用其图书子集进行RDF描述,利用一定的评估指标及其用户标注行为对其进行综合评价,以展示该数据集部分质量情况。
当前选用Zaveri等[5]提出的指标体系(https://www.w3.org/2016/05/ldqd,命名空间为ldqd)对BNB数据集(http://bnb.data.bl.uk)的图书子集进行评估,对可用性指标进行评估,结果表明该数据集URL可以被访问。
用户对BNB的图书子集的可用性进行评级,给予四星级分值。
对大英图书馆的图书数据子集进行的评估及其标注活动的元数据信息进行描述。
通过对该数据集的质量评估过程的描述,可以清晰地展示其评估中所采用的指标体系及其评估结果,并充分地表示了用户所参与的评估活动类型及其标注内容,这些有助于数据消费者在后期选择使用该数据集时,形成基于数据质量评估活动的一系列准确决策。
随着开放关联数据集的增长,数据质量成为消费者关心的重要问题。本研究对影响数据质量的各种活动进行阐述,深入地对W3C发布的数据质量词表的特征进行细致深入的分析,并对其RDF应用场景进行说明。随着该词表的不断普及应用,越来越多的机构及用户参与到数据质量的相关描述中,在未来将极大地推动数据质量的提升,真正发挥数据价值作用。