崔开源
(内蒙古科技大学 学报编辑部,内蒙古 包头 014010)
在GB/ T 7714—2015《信息与文献 参考文献著录规则》中,增加了 4 个文献类型标识[1]:档案(A) ,舆图(CM) ,数据集(DS) ,其他(Z)。这四个新增的文献类型中,其余三个文献类型比较容易理解,数据集(DS)对很多人来说仍然比较陌生,容易和计算机的数据库、数据表相混淆。虽然有些学者已经对此做出了研究,但由于已有定义不能包括目前已经发现的数据集,因此,需要对数据集的概念作出修正。
数据集的基本概念具体起源于何时,目前还不明确。从CNKI中,以关键词“数据集”检索后,可以看到1915年就已经有了相关的文献。之后很长一段时间,相关文献的数量都在10篇以下。1980年前后,相关文献数量逐步增加。如图1所示。
最早的中文文献出现在1959年,共3篇。其文献量的变化趋势与外文文献数量变化趋势基本一致,如图2所示。
国内目前已知最早的数据集文献是1959年刊载在《航空材料》上的数据集,美国钢铁研究院的《AISI*标准不锈钢的代号与成分》数据集[2],该数据集其实是美国钢铁研究院(AISI)在1957年6月提供的。同年,《航空材料》上还刊载了另外两份数据集:《数据集NO.5:标准不锈钢的抗腐蚀性的比较》[3]《数据集NO.6:机械试验时的变形速度曲线图》[4]。从1959年翻译成中文的数据集文献来看,数据集主要并不是在计算机领域,而是在材料、机械、航天领域。
图1 CNKI数据库中,关键词为“数据集”的外文文献数量变化
图2 CNKI数据库中,关键词为“数据集”的中文文献数量变化
从目前已经发现的数据集的形式来看,主要有四种典型的数据集样式。一是表格加说明样式;二是示意图加说明样式;三是数据图表样式;四是数据库样式。
表格加说明样式,形式上类似数据库里的一张关系表。但实质上与数据库中的表中的数值不相同。比如,在表1中,对应于201所在的行,C所在的列的内容为“<0.15”,对应的内容是一种条件,而不是具体的值。只有各种元素的含量符合201钢材对应行的内容要求时,才是合格的201钢材。表中的内容,其实是系列标准,而非具体的数值。这是与数据库样式的数据集根本性不同的地方。
表1 表格式数据集 《AISI*标准不锈钢的代号与成分》
表2 相对湿度对羊毛纤维直径测定影响的校正表/微米
表2是1978年刊载在《毛纺科技》期刊中的《羊毛工业研究协会纺织数据集 (一)》中的一个内容[5]。该表规定了在不同的湿度环境下,使用特定的测量仪器和测量方法测出了羊毛纤维直径后,对测量结果的修正方法。表中的第一行数据的含义是:对于测量结果为18~19.9微米的羊毛纤维,如果是在湿度为38%~42%之间测量的,最终值就需要在原来测量结果的基础上加上0.4微米;如果是在湿度为68%~72%之间测量的,最终值就需要在原来测量结果的基础上减去0.1微米。所以,某行某列对应的内容,不是具体的数值,而是对数值的处理方法。这与计算机领域关系数据库中的表显然是不同的。表2中的数值,不是通常的“实验数据”或“数值”,而是“处理方法”或“关系”。
示意图加说明样式的数据集,先给出特定内容的示意图,然后添加辅助性的说明内容或相关信息。如图1所示。
为了说明该类数据集的特点,我们选取图3中的局部内容进行放大并重新做清晰化处理,就可以得到如图4所示的样式。图中包含了7个数据单元。每个数据单元类似于一张简明数据表。每个数据单元,包含了一种钢材型号,及该型号钢材中影响抗腐蚀性的主要元素的含量。图中显示了不同钢材在抗腐性方面的差异及主要原因。比如310相对于309,增加了NI和C,提高了抗氧化性能;309号钢材相对于308号钢材,增加了Cr和Ni,提高了抗氧化性、抗腐蚀性。这种数据集,看上去直观,清晰。如果用计算机领域的数据库概念对比,这张图所反映的信息,类似于表与表之间的关系,而不是“数值”与“数值”之间的关系。此外,它也包含了说明性的内容。
另一个类似的数据集的实例是《机械试验时的变形速度曲线图》,如图5所示。利用该曲线图,可以查出进行机械试验时的大约变形速度。该图给出了具体的使用方法“当已知试验材料的杨氏系数和引起变形的荷载时,就可以查到在一定时间内的变形速度。比如,已知铝合金材料的杨氏系数为10×106,在8秒钟内,荷载为40,000磅/寸2,首先由图的右下方所需应力40 ×1000磅/寸2处开始向上查,找出与杨氏模数10×106斜线的交点,由此点再沿横线向左找出与时间曲线(8秒)的交点,最后,沿纵线向下即可读出所求的变形速度值5×0.0001,也就是0.0005寸/寸/秒”。
图5所显示的数据集,类似于若干条给定不同变量值的同一函数的曲线的叠加结果。它的基本单元不同于图4的表,而是类似函数的曲线。是由若干条类似函数的曲线构成的。需要说明的是,该图是个经验结果,并不是严格的实际结果。因此,只能叫做大约的变形速度。
数据图表样式的数据集,常见于气象学、测量学领域。下面是一个气象领域的数据集:扩展重建海平面温度(Extended Reconstructed Sea Surface Temperatures,ERSST)标准5下的2018年10月的全球气候数据集的一个样式,如图6所示。
图3 《AISI*标准不锈钢的代号与成分》
图4 AISI*标准不锈钢的代号与成分图局部放大并加工整理后的效果
图5 机械试验时的变形速度曲线图
图6 ERSST-v5 2018 年10月全球气候数据(由 Z Hausfather提供)
该样式是基于实际的观测数据,按照一定的模型生成的直观结果。它实际上是对若干数值的综合处理结果,表现形式就是主要是图像。我们无法从图中看到此结果所依靠的最原始的观测数据以及数据的处理过程。与之相似,图7所显示的数据集样式,则是建立在数据集基础之上的柱状图。该数据集显示的是1871~2018 年 6 种不同的 SST 数据集的Nino 3.4 指数的每月标准偏差对比图。
数据图表样式的数据集的主要特点是,在原始数据的基础上,按照给定的数据处理规则,所产生的图或表。我们用EXCEL所做的柱状图、饼状图,都属于这个类型。数据图表样式与图5最主要的区别是,数据图表样式是可以由数据直接生成,数据变化,图表的样式随之变化。数据的处理规则是确定的。而图4、图5所示的数据集,由于其规律不确定,需要很多人为干预,添加好多经验或实验内容,计算机无法自动生成。凡是无法用计算机自动生成的图、表及说明形式的数据集,都可以归类到示意图加说明样式。当然,如果出现更好的工具,能够把图3的样式由计算机模拟出来,那么,图5也可归类到数据图表样式中。
随着大数据时代的到来,各学科产生的数据集(Date set,DS)的数量与日剧增[7]。数据库样式的数据集就逐渐多起来。几乎所有学科都能找到以数据库为基础的数据集文献。在医学领域,有《数字化虚拟中国人女性一号号(VCH-F1)实验数据集研究报告》[8],在气象领域,有《地方MOS数据集及应用程序包的建立方法介绍》[9],在文献信息领域,有2017年、2018年复旦大学师生中文电子期刊资源访问行为数据集[10][11],在交通领域,有《高速公路场景下基于深度学习的数据集建立》[12],在信息领域,有《机器学习算法在同态加密数据集上的应用》[13]等等。其本质上都是若干关系表中的数据。仅仅在表现形式、规范性方面略有差异。比如《2018 年复旦大学师生中文电子期刊资源访问行为数据集》,该数据集提供了详细的数据库基本信息、数据采集和处理方法、数据集中的14个文件所涉及的20个字段的详细说明、数据质量控、数据的质量控制、数据使用方法和建议、数据获取地址、数据存储方式等等,内容非常详尽。是一个现代技术条件下比较完善的数据库样式的数据集样本。由于这类样式比较常见,这里不过多介绍。
图7 6种不同的 SST 数据集的Nino 3.4 指数的每月标准偏差对比图
通过以上四种数据集样式的分析,我们可以看到。把数据集定义为“是一种由数据所组成的集合”[1][7]是需要完善的。
首先,定义中的“数据”概念,在不同的学科中理解不一。对计算机专业领域来说,可以存储的“数据”,既包括图像、声音、文字,也包括视频甚至文件(对象)。当然,这些都是电子介质,不包括纸质资料。不能把纸质的介质叫做数据,只能把纸质介质上的内容转化成“数据”。事实上排出了纸质介质。因此,严格地说,纸质图书、电子期刊、纸质的数据集,都不是计算机的“数据”。在其它领域,“数据”就是实验过程或结果中的数值。无论是纸媒还是电子媒体,只要属于这个范围,都是数据。
其次,集合的概念也不准确。集合本来是严格的数学概念。不相关的任意几个数字,都可以称为集合,但这显然不是数据集中的数据。数据集中的数据应该是有特定关系的。集合既可以包含一个数据(元素),也可以包含若干个数据(元素),甚至可以是不包含任何数据的空集。但仅包含一个数据(元素)或空集的情况不能叫做数据集。
对于以上四种类型的数据集,上述定义不能够完全涵盖。一是表格加说明样式中的表1、表2中的内容,不是通常意义上的数据,而是关系;数据图表样式类的数据集,是建立在数据基础上的图或表。计算机领域的数据概念,并不包括纸质媒介。因此,建议把数据集的概念修改如下:
数据集是实验、观测及釆集数值的处理方法、特定标准的约束条件,总结说明信息以及在数值基础上形成的图、表、声音、视频资料等,名称中一般含有“数据集”字样。又称为资料集、数据集合或资料集合。
数据集与数据库不同。数据库样式的数据集一般包括两部分内容:数据集和数据库。数据集是除了数据库以外的其它信息。主要指数据的处理规则及说明信息而不是具体的数据。
上述定义包容了纸媒和电子媒介,包容了各个学科,也包含了未来的形式(声音、视频等),并把鉴别这类资料的关键要素“名称中包含数据集“特别提示出来。从而有效地屏蔽了各类无关资料。当然,这个定义能否适合目前各类数据集,还有待实践检验和进一步研究。