徐小俊
摘 要 以国家农业科学数据共享中心热带作物科学数据分中心所建数据库为例,从实践的角度探讨热作数据库数据审核的经验和方法,同时对目前数据审核存在的问题进行分析,并提出建议。
关键词 热带作物 ;数据库 ;数据审核
中图分类号 S162
Discussion on Data Audit of Tropical Crops Database
XU Xiaojun
(Institute of Scientific and Technical Information / Tropical Crops Science Data Sub-center of the National Agricultural Scientific Data Sharing Center, CATAS,Danzhou,Hainan 571737)
Abstract Data auditing is an important part of the construction of database resources, is the construction of high quality assurance of database. In this article, Tropical Crops Science Data Sub-center of the National Agricultural Scientific Data Sharing Center was taken as an example to discuss the experience and method of data auditing from the angle of practice,at the same time to analyze the problems of data audit and puts forward some suggestions.
Key words tropical crops ; database ; data audit
“数据”在信息社会的价值充分体现在众多领域中,可以说拥有高质量的数据资源已成为当今各竞争主体的迫切需要。农业科研单位对高质量数据的需求则更为凸显。高质量的数据资源是农业科研的基础资源,但面对海量、复杂的数据信息怎么去分析鉴别其真伪,挖掘其核心价值,数据审核就显得尤为重要。通过审核数据可以最大程度地检查数据的错误和失真,便于对数据进行修正,确保数据的质量,为支撑农业科研打下良好的基础。目前,农业科研单位自上而下都建立了各类数据库,热带作物科学数据分中心(以下简称“分中心”)承担着热区作物科学数据库的资源建设,对于提高入库数据资源的质量,把好数据入库关,实现为热带农业科技创新和发展提供信息支撑,为国家科技整体水平的提高提供可靠的农业科学数据资源保障等至关重要[1]。
1 分中心简介
分中心(http://trop.agridata.cn/index.asp)是国家农业科学数据共享中心(以下简称“主中心”,http://www.agridata.cn/,主中心于2006年正式上线运行,由科技部“国家科技基础条件平台建设”支持建设的数据中心试点之一)下属的6个分中心之一,分中心建设由中国热带农业科学院科技信息研究所负责,主要是承担在子任务合同书的规范下,对热作数据资源的整合,参与标准规范制定与修订,数据库(集)提交以及数据共享服务(公益性)等。目前,分中心已建成五大主题数据库,包括热带作物遗传资源数据库、热带作物栽培数据库、热带作物生物学数据库、热带作物育种数据库、热带作物基础数据库。第六大主题数据库——热区作物栽培数据库则正在建设中。分中心在数据分级分类和用户分级的基础上,将所有已建成的数据库通过农业科学数据中心共享网络系统面向全社会免费开放,主要服务于科研人员。服务形式包括:在线服务(数据浏览、检索、下载、提问等多种形式)和离线服务(电子邮件、光盘、电话、印刷物等)。通过多种方式和手段,使整合的数据资源实现全部共享,让更多的农业科技人员通过共享平台获得益处[2]。
2 数据审核
2.1 数据审核的环境
目前,数据的审核更多是以人工审核为主,原因有以下几点:一是农业系统的各类数据库还处于起步和发展阶段,数据库的处理软件还在不断完善中,只能完成部分逻辑审核,还不能实现数据的智能批量审核;二是各个主题库的结构和采集标准都不太一样,难以用数据软件统一进行审核;三是有些数据信息存在的问题具有隐蔽性和复杂性,单靠数据软件的审核也难以发现问题。
2.2 数据审核的原则和方法
2.2.1 制定一套科学完善的数据采集标准
农业方面的数据库专业性较强,根据生产、科研等方面的需要数据分类繁多,各主题数据库包含大量的数据集,有的数据集复杂,有的数据集相对简单,往往同一主题库下面的数据集的特征和结构都各不相同。要审核这些特征各异的数据库必须制定一套科学完善的数据采集标准,再对照这些标准逐一进行审核。数据库标准的设计要体现描述规范和数据价值的充分挖掘。表1是分中心第6大主题库——热区主要栽培作物数据库结构说明和采集标准(部分)。
2.2.2 数据审核的原则
(1)可靠性原则:收集的信息必须是真实对象或环境所产生的,必须保证信息来源可靠,确保收集的信息能反映真实的状况。数据来源要体现原始性和基础性,包括观测、地面监测站(点)、检测、调查、试验、实验以及研究等科学技术活动过程中产生的原始性数据,以及按照不同科技活动需求进行系统加工整理的各类数据[3]。
(2)规范性原则:包括数据的描述规范,计量单位、符号和学名规范,字体、字段长度、图片、参考文献等要符合规范。
(3)完整性原则:收集的数据信息各字段的描述须完整,能反映事物全貌。
(4)实时性原则:能及时收集近期的数据信息。
(5)准确性原则:收集的数据信息与应用需求密切相关且表达无误,能体现数据信息的核心价值。
(6)易用性原则:收集到的信息要按照一定的标准进行整理保存,以适当的形式表达出来,以便于使用。
(7)宁缺毋滥原则:对无应用价值的数据退回提交单位,对于有应用价值但描述不规范数据给出修改建议后反馈提交单位,待修改后再重新提交。
2.2.3 数据审核的方法
目前,农业数据审核还没有现成的方法可以参照,以下是从实践的角度探讨热作数据库数据审核的经验和方法:
(1)数据质量分析 数据审核首先要对数据质量进行分析。简而言之,数据质量就是反映出数据对特定应用的满足程度[4]。数据质量的高低归根结底表现为对应用的满足程度,卓有成效的数据分析应该和具体应用紧密结合[5]。数据作为特殊产品,到目前为止,还没有统一的标准来衡量数据的质量[6]。热作数据从实践的角度进行数据质量分析,主要包括以下2点:
一是审查数据来源是否真实可靠。数据的来源很大程度上反映了数据的真实程度,越是原始采集的数据真实程度越高,例如观测、监测、调查、试验、实验等科学活动中产生的原始数据。还有来自权威期刊、网站等媒介的数据真实可靠性也较高。一些数据经过加工整理因为人为的因素容易产生误差,例如自下而上的统计等。而一些来自缺乏专业审核的大众媒介的数据值得注意,将提交的数据通过网络搜索进行对比,可以发现该数据信息是否来自互联网或来自互联网的比例,通过这种方法有时会发现有些数据来源与标注的来源途径、研究机构和参考文献不相符的情况。
二是审查数据本身是否体现了核心价值。数据的价值在于运用,每种作物的特性和价值各异,数据的价值通过某个字段或某些字段表达出来,数据在各字段的描述过程中要有所侧重,以表1热区主要栽培作物数据库为例,有的作物的数据价值体现在“栽培技术”字段,有的作物的数据价值体现在“病虫害防治”,有的作物的数据价值体现在“主要用途”,有的则体现在“开发利用前景”等。在某个领域越新的研究,有所突破的研究越能体现数据的核心价值;相反,陈旧的、大众化的数据价值越低。
通过数据质量分析可以对提交的数据进行筛选,对数据质量低的数据退回提交单位,通过质量分析的数据再进行下一轮审核,可以大大减少不必要的时间耗费。
(2)对照法规、标准等逐一进行全面审核 对照主中心颁布的《数据检查和质量控制管理办法》等数据法规和标准、数据库的结构说明和采集标准以及作物描述规范对通过质量分析的数据信息进行全面审核,指出不符合的地方,给出修改建议。
(3)逻辑审核 因为软件设计滞后的原因,目前逻辑审核还难以通过数据库管理软件的审核功能来实现,主要通过人工检查字段的描述是否一致,有无相矛盾的地方;数值是否过大或过小,是否在合理范围之内,有无可疑数据等。
(4)经验判断 依靠相关知识和经验来判断数据的描述是否有误,相关的数值是否可疑。如,复核《海南岛桑树种质资源》数据信息时发现有段描述中桑树的高度为100多米,根据常识,桑树最高也就在10多米,显然100多米大大超出了合理的范围。
3 数据审核存在的问题和建议
3.1 存在问题
3.1.1 重量不重质
数据的审核在很长的时间内没有引起足够的重视。很多数据库建设之初更注重的是“量”,就是不断向数据库里面添加数据,随着数据库的数据达到一定量之后,反过来再看数据库里面的数据才发现存在不少“问题数据”和毫无价值的“垃圾数据”,例如,一些数据信息的描述存在错字、错词、乱码等表达有误的情况,有的则是摘自互联网的大众化数据信息。此外,由于基础数据的收集存在“信息壁垒”,工作难度极高,一些科研人员为了完成任务对数据信息进行“造假”,从期刊、网络等途径东拼西凑一些没有太多应用价值的数据信息却标注上某科研机构的研究等。
3.1.2 缺乏相关专业的培训指导
数据的行业性特征比较明显,农业数据的审核除了涉及统计、计算机等方面的知识外,还要有较好的农学方面的知识背景,可以说是一项跨学科、复杂、难度较高的工作。但由于许多客观原因(技术力量、人才等),长久以来关于这方面的培训几乎没有。
3.1.3 缺乏一套专门的农业数据审核手册
农业系统的数据库还处于发展完善阶段,虽然也制订了一些管理办法和规范,但过于分散,对于数据审核还没有形成一套科学的数据审核规则,所以数据审核没有现成的规则可以参照,主要依靠审核人员的知识水平、经验积累及借鉴和探索来进行。
3.1.4 数据管理软件的更新升级跟不上发展的需要
目前的数据软件从2006年上线后一直运行到现在,在软件的设计上还存在不完善的地方,比如还不能实现一般的数据质量分析和审核。
3.2 建议
鉴于热带作物数据库数据审核现状,为了促使热带作物数据库数据审核更加科学、更加真实可靠,建议农业科研机构自上而下都充分重视数据审核工作,定期对科研机构和人员开展宣传教育,并及时开展相关的数据审核培训,必要时可以借鉴别的行业好的经验和做法,对审核人员进行培训指导,不断提高审核人员的业务水平。同时,及时编写一套权威的农业方面的数据审核手册,对数据审核进行专业指导,对现有的数据库管理系统进行更新升级,并大力研发自动化的数据分析工具和审核软件应用到数据库数据审核。
参考文献
[1] 农业科学数据共享中心简介[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_intro.asp?r=1.
[2] 农业科学数据共享管理办法[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_law.asp.
[3] 农业科学数据汇交管理办法[EB/OL].[2014-05-23].http://www.agridata.cn/homepage/ch_law.asp.
[4] Lee Y W,Strong D M. Knowing-why about data processes and data quality[J].Journal of Management Information Systems,2003,20(3):13-39.
[5] Strong D M,Lee Y W,Wang R Y. Data quality in context[J]. Communication of The ACM,1997,40(5):103-110.
[6] 丁海龙,徐宏炳. 数据质量分析及应用[J]. 计算机技术与发展,2007(3):236-238.
(3)完整性原则:收集的数据信息各字段的描述须完整,能反映事物全貌。
(4)实时性原则:能及时收集近期的数据信息。
(5)准确性原则:收集的数据信息与应用需求密切相关且表达无误,能体现数据信息的核心价值。
(6)易用性原则:收集到的信息要按照一定的标准进行整理保存,以适当的形式表达出来,以便于使用。
(7)宁缺毋滥原则:对无应用价值的数据退回提交单位,对于有应用价值但描述不规范数据给出修改建议后反馈提交单位,待修改后再重新提交。
2.2.3 数据审核的方法
目前,农业数据审核还没有现成的方法可以参照,以下是从实践的角度探讨热作数据库数据审核的经验和方法:
(1)数据质量分析 数据审核首先要对数据质量进行分析。简而言之,数据质量就是反映出数据对特定应用的满足程度[4]。数据质量的高低归根结底表现为对应用的满足程度,卓有成效的数据分析应该和具体应用紧密结合[5]。数据作为特殊产品,到目前为止,还没有统一的标准来衡量数据的质量[6]。热作数据从实践的角度进行数据质量分析,主要包括以下2点:
一是审查数据来源是否真实可靠。数据的来源很大程度上反映了数据的真实程度,越是原始采集的数据真实程度越高,例如观测、监测、调查、试验、实验等科学活动中产生的原始数据。还有来自权威期刊、网站等媒介的数据真实可靠性也较高。一些数据经过加工整理因为人为的因素容易产生误差,例如自下而上的统计等。而一些来自缺乏专业审核的大众媒介的数据值得注意,将提交的数据通过网络搜索进行对比,可以发现该数据信息是否来自互联网或来自互联网的比例,通过这种方法有时会发现有些数据来源与标注的来源途径、研究机构和参考文献不相符的情况。
二是审查数据本身是否体现了核心价值。数据的价值在于运用,每种作物的特性和价值各异,数据的价值通过某个字段或某些字段表达出来,数据在各字段的描述过程中要有所侧重,以表1热区主要栽培作物数据库为例,有的作物的数据价值体现在“栽培技术”字段,有的作物的数据价值体现在“病虫害防治”,有的作物的数据价值体现在“主要用途”,有的则体现在“开发利用前景”等。在某个领域越新的研究,有所突破的研究越能体现数据的核心价值;相反,陈旧的、大众化的数据价值越低。
通过数据质量分析可以对提交的数据进行筛选,对数据质量低的数据退回提交单位,通过质量分析的数据再进行下一轮审核,可以大大减少不必要的时间耗费。
(2)对照法规、标准等逐一进行全面审核 对照主中心颁布的《数据检查和质量控制管理办法》等数据法规和标准、数据库的结构说明和采集标准以及作物描述规范对通过质量分析的数据信息进行全面审核,指出不符合的地方,给出修改建议。
(3)逻辑审核 因为软件设计滞后的原因,目前逻辑审核还难以通过数据库管理软件的审核功能来实现,主要通过人工检查字段的描述是否一致,有无相矛盾的地方;数值是否过大或过小,是否在合理范围之内,有无可疑数据等。
(4)经验判断 依靠相关知识和经验来判断数据的描述是否有误,相关的数值是否可疑。如,复核《海南岛桑树种质资源》数据信息时发现有段描述中桑树的高度为100多米,根据常识,桑树最高也就在10多米,显然100多米大大超出了合理的范围。
3 数据审核存在的问题和建议
3.1 存在问题
3.1.1 重量不重质
数据的审核在很长的时间内没有引起足够的重视。很多数据库建设之初更注重的是“量”,就是不断向数据库里面添加数据,随着数据库的数据达到一定量之后,反过来再看数据库里面的数据才发现存在不少“问题数据”和毫无价值的“垃圾数据”,例如,一些数据信息的描述存在错字、错词、乱码等表达有误的情况,有的则是摘自互联网的大众化数据信息。此外,由于基础数据的收集存在“信息壁垒”,工作难度极高,一些科研人员为了完成任务对数据信息进行“造假”,从期刊、网络等途径东拼西凑一些没有太多应用价值的数据信息却标注上某科研机构的研究等。
3.1.2 缺乏相关专业的培训指导
数据的行业性特征比较明显,农业数据的审核除了涉及统计、计算机等方面的知识外,还要有较好的农学方面的知识背景,可以说是一项跨学科、复杂、难度较高的工作。但由于许多客观原因(技术力量、人才等),长久以来关于这方面的培训几乎没有。
3.1.3 缺乏一套专门的农业数据审核手册
农业系统的数据库还处于发展完善阶段,虽然也制订了一些管理办法和规范,但过于分散,对于数据审核还没有形成一套科学的数据审核规则,所以数据审核没有现成的规则可以参照,主要依靠审核人员的知识水平、经验积累及借鉴和探索来进行。
3.1.4 数据管理软件的更新升级跟不上发展的需要
目前的数据软件从2006年上线后一直运行到现在,在软件的设计上还存在不完善的地方,比如还不能实现一般的数据质量分析和审核。
3.2 建议
鉴于热带作物数据库数据审核现状,为了促使热带作物数据库数据审核更加科学、更加真实可靠,建议农业科研机构自上而下都充分重视数据审核工作,定期对科研机构和人员开展宣传教育,并及时开展相关的数据审核培训,必要时可以借鉴别的行业好的经验和做法,对审核人员进行培训指导,不断提高审核人员的业务水平。同时,及时编写一套权威的农业方面的数据审核手册,对数据审核进行专业指导,对现有的数据库管理系统进行更新升级,并大力研发自动化的数据分析工具和审核软件应用到数据库数据审核。
参考文献
[1] 农业科学数据共享中心简介[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_intro.asp?r=1.
[2] 农业科学数据共享管理办法[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_law.asp.
[3] 农业科学数据汇交管理办法[EB/OL].[2014-05-23].http://www.agridata.cn/homepage/ch_law.asp.
[4] Lee Y W,Strong D M. Knowing-why about data processes and data quality[J].Journal of Management Information Systems,2003,20(3):13-39.
[5] Strong D M,Lee Y W,Wang R Y. Data quality in context[J]. Communication of The ACM,1997,40(5):103-110.
[6] 丁海龙,徐宏炳. 数据质量分析及应用[J]. 计算机技术与发展,2007(3):236-238.
(3)完整性原则:收集的数据信息各字段的描述须完整,能反映事物全貌。
(4)实时性原则:能及时收集近期的数据信息。
(5)准确性原则:收集的数据信息与应用需求密切相关且表达无误,能体现数据信息的核心价值。
(6)易用性原则:收集到的信息要按照一定的标准进行整理保存,以适当的形式表达出来,以便于使用。
(7)宁缺毋滥原则:对无应用价值的数据退回提交单位,对于有应用价值但描述不规范数据给出修改建议后反馈提交单位,待修改后再重新提交。
2.2.3 数据审核的方法
目前,农业数据审核还没有现成的方法可以参照,以下是从实践的角度探讨热作数据库数据审核的经验和方法:
(1)数据质量分析 数据审核首先要对数据质量进行分析。简而言之,数据质量就是反映出数据对特定应用的满足程度[4]。数据质量的高低归根结底表现为对应用的满足程度,卓有成效的数据分析应该和具体应用紧密结合[5]。数据作为特殊产品,到目前为止,还没有统一的标准来衡量数据的质量[6]。热作数据从实践的角度进行数据质量分析,主要包括以下2点:
一是审查数据来源是否真实可靠。数据的来源很大程度上反映了数据的真实程度,越是原始采集的数据真实程度越高,例如观测、监测、调查、试验、实验等科学活动中产生的原始数据。还有来自权威期刊、网站等媒介的数据真实可靠性也较高。一些数据经过加工整理因为人为的因素容易产生误差,例如自下而上的统计等。而一些来自缺乏专业审核的大众媒介的数据值得注意,将提交的数据通过网络搜索进行对比,可以发现该数据信息是否来自互联网或来自互联网的比例,通过这种方法有时会发现有些数据来源与标注的来源途径、研究机构和参考文献不相符的情况。
二是审查数据本身是否体现了核心价值。数据的价值在于运用,每种作物的特性和价值各异,数据的价值通过某个字段或某些字段表达出来,数据在各字段的描述过程中要有所侧重,以表1热区主要栽培作物数据库为例,有的作物的数据价值体现在“栽培技术”字段,有的作物的数据价值体现在“病虫害防治”,有的作物的数据价值体现在“主要用途”,有的则体现在“开发利用前景”等。在某个领域越新的研究,有所突破的研究越能体现数据的核心价值;相反,陈旧的、大众化的数据价值越低。
通过数据质量分析可以对提交的数据进行筛选,对数据质量低的数据退回提交单位,通过质量分析的数据再进行下一轮审核,可以大大减少不必要的时间耗费。
(2)对照法规、标准等逐一进行全面审核 对照主中心颁布的《数据检查和质量控制管理办法》等数据法规和标准、数据库的结构说明和采集标准以及作物描述规范对通过质量分析的数据信息进行全面审核,指出不符合的地方,给出修改建议。
(3)逻辑审核 因为软件设计滞后的原因,目前逻辑审核还难以通过数据库管理软件的审核功能来实现,主要通过人工检查字段的描述是否一致,有无相矛盾的地方;数值是否过大或过小,是否在合理范围之内,有无可疑数据等。
(4)经验判断 依靠相关知识和经验来判断数据的描述是否有误,相关的数值是否可疑。如,复核《海南岛桑树种质资源》数据信息时发现有段描述中桑树的高度为100多米,根据常识,桑树最高也就在10多米,显然100多米大大超出了合理的范围。
3 数据审核存在的问题和建议
3.1 存在问题
3.1.1 重量不重质
数据的审核在很长的时间内没有引起足够的重视。很多数据库建设之初更注重的是“量”,就是不断向数据库里面添加数据,随着数据库的数据达到一定量之后,反过来再看数据库里面的数据才发现存在不少“问题数据”和毫无价值的“垃圾数据”,例如,一些数据信息的描述存在错字、错词、乱码等表达有误的情况,有的则是摘自互联网的大众化数据信息。此外,由于基础数据的收集存在“信息壁垒”,工作难度极高,一些科研人员为了完成任务对数据信息进行“造假”,从期刊、网络等途径东拼西凑一些没有太多应用价值的数据信息却标注上某科研机构的研究等。
3.1.2 缺乏相关专业的培训指导
数据的行业性特征比较明显,农业数据的审核除了涉及统计、计算机等方面的知识外,还要有较好的农学方面的知识背景,可以说是一项跨学科、复杂、难度较高的工作。但由于许多客观原因(技术力量、人才等),长久以来关于这方面的培训几乎没有。
3.1.3 缺乏一套专门的农业数据审核手册
农业系统的数据库还处于发展完善阶段,虽然也制订了一些管理办法和规范,但过于分散,对于数据审核还没有形成一套科学的数据审核规则,所以数据审核没有现成的规则可以参照,主要依靠审核人员的知识水平、经验积累及借鉴和探索来进行。
3.1.4 数据管理软件的更新升级跟不上发展的需要
目前的数据软件从2006年上线后一直运行到现在,在软件的设计上还存在不完善的地方,比如还不能实现一般的数据质量分析和审核。
3.2 建议
鉴于热带作物数据库数据审核现状,为了促使热带作物数据库数据审核更加科学、更加真实可靠,建议农业科研机构自上而下都充分重视数据审核工作,定期对科研机构和人员开展宣传教育,并及时开展相关的数据审核培训,必要时可以借鉴别的行业好的经验和做法,对审核人员进行培训指导,不断提高审核人员的业务水平。同时,及时编写一套权威的农业方面的数据审核手册,对数据审核进行专业指导,对现有的数据库管理系统进行更新升级,并大力研发自动化的数据分析工具和审核软件应用到数据库数据审核。
参考文献
[1] 农业科学数据共享中心简介[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_intro.asp?r=1.
[2] 农业科学数据共享管理办法[EB/OL].[2014-05-23].http://trop.agridata.cn/ch_law.asp.
[3] 农业科学数据汇交管理办法[EB/OL].[2014-05-23].http://www.agridata.cn/homepage/ch_law.asp.
[4] Lee Y W,Strong D M. Knowing-why about data processes and data quality[J].Journal of Management Information Systems,2003,20(3):13-39.
[5] Strong D M,Lee Y W,Wang R Y. Data quality in context[J]. Communication of The ACM,1997,40(5):103-110.
[6] 丁海龙,徐宏炳. 数据质量分析及应用[J]. 计算机技术与发展,2007(3):236-238.