数据质量管理对数据共享的影响

2013-03-22 02:07王正兴刁慧娟
中国科技资源导刊 2013年4期
关键词:数据库用户质量

王正兴刁慧娟,2

(1.中国科学院地理科学与资源研究所,资源与环境信息系统国家重点实验室,北京 100101;2.中国科学院大学,北京 100049)

数据质量管理对数据共享的影响

王正兴1刁慧娟1,2

(1.中国科学院地理科学与资源研究所,资源与环境信息系统国家重点实验室,北京 100101;2.中国科学院大学,北京 100049)

数据质量对数据共享是个“双刃剑”:对数据质量要求太低,谬误散布可能误导用户;对数据质量要求太高,数据生产者会因不堪重负对数据共享敬而远之。因此,探索一个数据生产者和数据用户都能接受的数据质量管理机制对可持续的数据共享极为重要。文章用两个案例讨论了科研数据和政府业务数据质量管理方式对数据共享的影响,并用第三个案例讨论了把科研数据转化为业务数据需要注意的原则:生产者和用户应该在关键问题上事先达成一致意见,特别是,对数据质量验证需要遵循客观标准而非主观感觉。

数据质量;数据质量管理;数据共享;双刃剑效应;科研数据;业务数据;对接

1 引言

过去10余年,我国政府部门参与共享的不仅有管理使用的“业务数据”,还包括政府资助的科研项目开发的部分“科研数据(科学数据)”。一些有明显商业价值的遥感影像数据,例如中巴资源卫星(CBERS)和环境减灾小卫星(HJ-1A/B CCD)二级数据,已经实现了免费的网络开放[1-3]。2013年5月28日,科技部国家遥感中心首次向全球发布了《全球生态环境遥感监测2012年度报告》,并开放了全部数据库。

但是,反对政府数据开放的活动从未停止。2000年12月,美国国会少数人把总共只有十几行的《数据质量法》,加入712页的《2001年年度拨款法案》,迫使当时的美国总统克林顿签字。《数据质量法》规定:“在2001年9月30日前,美国白宫预算局(OMB)主任必须为联邦政府各个部门的数据发布工作制定细则,各部门都必须建立相应的数据审查复核机制,尽最大可能保证联邦政府所发布数据的‘质量、客观性、适用性和完整性’”[4]。2002年《美国联邦政府关于数据和信息质量管理的规定》进一步明确:“实用性”指信息对有关用户的有用性;“客观性”指传播的信息要精确、可靠、无偏见;“完整性”指信息在传播过程中始终如一,不会遭受中途非法修订,即用户获取的应该是发布者最初的数据。在评估数据质量时,要求采用“同行评议优先”原则,大部分数据还要满足“数据再现性(可重复性)”要求[5]。这里有个内嵌的逻辑:政府只能发布“高质量”数据,但是何谓“高质量”,却没有明确的、可操作的标准,因此导致有些利益团体以“数据质量不达标”为由,阻挠对自己不利的政府信息开放[4]。

强调开放数据的“质量”,对广大数据用户来讲“是福还是祸”?表面上看,在“政府数据开放大势已定”的基础上,提高数据质量是普通用户的福音。但过分强调数据质量后,政府数据开放依然服从基本的“供求关系”:在用户一方,更高质量的政府信息开放后,虽然大部分用户受益,但是还有少数用户既得利益受损,他们一定全力阻挠;在数据生产者一方,更高的数据质量需要更多经费、智力、时间的投入,如果这些条件难以满足,就很难获得可达到开放水平的高质量数据。在“完美无缺”和“一无所有”之间,真正有需求的用户可能连分享稍低质量数据的机会也将丧失。

2012年10月22日,意大利拉奎拉地方法院传来令全世界科学界惊诧的消息:对6名意大利地震专家和1名意大利民防局官员做出判决,判处这7人6年监禁。检方指控他们在2009年拉奎拉地震中未能向公众提供“准确和及时”的预警信息,从而导致309人丧生。事情原委是,地震学家研究发现,像阿奎拉这种地区群发地震之后发生中等程度地震的可能性是2%,如果政府对民众发布警告,那么就有98%的可能性会使人们空紧张一场;如果政府不发出警告,一旦出现大规模地震,就会导致巨大的人员损伤和财产损失。科学家和民防局官员选择了前者,结果获刑6年[6]。这一判决如同一个放大镜,把科学数据应用到政府决策中的风险暴露在全世界面前。如果这一判决所依据的逻辑成立,它所带来的“寒蝉效应”将不仅使意大利地震学家失声,还将影响很多领域信息的开放。但对科学数据共享这又是一个很好的反面教材。它警示我们:数据质量是把“双刃剑”,对数据质量的过低和过高要求,最终都会影响用户。

本文通过3个案例的介绍,即案例一介绍“科研数据”渐进式质量管理,案例二介绍政府“业务数据”一站式质量管理,案例三介绍从“科研数据”转换为“业务数据”过程中质量管理面临的挑战,讨论数据质量管理对数据开放的影响。。

2 科学数据共享中的质量管理

科学探索面对许多未知因素,因此不能期望预先解决所有问题。MODIS植被指数是对不确定因素实行开放的、循序渐进的管理模式[7]。本节将以MODIS植被指数产品为例,探讨科学数据共享中的质量管理。

2.1 MODIS植被指数生产算法

MODIS植被指数的基本产品采用16-day 合成算法:如果16天内高质量象元在2个以上,采用“限定视角最大值合成(CV-MVC)”;如果16天内至少有一个有效象元,采用“最大值合成(MVC)”;否则采用历史平均值填充(图1)。

图1 MODIS 16-day植被指数合成流程

2.2 数据生产者对MODIS植被指数质量的管理

图1显示,在一个16-day 合成期内得到的数据质量高低不一。为了使用户能够合理地使用这些数据,植被指数质量管理采用了两个层次:象元层次和文件层次。前者就是逐个象元地描述影响质量的各个因素,并进行定量评估;后者就是在产品算法有重大改进时,重新处理全部数据,开放新一版数据。象元尺度质量评估,首先描述象元的可用性,然后对有问题象元进行定性和定量评价。

(1)象元尺度数据可靠性

表1中,质量分级“-1”表示“无数据”或者“前期多年平均数据”;“0”级表示可放心使用;“边际数据”表示“有一定使用价值但需检查质量评估信息(QA)”;“2”、“3”级表示被冰雪和云雾覆盖。

表1 MODIS植被指数象元可靠性

(2)问题象元质量等级定量评估

影响MODIS植被指数质量的主要有7种因素,其可靠性等级如表2所示。

表2 MODIS植被指数象元可靠性的定量评估

①大气气溶胶含量:如果因为某些限制不能采用标准气溶胶反演算法,而采用气溶胶气候学背景数据,则可靠性等级为“2”;如果气溶胶含量为“高”,则可靠性等级为“3”。

②大气临边效应校正:如果没有校正,则可靠性等级为“1”。

③大气双向反射分布函数校正:未能对大气双向反射分布耦合效应进行校正,则可靠性等级为“2”。

④混合云:如果可能存在混合云雾,则可靠性等级为“3”。

⑤云影:如果可能存在云影,则可靠性等级为“1”。

⑥传感器视角:如果传感器视角大于400(远离星下点),则可靠性等级为“1”。

⑦太阳天顶角:如果太阳天顶角大于600(太阳位置偏低),则可靠性等级为“1”。

对任一象元,以上各可靠性等级的累计值越大,不可靠性越大。“0”值说明没有任何限制,质量最高;最大值“13”说明质量最低。这些象元尺度的质量评估信息,对后期用户使用这些数据有关键指导作用。

2.3 数据用户对数据质量的管理

用户在获取MODIS植被指数数据时,同时获取了象元尺度质量信息、处理工具等。因此可对不同质量数据分别处理。例如,曹云锋发现,简单最大值合成(MVC)可能导致MODIS-NDVI“尖峰型噪音(spike)”替代正常数据,而用质量评估信息预先过滤即可避免这一错误[8]。柯灵红对2008年青海省MODIS地表温度(LST)QA统计发现,全年平均的白天和夜晚高质量像元仅为51%和71.5%[9]。利用49×49移动窗口,在各8-day合成期建立高质量LST与DEM的回归关系,用DEM恢复低质量LST,得到时空完整的LST时间序列。这些例子显示,由于有象元尺度质量评估信息的支持,高质量的象元可以保留,低质量的象元也可以不同程度地得到改进。

2.4 科研数据质量管理模式对数据共享影响

案例一的质量管理,在“完美无缺”和“一无所有”之外,找到了第三种质量管理模式,即象元尺度质量描述。作为整体,MODIS植被指数很难做到完美无缺,如果仅因部分数据质量有缺陷而封闭全部数据,这对数据用户代价太高。目前采用的这种“逐象元质量描述-版本升级”质量管理模式,不仅使数据生产者能够及时开放数据,而且使用户在充分知情的前提下谨慎地使用这些数据。这是一种健康的共享模式。

3 政府“业务数据”共享中的数据质量管理

《国务院关于开展第二次全国土地调查的通知》要求,2007年7月至2010年上半年,完成第二次全国土地调查。从2010年开始每年对第二次全国土地调查数据年度更新。第二次全国土地调查及其更新项目,按照国土资源部《第二次全国土地调查技术规程》及其相关实施方案执行[10-11]。本节将以国土资源部“第二次全国土地调查”为例,探讨“业务数据”共享中的数据质量管理。从质量控制角度,第二次全国土地调查数据质量管理有三大特点。一是统一严格的时间节点。第二次全国土地调查数据的统一时点为2009年10月31日。2010年年度更新,基础遥感数据时间为2010年8月至2011年1月,属性时间统一时点为2010年12月31日。二是采用高空间分辨率遥感数据。第二次全国土地调查开展4项调查:农村土地调查、城镇土地调查、基本农田调查和专项用地统计调查。其中,农村土地调查以1:10000比例尺(图像空间分辨率不低于2.5m)为主,荒漠、沙漠、高寒等地区可采用1:50000比例尺(图像空间分辨率不低于10m),经济发达地区和大中城市城乡结合部,可根据需要采用1:2000或1:5000比例尺(图像空间分辨率不低于1m)。城镇土地调查宜采用1:500比例尺。在第二次全国土地调查之后年度更新中[12],将全国划分为4类工作区,其中面积最大的“三类区”优先采用2m数据,2m难以保障时采用5m数据(表3)。三是遥感解译内容包括土地权属信息。农村土地调查,以县级行政区为单位,采用乡(镇)、行政村、宗地三级编号,逐地块落实土地利用的类型、面积、和权属。城镇土地调查,地籍编号以县级行政区为单位,按街道、街坊、宗三级编号,每宗土地落实类型、面积、和权属。由于涉及所有权、使用权、权属争议等法律与政策问题,需要规划部门、耕地保护部门、执法监察部门和地籍部门统一行动。

第二次全国土地调查数据可能是目前国内质量最高的数据库之一,但是由于涉及“地块”和“宗”尺度的城乡土地的权属等敏感信息,目前开放这些信息面临一定风险。但是如果仅仅忌惮“地块和宗尺度权属信息”而封闭全部信息必将是因噎废食,因为该数据内容丰富,除了“权属”,还有“土地利用”信息。至少可以通过“分类-分级”方式,开放一些经过汇总的信息,例如省一级、经过属性综合的空间数据库信息。

4 把“科研数据”转化为“业务数据”过程中的数据质量管理

前面两个案例说明,以探索未知为目的科研数据和以管理为目的的业务数据,在许多方面是不同的。但有时为了充分利用科研数据成果,希望把科研数据应用到政府部门管理中。本节将以中国科学院“陆地生态系统固碳参量遥感监测及估算技术研究”课题的科研数据为例,探讨把科研数据转化为业务数据过程中的数据质量管理问题。该课题主要任务是利用30m分辨率遥感数据开发4个代表年(1990年, 2000年, 2005年, 2010年)全国土地覆盖数据库(ChinaCover)。其主要质量标准是以省为单位,一级分类精度优于90%;二级分类精度优于85%。转化后的“业务数据”,供各省环保厅评估2000-2005-2010年间生态环境变化。修改数据库以满足各省环保厅要求的过程称之为“对接”。

理论上,这种质量控制体系结合了数据生产方对遥感分析的优势和用户方对本地土地覆盖知识的优势,可以提高数据库质量。但把“科研数据”转变为“业务数据”需要处理一系列分歧。省环保厅与ChinaCover不一致的情况主要表现在3个方面:数据定义(分类系统)、数据粒度(尺度,分辨率)和客观性。

4.1 土地利用/覆盖分类系统定义的一致性问题

“数据打架”是这一问题的通俗说法,即土地覆盖类型定义差异及分类系统交叉重叠,这不仅出现在科研数据与业务数据之间,而且常常出现在各业务部分之间。常见几类定义分歧如表4。了解其中定义的差异,有助于理解、解译结果及其分类汇总后的比较。

(1)耕地:国土系统使用的是连续耕种3年以上“常用耕地”的“净面积”,而30m遥感提取的耕地包括所有耕地、公路、其他细小地物、稀疏经济林等。因此遥感耕地面积往往大于政府统计面积。

表3 第二次全国土地调查数据年度更新所使用的遥感数据

(2)森林:国家林业局定义的森林包括耕地上的经济林,但是30m遥感数据不能提取低覆盖的经济林,而需要足够多时相才可能提取高覆盖经济林。有些符合国家林业局森林条件的四旁树,与居民地在空间上重叠,在ChinaCover中属于居民地。遥感解译的森林面积往往低于政府统计。

(3)湿地:在ChinaCover分类系统,亚高山草甸和水稻有单独分类,湿地受水体季节性和年际变化很大,因此对遥感数据获取时间的一致性要求很高。

4.2 遥感数据粒度(尺度)差异问题

遥感数据粒度指数据的光谱分辨率、空间分辨率、时间分辨率、时间序列长度等。高空间分辨率遥感数据可识别更多细节,因此对细小类型、线状类型的提取比例较高;低空间分辨率遥感因为混合象元无法提取这些细小类型。有些参加过省“第二次土地调查”的专家,习惯于对比不同分辨率解译结果,质疑ChinaCover结果。数据粒度隐含着数据库的建设成本。第二次土地调查最常用的5m分辨率,与生态十年所选择的30m分辨率相比,前者数据量是后者的62=36倍,更不要说以县为基础在地块、宗地尺度上进行解译的工作量差异了。省里提供的部分样点忽略了遥感数据的尺度,只适合高分辨率遥感,无法代表30m空间分辨率数据。

4.3 遥感数据解译的客观性问题

这是对接过程遇到的最棘手的问题。一方面,“专项”的目的显然是要评估2000-2010年间中国生态的变化。更具体地说,就是在各地投入“巨资”进行生态建设以后,生态条件是否有所改善。但在解读30m遥感数据结果时,用户往往忽略了两个问题。(1)生态工程效益滞后性:有些生态工程即使有效,也需时日。有些领导期望的数据,在遥感影像上难以发现。(2)年际波动问题:许多植被覆盖、湿地等,受降水等自然条件年际波动影响很大,有些地区远大于人类活动影响,这导致某些年份有些类型也会出现“年际波动”,而非期望的“趋势性”。在与各省环境保护等业务部门用户对接时,他们特别不能接受“变来变去”,即在3期中“先增后减”或者“先减后增”。实际上,对某些严重依赖降水的土地覆盖类型,“变来变去”是自然条件年际变化的结果,是客观过程。由于遥感看到的是综合了自然过程和人类活动综合作用的结果,而管理部分更关注生态建设成果的趋势性,因此极易出现认知上的分歧。

4.4 数据质量管理对开放的影响

(1)数据质量:“由科研数据转化为业务数据”的质量控制事实上有两个步骤。

第一步,由数据用户按照每县20个左右样点的密度对数据库实地验证,这种验证除了少数样点在空间尺度上的代表性问题外,基本是客观的,生产者和用户也容易解释分歧。

第二步,由用户对数据的结果及其变化趋势进行认定。这种质量控制方式的效果好坏取决于用户的客观性和判断水平。用户凭借经验和感觉对数据修改提供建议,生产者与用户反复交流,客观上有利于提高数据质量,但是,在已经通过样点验证的情况下又质疑分类结果是不合逻辑的。

(2)用户:由于数据库需要用户认可才能结题,因此用户对“高质量数据”有最终解释权。同时,用户把科研数据认定为业务数据,涉及有些业务部门切身利益,因此对最终数据库验收签字有很大心理压力。按不同部门对数据库意见多次提出修改数据库建议,可能使数据库生产者无所适从。如果用户对某些类型特别感兴趣,可在事先对分类系统和样点布设重点处理,这样也使生产者有所侧重。

(3)生产者:在通过验证点检查之后,“按照用户感觉修改”这样的质量控制缺少客观标准,实际是通过10多次会商与专家组和用户反复讨论与修改,过程长达数月,限制了生产者的其他科研活动。

表4 不同土地覆盖数据库常见的定义差异

(4)数据共享可持续性:用户反馈的某些问题与数据粒度有关,而数据粒度的基础是经费和时间。实际上,某些省份一个代表年的数据库建设费用不足10万元。这样低水平的经费投入与数据库建设繁重的任务不相称,而且数据库建设工作并没有纳入目前的科研绩效评价体系。综合这些因素,把“科研数据”转变为“业务数据”面临许多不利因素。

5 结论

本文讨论了数据质量对数据共享的“双刃剑”效应,重点讨论过分要求高质量数据对数据开放的抑制作用。本文通过3个案例分析了数据质量管理对数据开放的影响。案例一介绍的科研数据,客观评估并全部开放质量信息,对改进数据质量和数据开放都是有益的;案例二介绍的政府业务数据,虽然质量很高,但是开放有限,因此全社会不得不进行很多重复性工作;在案例三中,综合了科研数据转换为业务数据面临的主要问题。本文主要结论与建议如下。

(1)对政府部门已有的高质量、多用途、高风险的数据库,可以参考案例一的模式,抽取一些具有公共价值,但是不涉及权属风险的信息。这可以极大地实现政府业务数据的潜在价值,并减少国家尺度上重复性的数据采集工作。

(2)对科学研究中产生的科研数据库,如果要转换为政府管理的业务数据库,生产者和用户双方需要遵循以下原则:数据库分类系统定义应该事先约定;数据粒度(尺度,分辨率)事先认可;数据精度验证需要客观性标准而非领导的主观感觉。

(3)数据质量(或数据不确定性)对数据共享有“双刃剑”效应。对数据质量的要求需要把握生产者和用户的利益平衡:对数据质量要求过低,用户利益受损;对质量要求过高,生产者压力过大,会对数据共享敬而远之。所有潜在的“可共享数据”来自数据生产者。过去10年,中国的遥感初级产品共享已得到长足发展,但是需要大量智力投入的遥感高级产品的共享却仍然困难重重。直接原因是,开发共享数据太难,给共享数据挑错太容易。间接原因是,在中国的科研环境中支持研究性论文,却不承认共享数据对科学研究的贡献,具体表现在研究所科研评价计分权重上。如果用户不能正确对待数据质量问题的普遍性、质量对尺度甚至科研经费投入的依赖性,数据用户将会丧失更多分享数据的机会。

[1] 冯春,郭伟,龙小祥,等.我国遥感数据共享探讨[J].中国科技资源导刊,2010,42(3):66-72.

[2] 郭建宁.促进卫星遥感数据资源共享的思考[J].中国科技资源导刊,2008,40(2):24-29.

[3] 孙中平,魏斌,申文明,等.环境一号卫星数据产品共享机制研究[J].中国工程科学,2011,13(3):38-44.

[4] 徐子沛.大数据[M].桂林:广西师范大学出版社, 2012, 7: 146-148;152-154.

[5] 刘闯,王正兴.国外科学数据管理政策法规和标准规范选编[M].北京:科学技术文献出版社, 2004.

[6] 易明灯.意大利6专家预测地震失误获刑6年[EB/OL]. [2013-06-01]. http://news.163.com/12/1024/03/8EI57 HFR00014AED.htm l.

[7] Solano R, Didan k, Jacobson A, et al. MODIS VI User’s Guide [EB/OL].[2013-06-01]. http://tbrs.arizona.edu/ project/MODIS/UserGuideC5/index.htm l.

[8] 曹云峰,王正兴,邓芳萍.基于Timesat的不同滤波算法对NDVI原始高质量数据的保真性能研究[J].遥感技术与应用, 2010, 25(1): 118-125.

[9] 柯灵红,王正兴,宋春桥,等.青藏高原东北部MODIS LST时间序列重建及与台站地温比较[J].地理科学进展,2011,30(7):819-826.

[10] 国土资源部.第二次全国土地调查基本农田调查技术规程(2008)[EB/OL].[2013-06-01]. http://www.doc88. com/p-983614011427.htm l.

[11] 国土资源部.第二次全国土地调查实施方案(2007) [EB/OL].[2013-06-01].http://wenku.baidu.com/view/ 0cadc00f76c66137ee06195b.htm l.

[12] 国土资源部.2010年度全国土地变更调查与遥感监测实施方案[EB/OL].[2013-06-01].http://www.m lr.gov. cn/zwgk/zytz/201010/t20101026_788670.htm.

Im pact about Data Quality M anagement to Data Sharing

Wang Zhengxing1, Diao Huijuan1,2
(1. Institute of Geographical Sciences and Natural Resources Research, State Key Lab of Resources and Environmental Information System, Beijing 100101; 2. University of Chinese Academy of Sciences, Beijing 100049)

Data quality have a “double-edged sword efect” on data sharing: inferior data may lead user to a w rong study, but over-high quality standard may keep data producer far away from sharing its data. This paper showcased the im pact of data quality management on data sharing in three cases: scientif c data (SD), operation data (OD), and transition from SD to OD. The conclusion: due to its big diference between SD and OD, turning SD to OD needs to reach a agreement on major issues beforehand, especially, a objective system for data quality validation.

data quality, data quality management, data sharing, double-edged sword efect, scientif c data, operation data, docking

G250.74

ADOI:10.3772/j.issn.1674-1544.2013.04.002

王正兴(1963- ),男,博士,副研究员,主要研究方向:资源环境遥感应用。

中国科学院战略性先导科技专项子课题“华北地区固碳参量遥感监测”(XDA05050102)。

2013年7月22日。

猜你喜欢
数据库用户质量
“质量”知识巩固
质量守恒定律考什么
做梦导致睡眠质量差吗
数据库
关注用户
关注用户
数据库
关注用户
数据库
质量投诉超六成