韩志军
(装甲兵学院, 安徽 蚌埠 233050)
计算机仿真系统中数据VV&C研究
韩志军
(装甲兵学院, 安徽 蚌埠 233050)
计算机仿真系统建模与仿真需要数据的支持,数据质量制约着仿真的成败。首先介绍了数据校核、验证与鉴定(VV&C)的基本定义,然后确定了仿真全寿命周期在不同阶段数据VV&C的内容,最后给出了数据VV&C评价质量模板。
计算机仿真系统;建模与仿真;数据VV&C;数据质量模板
任何一个成功的计算机仿真系统都是建立在可信的数学模型、科学的仿真算法和高质量的数据基础之上的。然而长期以来,人们把主要的精力都放在了如何建立更符合实际情况的数学模型、如何编制一套更科学合理的仿真算法,却忽视了在仿真过程中也起到重要作用的数据质量问题的研究。
数据是实际信息应用在推理、讨论、理解、交流、预测、计算中的陈述符号,数据仅仅是信息的代表,在很多程度上依赖于建模与仿真结果的可信度,数据的正确或错误只能依赖于应用。因此,数据的描述或模型的正确性只能在某个规范里面定义。所以,数据就像模型一样,在它的应用领域内从来不是绝对正确的,这就需要对建模与仿真全生命周期的数据进行校核、验证与鉴定(VV&C),通过保证数据质量进而来提高仿真系统的可信度。
鉴于其重要意义,美国国防部在“建模与仿真主计划”中强调所有VV活动的输入数据集上都要进行VV&C活动,并在其VV&A建议指导规范RPG(Recommended Practice Guide)率先提出了数据VV&C的概念。数据VV&C基本定义如下:
数据校核(Data Verification):通常是保证数据的评估相互之间是一致的,并且符合规范以及一般的或专门的应用需求,确保所选的数据对应用是最合适的,对模型是正确的准备。数据校核分为数据提供者校核和数据用户校核。数据提供者校核是指确保数据满足数据标准和业内规则的技术和程序,而数据用户校核是确保满足用户要求的数据标准和业内规则,并且被正确转换和格式化的技术和程序。
数据验证(Data Validation):数据验证是领域专家判断数据是否符合它们所代表的实体,合乎专门或普通的应用,就仿真而言能否准确地代表真实世界,并作出证明性评估。数据用户验证是对数据是否适用于模型的书面评估,数据提供者验证是对数据是否符合规定的判据和假定条件的书面评估。
数据鉴定(Data Certification):对已被校核和验证的数据的认定。数据用户鉴定是用户运用主办者或指定的VV&A代理作出的、对数据已被校核和验证且能够适用于特定模型与仿真的认定。数据提供者鉴定是数据提供者作出的、对数据已被校核和验证且符合特定数据使用者规定的标准和判据的认定。
简言之,数据校核是判断所用数据是不是正确的过程,数据验证则是判断是不是应用了正确的数据,而数据鉴定是借助于专家或第三方代理判定数据能不能应用于建模与仿真的过程中。对数据进行VV&C的整个过程也就是校核数据内在一致性和逻辑相关性,验证它描述针对特定目的的现实世界实体的特征,鉴定它的质量达到了某种特定的层次或适合某项特定的仿真应用。
在仿真中,不可能把模型与数据分离开来进行评估,仿真和数据的依赖关系使得数据VV&C活动成为建模与仿真VV&A过程的一部分。图1列出了围绕建模与仿真开发过程中数据VV&C活动过程。图的上半部分是建模与仿真过程,下半部分以黑体加粗文字标注的是VV&A过程,而围绕着VV&A过程的其它部分是相应的数据VV&C过程,从图1中可以看出将数据VV&C分为16个阶段。
图1 计算机仿真建模中数据VV&C过程
(一)需求阶段数据的校核与验证
该阶段鉴别和确定特定应用的仿真系统数据需求,如数据的意义和类型等。一旦数据需求确定,用户就应该开始找出合适的、有权威性的数据源采集候选数据和元数据。仿真数据的校核与验证人员或主题专家应仔细地对所需要的数据进行审查,以保证它们足以支持应用程序。审查应该确定合适的数据种类以及聚合程度、准确性、保真度和数据质量是否已得到校核,以提出应用程序的需求。
(二)概念模型阶段数据的校核与验证
许多数据的选择决策在概念模型的研制阶段产生。由于数据可用性和数据的适用性对模型设计有着重要的影响,因此这一阶段的主要内容有以下几项:
检验数据源和可用性。一旦确定了候选数据源,其元数据就应得到审查,以确保数据源的权威性、对应用的合适性。
检验元数据的合适性。一旦数据源得到了检验,元数据就应该得到审查,以确保它们能为给定的应用提供完整描述数据所选的信息。
检验输入数据库。输入数据库,即对所有输入实例数据的聚合集进行审查,以确保它们的充足性和完整性,并将其映射到算法、模型或仿真部件中,用以确定它们对应用的合适性。同时需要生成一个采样输入数据库,以证明数据提供者能在应用程序所需的期间内以正确的格式提供正确的数据。
检验输出数据的特征描述。应检查在仿真程序中使用的、经过鉴定的模型,以确保它们能够提供支持应用程序需求的输出数据。
提供验证数据。由于结果验证通常是将仿真系统的结果与目标数据相比较,从匹配的程度来确定仿真系统的可信度。仿真系统可以分为目标系统在现实世界中存在与不存在两种情况。对于目标系统在现实世界中存在的仿真系统,验证数据可以从物理测量、试验场结果、历史记录中得到。但是对现实世界中不存在的,如未来战争仿真、研发项目的先期技术演示等,我们不可能得到这些数据的权威数据源,从而没法提供验证数据来进行对比。在这种情况下,可以借助领域专家根据其经验对结果判断来得出结论。
(三)测试与实施阶段数据的校核与验证
在这一阶段,仿真系统设计使用的数据以代码形式实现,实际的输入实例数据集将被初始化和测试。此时,应将需求追溯到实现软件的部件中,测试独立的算法和模型,审查数据与代码的关系,以利于正确操作。
校验初始化数据。审查初始化数据集,以确保它们继续与原始数据相符,并保持了原目标所需的准确性、保真度和完整性。
结果验证。进行结果验证的目的是确定仿真提出的应用程序需求范围。由于数据和仿真程序不可避免地交织作用(如果一个不正确也就不能证明另一个不正确),所以验证工作一起进行。
验证数据。数据验证的目的是为确保输入数据适用于特定应用的特定仿真。所有用来驱动模型的数据都要经过验证,但仅是数据的数量就使这些验证在资源和进度限定下都不现实。需要进行认真规划来确定和安排关键数据成分的优先次序,要优先考虑那些最直接对模型的应用性能产生影响的数据。
错误判定。要审查仿真输出和验证数据之间的差异,以确定可能的原因。错误可能是由于代码、输入数据、输出数据、验证数据等因素或它们的任何结合产生的问题所致,确定这些原因非常重要。对于有分歧的数据应该能够回推到模型、算法和输入数据上来进行检查。当找出错误的原因时,要记录该信息提出解决问题的建议。
数据可信度要求提高数据质量,而数据质量与应用目的有关。评估的结果应被准确地记录,供仿真系统开发和系统维护人员使用。数据质量不能用一个简单的数字来表示,它应是数据提供过程中多方面信息的捕获,并将其作为元数据提供给数据用户。元数据是用来描述数据或数据的某些方面的数据,这些方面包括:定义、安全、分类、正确度、精度、来源、使用局限和有效日期等。
由数据生产者填写的数据质量元数据模板给出了综合的元数据字段列表,它的作用主要在于:帮助M&S用户理解数据质量,从而判断数据是否适合其特定需求;辅助数据提供者提供有用信息给用户,指导数据用户获得提供者生成的数据质量信息类型,以支持数据选择和VV&C活动。数据质量是站在数据生产者角度来说的,即数据生产者按照规格产生数据,而该规格的基础是对真实世界的某一侧面的抽象表示,数据生产者的任务是产生能满足该目标的数据。数据生产者开展数据V&V,并将V&V结果记录为质量信息元数据。以支持其数据质量工作。
模型和仿真用户将利用数据质量信息开展M&S的VV&A工作,即将数据作为模型和仿真不可分割的一部分。这些VV&A活动确保将可用的最佳数据用于其算法,从而确保模型和仿真结果的可信度。作为反馈,用户对数据开展V&V活动后,应该将数据V&V的结果告诉数据提供者,数据提供者可根据此反馈结果更新其数据的质量元数据,方便其他用户借鉴,避免不必要的重复性数据V&V活动。
质量模板是从用户角度考虑的,一般将元数据定义三个层级:数据库级、数据元素级和数据值级。数据库级的质量信息如表1所示,数据元素级的质量信息如表2所示,数据值级的质量信息如表3所示。
表1 数据库级数据质量元数据的质量信息
表2 数据元素级数据质量元数据的质量信息
表3 数据值级数据质量元数据的质量信息
现代计算机仿真系统一般由若干个子系统和下属分系统甚至子分系统等构成,具有结构复杂、层次多、规模庞大,使用模型复杂、运行时空范围广、系统新技术含量高、仿真功能强且具有严格可信度要求、开发费用昂贵、建造风险大等特点。目前,在进行计算机仿真系统开发时,人们关注的大多是仿真模型的校验和验证,而对于数据VV&C还缺乏足够认识和应用。数据的VV&C是保证数据正确性的一个重要的技术手段,在计算机仿真系统的设计与运行过程中引入数据VV&C,能够有效提高仿真系统的可信度和确保系统的最有效应用。
[1]DMSO.DoD Modeling and Simulation(M&S)Master Plan(5000.59)[R].October 1995.
[2]胡晓峰.战争模拟原理与系统[M].北京:国防大学出版社,2009.
[3]曹星平,黄柯棣,等.数据的VV&C研究[J].计算机仿真,2004,21(9):54-56.
[4]Jeff Rothenberg RAND.A Discussion of Data Quality for Verification,Validation and Certification(VV&C)of Data to be Used in Modeling[R].June 1998.
(责任编辑:魏树峰)
同理由(3)式得:
将(x,y)换成极坐标,令Δ1=C*Δt1,Δ2=C*Δt2
则(4)(5)两式写成:
消去r得并代入坐标点,令:
x=rcosθ y=rsinθ由此可以算出发生源坐标(X, Y)
其中A、B、D代表实际测试中任意声源位置,在本系统中对应麦克风的坐标。根据以上理论算法,我们实现了通过固定麦克风采集可变位置声源信息,并确定声源位置的软件程序功能。
基于MC9S128XS128单片机设计的声音定位系统在测试中基本实现了声源信号定位的功能。由于我们设计的采样声音频率为500Hz,测试过程中较好的解决了外界声音信号的干扰,但是部分延时程序的运行也造成了一定的位置误差。
该系统是对声音定位功能应用的有益探索,但考虑到实际应用中的复杂环境,以及声音采集装置精确度的要求,我们将继续开展相关研究,希望能通过算法的改善,程序运行效率的提高,硬件性能的提升方面不断完善系统的应用功能。
参考文献:
[1]康华光.电子技术基础模拟部分 [M].清华大学出版社.2001.
[3]童诗白,华成英.模拟电子技术[M].北京:北京航空天大学出版社.2002.
[5]陈慕羿.基于到达时间差的平面声无源定位技术研究[J]:科技创新导报,2009,(9).
(责任编辑:袁 媛)
Data VV&C of the Computer Simulation System
HAN Zhi-jun
(Armored Force Academy,Bengbu 233050,China)
The modeling and simulation of computer simulation system need supportive data,so data quality is essential to the success of simulation.Firstly,the definitions of data VV&C are introduced.Then the contents of data VV&C at different phases in the simulation life cycle are defined.Finally,the evaluation quality template of data VV&C is presented.
computer simulation system;modeling and simulation,Data VV&C,Data Quality Template
TP391.9
A
2016-11-25
韩志军(1976-),男,河南郾城人,讲师,博士,研究方向:计算机建模与仿真。E-mail:hanzj6@163.com.
1671-802X(2016)06-0023-05