肖尚勤 何 刚 黄金锋 冯 涛
1 中国舰船研究设计中心,湖北 武汉 430064 2 南京大学 软件学院,江苏 南京 210046
船舶工业是为国防建设、航运交通和海洋开发提供主要装备的战略性产业,是保障国家安全、发展国民经济和维护海洋权益的重要工业基础。加快发展船舶工业,对于加强国防现代化建设、加快海洋开发、振兴装备制造业、促进相关产业发展、扩大船舶出口等具有重要的战略意义[1-2]。
我国船舶工业经过五十多年的发展,经历了以军为主到军民结合的发展历程,走过了一条从小到大的成长之路。特别是改革开放以来,经过三十年来的不懈努力,我国船舶工业得到了快速的发展,造船效率明显提高、造船成本明显下降,根据国际造船业的发展趋势,我国船舶工业要实现发展成为世界第一造船大国、强国的跨越式发展目标,必须加快造船企业的信息化建设步伐,建立数字化设计、制造、管理及配套等完整的数字化造船体系,全面实现数字化造船[3]。
舰船设计是一个多专业、多系统、大规模的协同工作过程,周期长,流程复杂。设计人员必须在分布式环境下协同工作,利用数据的并发处理和控制功能及时获取同步的产品数据信息,协调设计过程中的各种关系,对设计过程实施并行、动态、实时控制[4]。目前,这些工作均由技术人员根据丰富经验,结合历史数据完成,存在着劳动强度大,精度不高等缺陷。通过建立知识库辅助舰船设计,根据总体指标自动对发生冲突的各分项指标进行权衡和优化,将分析所得到的知识集成到业务信息系统的组织结构中可以大幅提高设计质量,减少设计差错,提高研发效率,增强并行协同设计制造能力,保证舰船设计的总体最优,进而提高整个造船工业的设计制造水平。
知识库[5]是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是合理组织的关于某一特定领域的陈述性知识和过程性知识的集合,采用某种知识表示方式进行存储、组织、管理和使用,知识库中通常蕴含着客观规律、理论知识、事实数据之类的底层信息,或是由专家经验得到的启发式信息,通过简单的查询和搜索不能获取这些信息,需要在海量数据的基础上,经过分析推理等方法提炼出来。
随着信息化技术的不断发展,舰船设计广泛采用数字化工具建模,所存储和处理的数据与日俱增,当这些数据累计到一定程度时,就会产生一些规律性的结论。通过知识工程的方法积累和重用现有舰船设计的数据,进行研发创新,以更低的成本、更少的时间设计出更加优异的船舶产品,对于企业保持快速研发反应能力和竞争优势至关重要。
知识库来源于数据库,但不仅仅是数据库,它不仅使用数据库中的事实数据来表达知识,而且使用数据库的逻辑蕴含来反映知识规则的因果关系,以实现知识库的推理功能[6]。基于舰船设计的知识库结构均为确定性的知识,将知识库中的产生式规则表达引入数据库,并根据数据库的特点,对产生式进行特定的表达。
本文采用实体—属性—联系模型,其数据模型表示为:实体<Entity>,属性<Attribute>,联系<Relationship>,通常规则采用多元组的形式表示,即 E(A,R),其中,E表示实体,A表示实体 E的属性,R表示与实体E相关的联系,通常一个实体包含多个属性与多个联系,属性和联系分别可以表示为 A{A1,A2,…,Am},R{R1,R2,…,Rn}。
以舰船设计中某一专业范畴的设计参数为属性,相关参数之间关联所具有的制约和依存规则为联系,例如某管路设计,其属性包括长度、直径、材料等,其联系包括附加阀门、传输燃油等信息,则可表示为:
管路({长度,直径,材料…},{附加阀门,传输燃油…})
通过数学建模,将多专业多学科数据联系起来,形成多维的舰船设计集成与优化知识库,其结构如图1所示。
图1 舰船设计集成与优化知识库结构
该知识库最底层为舰船设计各专业与学科基础数据,中间层是经过分类与组合后的模型库,最高层是将设计与仿真分析相关数据集成优化后的知识库。以中间层模型库为控制对象,因此知识库的基本结构是层次结构,是由其知识本身的特性所确定的[7]。在知识库中,数据层之间通常都存在相互依赖的关系,设计模型库(DMB)和仿真试验模型库(EMB)是集成与优化知识库(KBOI)的基础核心内容,包括各专业模型库数据,两者建立统一的索引及通用接口,可以对集成与优化知识库进行访问与操作,索引以关系方式进行组织,通过关键字或模型字典表达各个基本模型元数据之间的关系。
为了能够有效管理知识库中的海量数据,并快速分析出其中有用的信息,需要对多维的数据模型进行关联与分类,如为了实现节能减排,设计时需要考虑结构、管路、电力、动力等多个方面的优化措施。这是一个在数据中进行推理匹配的过程,挖掘关联规则首先是挖掘出频繁项目集,其次是生成关联规则,然后去除冗余规则,这一过程随着数据类型的多样化,计算复杂度较高。根据舰船设计知识库多专业的特点,本文根据Apriori算法[8-10]提出根据问题支持度生成决策集,从而确定数值型与类别型属性概念层次的方法,提高了算法的计算效率以及可扩展性。
设属性集为 A= {A1,A2,…,Am},关系集为R= {R1,R2,…,Rn},Z 为事务数据库,也即是设计过程中,对每一个逻辑单元执行的一系列操作,X,Y⊆A×R是由属性及关系构成的项目集合,称为项目集,也即是多维数据集。
如果项目集X中包含k个事务,则称其为k-项目集。项目集X有两个重要性质:若X为频繁项目集,则X的所有子集都是频繁项目集;若X为非频繁项目集,则X的所有超集均为非频繁项目集。
设X∩Y=φ,多维多层模式X∪Y为关联规则,记做X→Y。
如果事务数据库Z中有s%的事务包含X,则称项目集X的支持度为s%,记为s%=support(X,R)。则可以定义,如果对X∪Y的支持度大于用户给定的最小支持度阈值,就称该项目集是频繁项目集,记为minsupp≤support(X∪Y,R),事务数据库Z中支持X∪Y的事务数与支持X事务数的比值称为该关联规则的支持度阈值,记为minsupp≤support(X∪Y,R)/support(X,R)。
多维数据关联与分类过程如下:
1)首先扫描事务数据库Z,根据实际应用地意义对概念层次结构进行重组,分割属性类型集和取值区间,计算出所有1-项目集的支持度,从而得到满足minsupp的频繁项目集X1;
2)通过k-1频繁项目集Xk-1与X1的相互组合,扩充到后选k-频繁项目集Xk,当后选k-项目集的某个k-1的子集不属于Xk-1时,则该子集对于频繁项目集Xk而言是冗余规则,可以去除;
3)计算Xk中各个项目集的支持度s%,删除不满足支持最小支持度s%的项目集,形成简约完整的频繁项目集。循环迭代后,找出所有的频繁项目集,可计算出关联规则的支持度minconf;
4)支持度minconf也即是该优化方案的可执行度,设计时,根据支持度选择相应最优化的参数。
在实际舰船设计知识库的应用中,不同专业项目关联支持的概率差异非常大,如果采用较大的单一支持度,很多相关的有价值信息将丢失,如果采用较小的单一支持度则会产生很多冗余规则。所以,为不同专业设置合理的支持度阈值非常重要。如在船体型线设计中,中横剖面系数Cm为中横剖面在设计水线下的型面积Am与其相对应设计水线宽B和设计吃水T的乘积,可以表示为:
内河船和大型运输船的中横剖面系数较大,中横剖面较丰满;快速船和中小型船的中横剖面系数则较小,因此,在实际应用中,可以针对所设计船的种类,设定中横剖面系数Cm的支持度阈值,得到最为相关的取值,则可以方便计算出Am=Cm×B×T,并可挖掘与之相关的信息,如总长、垂线间长、型深等参数,计算船体重心浮心,提高设计精度和准度。
知识库系统具有完整的数据管理功能,能够提供原始数据,又能动态组合复合数据,提高了设计的灵活性和扩展性,降低了设计难度,不仅侧重于数学模型的分析,对于评价、规划和预测类的分析也提出了更高的要求。数据仓库、联机分析技术的发展为数据分析提供了更加有效的支持。以多维数据模型为核心的数据仓库和联机分析技术相结合,能够从不同的角度分析数据,不仅提高了总体性能分析的决策能力,有利于数据分析的多目标性,也为数据分析的有效性提供了有力支持。
在舰船综合性能分析系统结构框架中,将定性分析与定量分析相结合,基于集成模型的方法实现知识的自动获取,以多知识库集成模型数据分析为主体,构建一个综合性能分析系统架构模式如图2所示。
舰船设计综合性能分析系统以集成模型库和知识库为核心,将多维数据挖掘与分类、知识推理、数据仓库以及联机分析技术的有机结合,将以模型驱动为基础的分析模式提升为数据驱动的分析模式,从大量的数据中发现知识并验证知识,并将知识辅助和用于设计分析,实现了综合的决策融合,大大增强了数据分析基础,具有更好的智能决策支持能力。
其中,海量数据仓库用于存储和组织历史设计数据,包括船体、动力、电力、结构、管路等多学科多专业的设计资料和文档资料,通过对底层数据库中的数据进行集成、转换和归类,重新组织成面向全局的多维数据试图,为模型集成、联机数据分析提供数据支持。
联机数据分析处理从海量数据仓库中构建面向分析的多维数据模型,再通过多维分析方法从不同的视角对多维数据进行分析、比较和解释,行成可读信息。
数据挖掘以海量数据仓库中的大量数据为基础,自动发现数据中潜在模式,为各个环节提供知识支持并以这些模式为基础实现决策支持。主要包括两个方面:一是从大量历史数据中发现设计优化特性、性能优化特性等相关知识,支持舰船设计制造过程中各个环节的进行;另一方面发现设计优化的典型模式和潜在规律,建立舰船综合性能分析模型,提升设计质量。
知识库及知识推理用于存放和管理由数据分析得到的各种知识,为集成与决策建立了基础,在决策过程中为模型的顺利运行提供知识推理和规则调用,并可根据模型运行情况来改进集成模型库中的模型,从而提高模型库的智能性。
集成模型库用于通过知识经验规则协助用户建立、存储和管理多种综合应用模型,实现多知识库模型集成决策融合。
信息融合有两个外部交互接口,一个是与知识库通信的接口,通过专家经验知识或从数据库中进行数据挖掘等渠道来建立知识库;另一个是用户接口,与用户进行中间交互,返回分析运行结果等。
在具体舰船设计的应用中,首先对决策问题进行数学建模描述,然后系统对问题进行分析推理,通过模型集成库的智能性判断及模型选择优化,实施模型的优化运行、评价、模型的求解和结果显示输出。根据舰船设计多年的历史数据积累,进行仿真测试与应用开发,提高设计质量和设计效率。
耐波性是舰船设计中一个非常重要的数据,涉及到船在波浪上各种运动及其后果的复杂现象。与耐波性相关的参数有很多,以某排水量2 580 t船的设计数据集为基础,对其中的某些参数进行数据挖掘测试,该船所处海域为我国南方海域,涌长约为60m,波浪周期为6 s,该船总长度为 108m,最大船宽 14m,设计吃水 3.8m,其主要船型系数中,方形系数Cb=0.489,水线面系数Cwp=0.744,多维数据关联规则的目标是发现对耐波性影响较大的属性,表1为数据挖掘后的结果,可以分析出相关属性个数、挖掘时间、支持度与频繁项目集之间的关系。
表1 耐波性参数挖掘
由表1可以看出,对于同一个参数,关联属性数量不同,挖掘时间也不同,对耐波性影响最大的几个参数分别是船长、水线面系数、涌长与船宽。事实上,舰船设计过程中,一个参数的改变将引起其他参数做出相应的变化,因此对耐波性的影响应该做出综合考虑,随着数据规模的增加,算法的复杂度大大增加,为了挖掘更大规模的数据集,可以采用分块的思想对大规模数据集进行多维关联规则挖掘,以期得到更好的设计参数。
将设计模型库和仿真分析模型库进行有效的集成优化,形成多维设计信息知识库,在其基础上结合数据挖掘和联机分析,可以解决目前舰船设计中模拟预测分析等关键性的核心问题,充分高效地利用已有的知识和模型进行研发设计。
通过建立基于知识库的舰船智能化设计系统,将舰船设计研发相关的技术、流程、经验和数据等资源进行有效管理,采用知识工程手段将零散的资源整合,提取出潜在有用的信息,随着工作的持续进行,一方面提高了企业的研发水平,另一方面也为企业积累了异常珍贵的智力资产。围绕船舶工业的发展目标,大力发展舰船数字化设计技术、整合优势资源、推广现代造船模式,对于提升我国船舶行业数字化造船水平,增强国际市场竞争能力具有重要意义。
[1]曹玉姣.我国数字化造船发展现状[J].船舶工程,2008,30(3):6-9.
[2]黄迪.数字化造船:中国造船工业的必然选择[J].中国水运,2008(10):44-45.
[3]乔珊,应文烨,何刚.舰船数字化设计应用研究[J].中国舰船研究,2007,2(4):20-25.
[4]吴广明.CAE在船舶结构设计中的应用及展望[J].中国舰船研究,2007,2(6):30-34.
[5]王忠祥,郭宝恩.基于数据库的知识表达与推理研究[J].机械设计与制造,2005(9):152-154.
[6]徐循.数据挖掘算法与应用[M].北京:北京大学出版社,2007.
[7]LEE K H,KIM K S,et al.Development of enhanced data mining system to approximate empirical formula for Ship design[J].Lecture Notes in Computer Science,2007(11):425-436.
[8]AUBRT D,NOVELLI N,MELANCON G.Visually mining the datacube using a pixel-oriented technique[C]//11th International Conference on Information Visualization,Zurich,2007.
[9]SHAHRABI J,NEYESTANI R.Discovering iranians’ shopping culture by considering virtual items using data mining techniques [J].Journal of Applied Sciences,2009 (13):2351-2361.
[10]CHEN M.Raning discovered rules from data mining with multiple criteria by data envelopment analysis [J].Expert Systems with Applications,2007(33):1110-1116.