蒋彧琛 方鹏程
摘 要:车间生产数据,以零件加工为例,几乎所有的零件都具有十几项乃至几十项属性或特征,因此每个零件都可以视为高维空间上的点。由于高维空间通常是违背人类直觉的,而且当数据的维度非常高时,必然引发“维数灾”,导致许多数据挖掘算法不能正常执行,因此从原始数据中很难直观地发现数据中所包含的信息。放射性可视化技术就是将高维数据进行“降维”,运用力学原理和数学方法对高维数据进行转换,映射成二维散点图,从而对零件进行分析和可视化管理。
关键词:放射性可视化;数据挖掘
中图分类号:TP391.41 文献标识码:A 文章编号:2096-4706(2018)02-0176-03
The Application of Radioactivity Visualization Algorithm on Analysis of
Workshop Production Data
JIANG Yuchen,FANG Pengcheng
(Beihang University,Beijing 100191,China)
Abstract:Workshop production data,for example of parts processing,almost all parts have more than ten or even dozens of attributes or features,so each part can be regarded as a point on high dimensional space.Because the high dimensional space is usually contrary to human intuition,and when the dimension of the data is very high,it will inevitably lead to "dimension disaster",which causes many data mining algorithms to not be executed normally,so it is difficult to find the information contained in the data from the original data.The technology of radioactivity visualization is to“reduce the dimension”of the high dimensional data,and use the mechanics principle and mathematical method to transform the high dimensional data,map into the two-dimensional scatter plot,so as to analyze and visualize the parts.
Keywords:radioactivity visualization algorithm;data mining
1 零件样本及其描述
表1是生产车间的一组零件样本,为了便于说明问题,共选取20个零件,经过数据预处理工作的数据特征提取,设定每个零件包含4项主要特征。
1.1 单件大小
反映零件的体积:1级最小,4级最大。零件的体积范围是根据生产车间自身的特点设定的,零件体积的大小对零件库存、缓冲区零件数量有重要的影响,进而影响车间的调度排产。
1.2 计划等级
零件的计划等级反映了零件的排产和调度的优先级别:2级最低,8级最高。
1.3 零件材料
表1中的零件均为合金钢材,主要包含碳、铬。这两种元素对钢组织性能的影响如下[1]:
(1)铬元素与钢的淬透性相关,并且能与碳生成Cr3C,并且会以颗粒状的形式弥散性分布在金属基体上,使零件的强度、硬度、耐磨性有显著性提高,但会降低零件的塑性和韧性。
(2)碳元素与钢的淬硬性相关,零件的强度和硬度一般会随着碳含量的增加而上升;零件的塑性和韧性一般会随着碳含量的增加而下降,当零件中的含碳量大于1%时,零件便具有很大的脆性。
综上所述,碳、铬元素的含量对零件强度、硬度、塑性和韧性影响较大。在一定含量范围内,材料的加工难度和两种元素的含量成正相关关系。
1.4 校检周期
校检周期是指在零件的生产加工检验过程中允许的最长间隔时间,是车间生产周期管控层面的一项关键绩效指标。[2]
2 数据准备
观察零件的各个属性,其中既包含数值型变量,又包含非数值型变量,而且度量单位和物理意义均不相同,无法进行统一的数学运算。因此,需要对表1中的数据进行标准化处理,使标准化后的各个属性均以数值的形式分布在区间[0,1]上。
本文采用最小—最大标准化方法。[3]设属性Km的数值,其中;。是经过标准化后的数据。
对于非数值型属性K3(零件材料),根据钢的牌号计算铬元素和碳元素的总含量以衡量零件的加工难度系数。
3 放射性可视化原理及算法
放射性可视化原理是利用胡克定律,将高维空间上的点映射到二维平面,进而形象化地挖掘数据中的隐含信息。
4个属性对应四维空间,每个零件分别对应四维空间上的一点,即 , 是该零件经过4个属性综合作用后映射到二维平面上的投影点。其中,表示单个属性对该零件的影响,;;。
如图1所示,将零件的4个属性顺时针、等间隔固定在平面坐标轴的4个点上。利用胡克定律在四维空间和二维空间之间建立映射关系。
四维空间上的每个点 同时受四个力F1n,F2n,F3n,F4n的综合作用,其中n=1,2,…,20。根据胡克定律:F1n是系数和点 与点 之间的距离向量的乘积,即:
同理:
对于点Pn(xn,yn),由于所受合力为零,即F1n+F2n+
F3n+F4n=0,因此:
即:
得到 点的横纵坐标:
4 数据分析
零件信息二维散点如图2所示:
4.1 象限上的点
两个相邻的坐标值远大于其他坐标值的点经过映射后,位于某个象限上。例如 的二维坐标是 ; 的二维坐标是 ,两个点均在第四象限上。
4.3 坐标轴附近的点
两个有间隔的坐标值远大于其他坐标值的点经过映射后,位于坐标轴附近。
4.4 圆周附近的点
如果四维空间上的点只受某个维度作用,例如,那么该点经过映射后将刚好位于圆周上的一个固定点 上,可以表示为该零件的单件体积小、计划等级低、校检周期短,但是加工难度大。
5 结 论
放射性可视化算法强调的是维度值之间的关系,即零件四个属性的综合作用,而不是各个维度的绝对值,例如编号为16的零件,在四维空间的坐标值互相接近,为 ,合力几乎为零,其在平面上的投影点为 ,该点位于圆心附近,表示单件大小、计划等级、加工难度以及校检周期对16号零件的作用“勢均力敌”。
将高维数据点映射成直观的二位散点图,更便于将零件进行聚类分析以及发现特殊零件。该算法对于具有更多属性、更高维度以及更多类型的数据同样适用。
参考文献:
[1] 张彦华.工程材料学 [M].北京:科学出版社,2010:34-35+119.
[2] SP95ISA-95,企业系统与控制系统集成国际标准 [S].美国:仪表、系统和自动化协会,1995.
[3] Cios,K.J.,W.Pedrycz,R.W.Swiniarski,L.A.Kurgan,DataMining:AKnowledge Discovery Approach,Spinger,New York,2007.