基于K-means聚类模型的汽油辛烷值影响因素分析

2021-11-24 05:08:43黄瑞
科学与生活 2021年18期

黄瑞

摘要:由于不同因素会对催化裂化汽油精制过程中辛烷值的损失产生一定影响,所以采用聚类的方法对其进行降维。通过动态聚类法中的K-Means聚类算法对涉及的367个变量聚类,得出40个聚类中心,再根据欧式距离计算公式选出距离聚类中心点最近的变量作为其代表性变量。然后对所得的40个代表性变量做斯皮尔曼相关性检验,在一定的显著性水平下筛选出最具代表性的22个主要变量,代表对汽油辛烷值影响较大的因素。

关键词:k-means聚类模型;斯皮尔曼相关性检验;汽油辛烷值

一、研究目的与意义

辛烷值是反映汽油机燃油抗爆性能的重要指标,列入车用汽油规范第一项。汽油辛烷值越高,抗爆性越好,发动机可以使用更高的压缩比。也就是说,如果炼油厂生产的汽油辛烷值继续增加,汽车生产厂家可以提高发动机的压缩比,这样可以增加发动机功率,增加里程,节约燃油,对提高汽油的动力性和经济性具有重要意义。

二、建立K-means聚类模型

已知模型变量样本集{X}中有n个样本和k个模式分类{sj,j=1,2,3...k},以每个样本到聚类中心的距离之和达到最小为目标,建立聚类问题数学模型如下:

其中:

公式(1)为目标函数,表示每个样本变量到聚类中心的距离之和达到最小;

公式(2)表示每一变量样本能且只能分配到一个聚类中心上;

公式(3)表示对变量樣本的均值向量进行求解;

公式(4)中yij为0-1变量,即yij为1是表示变量样本i分配在j聚类中心上,否则yij为0;

三、K-means聚类模型求解

第一步:任意选择k个初始的聚类中心为c1,c2,...ck;

第二步:逐一将样本集{X}中的各个样本按照最小距离原则分配给k个聚类中心的其中一个cj;

第三步:由上计算新的聚类中心c'j= ∑X(j=1,2,3,...,k),其中Nj表示第j个聚类中心包含的变量样本个数;

第四步:若满足c'j≠cj,转至第二步,否则即为算法收敛,结束算法。

根据以上进行数据处理后可得40个聚类中心。

四、欧式距离计算公式筛选主要因素

欧式距离也称欧几里得距离,是最常见的距离度量,衡量的是多维空间中两个点之间的绝对距离。也可以理解为:m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离,计算公式为:

六、结论

综合以上数据,通过对40个代表性聚类中心变量进行斯皮尔曼相关性检验可得22个对辛烷值有影响的关键性主要变量

参考文献

[1]胥红玉.浅谈汽油辛烷值的影响因素[J].石化技术与应用2019,37(5): 345-348.DOI:10.3969/j.issn.1674-4977.2020.05.016

[2]程杰.基于联立方程模型的保障房建设对房价影响研究[D].扬州大学,2019.

[3]JuanA.Herrada-Vidales,JuanM.García-González&JavierGuzmán-Pantoja(2020). Integralprocessforobtainingacetinsfromcrudeglycerolandtheireff ectontheoctaneindex.207(2),231-241.