(河北建筑工程学院能源与环境工程学院 河北 张家口 075000)
Applicationoflinearnormalizationinregressionanalysisofinfluencingfactorsofwagedistribution
【Abstract】The distribution of income is closely linked with the enterprise human resources strategy management factors,and the enterprise wage distribution influenced by various factors,usually can use the principal component analysis and linear fitting method to find salary allocation of main factors,in order to find a better allocation of practicability and operability,before in the application of this method needs to be normalized processing to various influence factors,otherwise will lead to the result is no comparison,affect the results of data analysis.
【Keywords】Wage distribution;Linear fitting;Principal component analysis;Linear normalization.
工资总额分配是与企业人力资源战略紧密联系的管理要素。企业在各个省市分公司应该综合考虑地区差异、收入与成本规模以及收益等因素,科学配置工资总额,以提高管理水平、提升竞争能力、促进企业经营发展。目前已知工资总额分配可能与地区差异、收入与成本规模以及收益有关,但为了能够制定实用性和操作性更好的分配方案,需要对影响因素进行优选,减少影响因素,提高模型的可操作性。在此,先利用主成分分析简化模型影响因素,在利用最小二乘法得到最终比较简单的组合算法成为合理的模型建立方案。数据来源于2019年河北省研究生数学建模竞赛第四题。
首先需要对题目中所列举的对工资分配有影响的因素进行主成分分析,以确定对工资分配影响较大的因素,先利用SPSS软件对分配的工资总额及所提供的影响因素等数据进行主成分分析,分析结果如表1所示。在筛选出的三个主成分的成分矩阵中选出所占比重>0.9的影响因子(第三主成分影响因子的选取标准为所占比重>0.85),初步确定每个成分中起主导作用的影响因子[1][2]。
表1 旋转成份矩阵
通过表1,可知该国有企业26个省各分公司所分配的工资总额主要的影响因素为筛选的三个主成分,三个主成分的主要影响因子如下:
主成分Ⅰ:GDP和业务总收入;
主成分Ⅱ:城乡居民可支配收入、商品房平均销售价格和其他国有企业员工平均工资;
主成分Ⅲ:成本费用率和人事成本费用率
通过上一节中求出该国有企业26个省各分公司所分配的工资总额受到三个主要因素所影响,接下来需要将三个主成分与工资分配总额之间建立数学模型,这里使用最小二乘法[3]以及线性拟合将三个主成分和工资分配总额联系起来。
影响26个各省市分公司工资分配总额的三个主成分及其各自的影响因子需要确定合适的计算规则,计算规则为将确定的每一个主要成分中的影响因子与2018年工资分配总额进行拟合,对于拟合程度不高的,判断标准为根据R2进行判断,当R2<0.9时拟合程度较低,加上系数1并取对数(ln函数);拟合程度较高的取平均值。再将数据导入MATLAB进行线性拟合[4],以得到最优解及拟合曲线。最后对线性相关的结果进行分析。
当使用原始数据直接代入时,得出结果为:
f=10000y+237260000z-393420000
式中:y——第二主成分
z——第三主成分
通过观察拟合的结果,可发现该式中只包含了两个主成分为没有包含第一主成分,之后将模型计算结果与2018年实际分配结果进行比较,结果如图1,横轴代表26个省市,纵轴代表分配金额。
图1 原始数据代入后生成模型与实际分配方案的比较
图1中发现模型计算结果和2018年实际分配结果误差过大只有在少数几个省份误差较小,大多数省份的误差过大,这使得模型准确度不高。
分析以上造成误差较大的原因在于模型代入的数值为原始数据,而原始数据中不同类别的数据之间的差距都在不同的数量级中,这将会导致数据淹没,即模型只会会反应数量级较高的数据的变化趋势而数量级较小的将不会显示出来,使得指标与指标之间失去可比性。
根据上节中,由于不同类别数据之间数量级相差较大,所以需要将数据转化到同一数量级下再进行线性拟合计算,这时需要将数据进行归一化处理,数据归一化目的就是为了把不同来源的数据统一到同一数量级(一个参考坐标系)下,因为不同评价指标具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,那么就需要对数据进行归一化处理,解决数据指标之间的可比性问题,使得各指标处于同一数量级,适合进行综合对比评价。
本次采用线性归一化对原始数据进行处理,是对原始数据的线性变换,使得结果值映射到[0,1]之间。转换函数如下:
然后将转换后的数据按上一节提及的计算规则计算每个主成分,并导入Matlab中进行线性拟合[5][6],其结果为:
归一化后的拟合结果中体现出三个主成分对工资分配总额的影响,然后将拟合得出的模型计算结果与2018年实际分配方案进行对比,如图2所示,模型计算结果与2018年制定的分配方案误差分析表,见表2。
图2 线性相关模型拟合结果与2018年初制定的工作分配方案的对比
序号省公司2018年实际(万元)模型计算结果(万元)相差(%)1广东384414363094.4675.55%2江苏348110350896.1775-0.80%3浙江279441303421.7535-8.58%4山东243007247558.716-1.87%5四川218626185981.164514.93%6北京180483184735.6935-2.36%7湖北177829173453.19152.46%8河北156861165723.945-5.65%9黑龙江155617154734.4950.57%10福建155049151657.4492.19%11湖南152664147664.61553.27%12辽宁124977122718.5641.81%13山西116547107369.96557.87%14广西108714100996.08457.10%15陕西10627598834.8267.00%16重庆10517598761.5636.10%17江西9378297552.7235-4.02%18吉林8928595428.0965-6.88%19内蒙古8369792937.1545-11.04%20云南8192189750.214-9.56%21贵州6821480848.7595-18.52%22天津6380668980.1535-8.11%23甘肃5579051543.55957.61%24海南3079037623.5895-22.19%25宁夏2151821615.624-0.45%26青海1809926744.034-47.77%
如图2所示的归一化结果,在图像上查找拟合较离散的点,曲线代表模型计算结果,散点代表2018年实际分配方案,横坐标代表26个省,纵坐标代表分配的金额。若散点高于曲线,说明2018年初定的工资总额分配偏高;反之,若曲线高于散点,则说明2018年初定的工资总额分配偏低;散点与曲线重合或相差较小,则代表2018年初定的工资总额分配较合理,且表3上的误差分析也表明,模型计算结果与2018年制定的工资分配方案相差较小,上述与题目中每年工资分配总额都是在上一年工资分配总额基础上结合上一年企业营业状态进行微调的条件相符。
(1)对影响企业的工资分配总额的因素进行线性拟合,能得到实用性和操作性较好的方案,以此制定更加合理的工资分配方案。
(2)当需要处理的数据之间数量级差距较大时,在对数据进行拟合等其他运算时,需要将数据先进行归一化处理,否则会造成数据淹没,影响计算精度。