试谈大数据分析的方法与应用

2020-12-02 07:51水冰洁赵思思王碧华
数码设计 2020年12期
关键词:大数据分析方法

水冰洁 赵思思 王碧华

摘要:本文先从随机做减法采样、随机做加法采样、基于聚类的加法重采样、合成少数类的加法采样、优化的合成少数类加法采样方法等方面分析大数据分析采集不平衡样本的方法,再分别阐述这些大数据分析采集不平衡样本集在电力企业中的应用,为大数据分析人员提供参考。

关键词:大数据;分析;方法;应用手段

中图分类号:TP311.13   文献标识码:A   文章编号:1672-9129(2020)12-0032-01

引言:大数据分析是互联网时代行业经常使用的技术,大数据分析的方法有很多,但是其原理均是通过大量数据的采样得到数据的发展模型,最终为企业的发展方向或者危机预测提供参考。而大数据分析的第一步是数据采集工作,数据采样的精确度会直接影响大数据分析的结果。

1 大数据分析采集不平衡样本集的方法

1.1随机做减法采样方法。随机做减法采样方法的原理是通过减少较多类型的样本,从而使不同类型样本的数量达到平衡。该方法的优点是可以降低采样所需要的时间,因为总体的采样数量减少了;该方法的缺点是在随机减少样本数量比较多的种类样本时可能会丢失一些关键数据,最后导致采样结果不够精准。

1.2随机做加法采样方法。随机做加法采样方法的原理是增加样本数量比较少的种类样本,最终使不同种类的样本数量达到平衡。该方法的优点是不会丢失某些样本的关键信息,采样结果相对比较精准;该方法的缺点是增加了采样的总体数量,导致采样过程所需要的时间大大增加,而且还会由随机加样本的原因造成过拟合风险增加。

1.3基于聚类的加法重采样方法。基于聚类的加法重采样方法的原理是将所有样本按照数量的多少分为两类,然后將样本数量较多的一类聚集到一起、将样本数量较少的另一类聚集到一起,最后再将随机做加法采样方法与样本数量较少的聚集类结合,将所有样本的数量增加到一致,即可得到较为精准的采样结果。该方法的优点为能够克服样本不平衡带来的挑战;该方法的缺点与随机做加法相同,即容易造成过拟合风险增加。

1.4合成少数类的加法采样方法。合成少数类的加法采样方法是原理是将样本数量较少的一类选择出来,然后选择这类数据的一部分创建新的数据样本,最终将新创建的样本与原样本集整合,即可解决原样本种类数量不平衡的问题。该方法的优点是不会丢失样本中的关键数据导致样本采样精准度降低,而且相比随机做加法采样和聚类加法重采样方法的过拟合风险降低;该方法的缺点是容易由于样本数量的额外增加导致负类样本的增加,所以该方法采集样本的适用范围有限。

1.5优化的合成少数类加法采样方法。优化的合成少数类加法采样的原理是将样本数量较少的种类进行整合,然后按照样本的不同特征将其分成不同组,最后在这些不同组的样本数据中使用随机做法采样方法即可解决原样本集中数量不平衡的问题。该方法的优点为不会导致额外负类样本的增加,而且样本数据中的关键信息不会丢失,采样精准度不会降低;该方法的缺点是大量的数据堆叠导致其适应范围有限。

2 大数据分析采集不平衡样本集的应用

假设电力企业 大数据样本集中电力违章导致的安全事故样本总数为10300个,而非电力违章导致的安全事故样本数量为10000个、电力违章导致的安全事故样本数量为300个,可知该电力企业电力违章导致安全事故发生的几率为300/10300=2.9%。

2.1随机做减法采样在电力企业中的应用。随机做减样法在电力企业中采集安全事故样本需要先从所有非事故样本中选出1/10数量的样本形成样本集,然后可知样本集的数量为10000×10%=1000个,最后结合电力违章导致的安全事故300个形成新的样本集数量即1300个,该采样方法计算出电力违章安全事故发生几率为300/1300=23%。

2.2随机做加法采样在电力企业中的应用。随机做加法采样在电力企业中采集安全事故样本需要先复制电力违章安全事故发生的样本,假设复制15个电力违章安全事故样本300次,则现在样本集中数量总数为300×15+10000=14500个,该采样方法计算出电力违章安全事故发生几率为(300×15)/14500=31%。

2.3基于聚类的加法重采样在电力企业中的应用。基于聚类的加法重采样在电力企业中采集安全事故样本需要先进行聚类,假设样本数量较多的共分为8类且样本数量依次为1250、240、980、1380、1520、1050、1230、1350个,而数量较少的样本分4类依次为90、89、78、49个,根据随机做加法采样可以将样本数量较多的8类处理为1250个样本、样本数量较少的样本处理为750个样本,该采样方法计算出电力违章安全事故发生几率为(750×4)/(1250×8+750×4)=23%。

2.4合成少数类的加法采样方法在电力企业中的应用。合成少数类的加法采样方法在电力企业中采集安全事故样本假设随机复制15个违章样本共250次,该采样方法计算出电力违章安全事故发生几率为(15×250)/10000=27.3%。

2.5优化的合成少数类加法采样方法在电力企业中的应用。优化的合成少数类加法采样方法在电力企业中采集安全事故样本将数量较少的电力违章事故样本分为数量为210、60、30的三组,则随机取样本数量180个生成电力违章样本220次,该采样方法计算出电力违章安全事故发生几率为(180×20)/(180×20+10000)=26%。

结论:综上所述,大数据分析采集不平衡样本集的方法有很多种,很多行业在数据采样时都可以利用大数据分析方法,数据采集是大数据分析的基础,数据采集得越全面,最后的预测结果就越精准。而计算机大数据分析方法中的运用可以显著提高预测结果的准确率,因此大数据分析方法和应用无论在哪个行业都离不开计算机的使用。

参考文献:

[1]黄淼. 公共交通运营大数据聚类分析方法及应用研究[D].武汉轻工大学,2018.

[2]汪海涛,余永奎,段春雨.基于大数据不平衡样本集的重采样方法及应用[J].现代计算机(专业版),2018(22):26-29.

猜你喜欢
大数据分析方法
分析:是谁要过节
回头潮
基于大数据背景下的智慧城市建设研究
用对方法才能瘦
四大方法 教你不再“坐以待病”!
赚钱方法
捕鱼
Units 13—14解题分析