基于大数据的订餐系统中偏相关分析技术的应用研究

2015-05-30 10:48李支元
软件工程 2015年12期
关键词:大数据

李支元

摘 要:阐述了大数据时代数据挖掘的重要意义,介绍了大数据挖掘的一般常用方法,分析了相关系数与偏相关系数的计算过程,提出了偏相关技术在大数据挖掘中的应用,通过大学城学生订餐系统证明了偏相关技术在大数据挖掘中更能体现客观性、准确性。

关键词:大数据;订餐系统;偏相关分析技术

中图分类号:TP3-05 文献标识码:A

Application of Ordering Meal System Partial Correlation

Analysis Technique Based on the Big Data

LI Zhiyuan

(Jiangsu College of Finance & Accounting,Lianyungang 222061,China)

Abstract:Significance of the era of big data mining are described in this paper.Introduces the data mining,and the commonly used methods,analyzes the calculation process of the correlation coefficient and partial correlation coefficient,proposed the partial correlation technique in data mining application,through the University City students ordering system prove the partial related technologies in data mining can reflect the objectivity and accuracy.

Keywords:big data;ordering system;partial correlation analysis technique

1 引言(Introduction)

当前社会已经进入大数据时代,各种信息都可能产生海量数据,分析大数据蕴含的规律的过程和方法称为数据挖掘,数据挖掘可理解为资料探勘、数据采矿,它是对包含海量信息的数据库进行知识发现的一个过程与步骤。数据挖掘的传统方法有许多种,偏相关方法在数据挖掘中的应用可以更好地体现挖掘结果的客观性与准确性[1]。

2 大数据挖掘的常用方法(Common methods for

big data mining)

大数据的挖掘涉及众多学科,各种算法层出不穷,目前比较经典的数据挖掘算法有:决策树算法(C4.5算法):使用信息增益率进行决策树的构造,能够把连续性的信息数据转变为离散的值,对不完整信息数据进行处理。聚类算法(K-Means算法):基本思想是先选择一组对象作为聚类中心,然后以这些对象为标准,进行相似度分配,要求各聚类内部最大限度紧凑,而聚类之间最大限度的离散。向量机算法(SVM算法):核心思想就是要找出一个最好的分类线或面,使之相邻的样本中其最远。关联算法(Apriori算法):通过支持度和置信度二个量进行工作,通过频繁项集减少算法的复杂度,另外还有分类回归树算法(CART算法)、最大期望算法(EM算法)、迭代算法(AdaBoos算法)、朴素贝叶斯算法(NB算法)、最近算法(KNN算法)、佩奇算法(PageRank算法)等。不同算法在大数据挖掘中各有侧重点,根据用户需求选择适合的算法技术[2]。

3 偏相关分析技术的算法过程(Algorithm process

of partial correlation technique)

偏相关技术也称为“净相关技术”,是指当二个变量同时与第三个变量有关系时,将第三个变量的影响去除,只计算二个变量之间相关程度的方法[3]。偏相关技术在分析某二个因素的相关程度时,固定其他因素,可以得出更客观准确的结果。偏相关技术的核心指标是偏相关系数。偏相关系数剔除其他因素的影响下,计算某二个因素之间的相关程度系数,其绝对值的大小,反映了这二个因素之间相关程度的高低。

3.1 相关系数

假设有三个相互影响的因素,且之间的相关系数分别用表示。

可以得出,任意二个因素XY之间的相关系数可表示为[4]:

3.2 偏相关系数

同样,假设有三个相互影响的因素,用表示不变时的偏相关系数,表示不变时的偏相关系数,表示不变时的偏相关系数。

可以得出,当有q个因素时,q阶偏相关系数可表示为[5]:

4 偏相关分析技术在订餐系统的实例分析(Partial

correlation analysis technology in instance

ordering meal system)

江苏省连云港市花果山大道附近分布着多家高校,虽然各家高校都有自己的食堂,但满足不了学生就餐多样性的需求,某公司开通了网上订餐系统,并通过对订餐者的回访、投票评价等活动,采集大量数据,建立学生订餐情况数据库,应用偏相关技术对待数据挖掘,选取有代表性的100个样本进行分析。数据库包含订餐者的口味轻重,菜品的价格、份量、颜色、味道、外观、卫生、营养、创意,送餐的速度、态度,各因素以10分制计算。

前期数据统计结果:口味的平均值为7.56,标准差为0.5463,价格的平均值为6.38,标准差为0.5219,份量的平均值为5.64,标准差为0.2697,颜色的平均值为3.79,标准差为0.2318,味道的平均值为5.61,标准差为0.3916,外观的平均值为4.22,标准差为0.6145,卫生的平均值为4.67,标准差为0.6158,营养的平均值为3.97,标准差为0.5486,创意的平均值为8.29,标准差为0.1341,速度的平均值为6.21,标准差为0.1297,态度的平均值为9.48,标准差为0.6285。

根据上述数据,使用偏相关系数公式,利用专门的计算软件,计算各因素的偏相关系数表。

根据上表,不难看出,价格、份量、味道、卫生、营养、速度、态度几个变量因素与评价结果的系数较高,分别是0.86、0.67、0.94、0.79、0.84、0.67、0.71这些因素对评价结果起着主要的影响,学生在订餐过程中比较关注价格贵不贵、份量多不多、味道好不好,卫生状况如何、营养价值如何、送餐速度快不快、服务人员态度好不好,与我们在生活中所能感受的实际情况相符;另外,还可以看出,味道与口味的偏相关系数较大,学生口味重的喜欢一种味道,口味轻的又喜欢另一种味道,还有价格与份量、营养、创意的偏相关系数较大,颜色与外观、创意的偏相关系数较大,外观与创意的偏相关系数较大等等,某公司可以根据这些影响较大的因素进行市场分析,调整菜品各项指标,更好地迎合订餐的喜好,取得更好的经营成果。

5 结论(Conclusion)

阐述了大数据时代背景下海量信息中数据挖掘的重要意义,介绍了数据挖掘一些经典算法,分析了相关系数与偏相关系数的计算过程,提出了偏相关技术在大数据挖掘中的应用,并通过大学城学生订餐系统实例研究,证明了偏相关技术在大数据挖掘中更能体现客观性、准确性,从而为经营决策提供更科学的参考。

参考文献(References)

[1] 刘庆.基于大数据的数据挖掘基本技术探究[J].现代工业经济与信息化,2015(7):79-81.

[2] 李国晶,王景强.数据挖掘技术与数据库知识发现[J].科技咨询,2006(28):17-19.

[3] 黄解军,潘和平,万幼川.数据挖掘技术的应用研究[J].计算机工程与应用,2003(2):35-37.

[4] 倪德友,孙爱峰,高芳.偏相关分析在教育研究中的应用[J].卫生职业教育,2003(21):47-48.

[5] 严丽坤.相关系数与偏相关系数在相关分析中的应用[J].云南财贸学院学报,2003(3):78-80.

猜你喜欢
大数据
基于在线教育的大数据研究
“互联网+”农产品物流业的大数据策略研究
基于大数据的小微电商授信评估研究
大数据时代新闻的新变化探究
浅谈大数据在出版业的应用
“互联网+”对传统图书出版的影响和推动作用
大数据环境下基于移动客户端的传统媒体转型思路
基于大数据背景下的智慧城市建设研究
数据+舆情:南方报业创新转型提高服务能力的探索