文赟 高安明 蒙琴英 郑蓉勤
摘 要:市场调研主要以问卷调查法展开,其收集到的数据大都是以定类或定序的方式呈现的,除了进行简单的描述性统计以把握总体情况外,还希望对变量间的相关性进行研究,由于调研数据的局限性,使得大多数统计方法不能够满足其前提条件。本文以毕节烟草公司展开的市场调查为基础,重点介绍针对分类变量进行相关性分析的统计方法,即列联表分析与卡方检验,以期为高质量的市场调查、消费者研究等提供借鉴与参考。
关键词:市场调研 列联分析 卡方检验
中图分类号:F723 文献标识码:A 文章编号:2096-0298(2017)03(b)-164-04
1 引言
行业开展“消费者在哪里,我们就到哪里”的主题卷烟营销活动,使烟草企业对消费者市场的重视大大提升,并且随着卷烟营销市场化取向改革的深入,市场分析的作用越来越大。为响应国家号召,毕节烟草公司于2016年2月1日~3月20日,采用抽样调查的方式收集到来自毕节市各县区1620份有效问卷,通过对消费者进行全方面的分析,主动顺应消费环境的变化,用数据说话,提高数据分析驾驭市场的能力,并不断完善面向消费者的营销机制,实现从精准营销向数据营销的转变。
近年来,有不少相关文献对烟草企业市场调研进行研究,如长沙县烟草专卖局,刘智和廖文在卷烟消费者行为——基于长沙县一文中,根据消费者行为学理论分析消费者行为,并提出相应的营销对策[1];中国烟草总公司发文,烟草行业市场调研览要,对市场调研的主要内容、操作步骤及影响因素进行了详细描述,文中强调了数据分析的重要性[2],杨宇在管理观察期刊中写过列联表分析在市场调查中的应用[3]。
上述文献从不同角度、运用不同方法对市场调研及消费者调查展开分析,根据其分析结果对研究主体提出了合理有效的建议,但由于市场调研的特殊性,收集到的资料有很多是属于定类数据,对于这种数据并没有提供一个简洁有效的分析方法。基于此,本文力求对我国烟草行业消费者做深入研究,探求消费者属性与其消费行为之间的影响关系等,为提高数据分析驾驭市场的能力奠定基础。
2 列联分析与卡方检验
列联表又称交叉表,是以列表的形式表示两个或多个变量同时发生的频数,与频数分布表相比,从列联表中我们不仅可以得到单一属性的样本分布情况,还可以得到不同属性共同影响下的样本分布,分析一个或多个变量在某一因素影响条件下的分布,挖掘各因素之间的关系,通过对不同因素的交叉分析发现隐藏在数据背后的事实。
卡方检验是在列联表建立的基础上进行的,运用统计量对变量之间的相关关系进行科学验证,检验变量之间的是否存在联系及联系的紧密程度如何等。本文所运用的卡方检验属于非参数统计范畴,不需要数据满足正态性分布的要求,使用范围的局限性较弱,在市场调查中可以发挥巨大作用。
3 列联表卡方检验原理
对列联表进行卡方检验的目的是为了检验多个变量之间的独立性,若变量之间没有关联,则说明变量是独立的。在实际分析中,不仅要了解单个变量的分布特征,还要分析多个变量不同取值下的分布,掌握多变量的交叉分布特征,进而分析变量之间的相互影响和关系,列联表可以挖掘各因素之間的关系,通过不同的细分凸显出隐藏的事实,对交叉表进行卡方检验,可以将变量间的相关关系进行科学的展示,同时为后续的变量之间更深入的分析找到清晰的方向[4]。由于列联表分析所要求的数据类型通常是定类、定序数据,问卷调查收集到的数据大多以定类、定序的方式呈现,故在绝大部分的市场调查中,做好交叉分析就能够得到足够充分有力的结论了[5]。
4 分析结果
毕节烟草市场调研数据分析使用SPSS18.0和Excel2013软件,首先对数据进行预处理及频数分析,之后对样本进行列联表卡方检验。
4.1 数据预处理
对调查数据进行预处理,这是在数据分析前的准备工作。审核问卷进行,剔除问卷中无效和恶意作答问卷,减小误差使分析结果更接近现实;录入问卷数据,将调查问卷变成数据表格,以便为展开后续的数据分析。经过数据审核,依据调查问卷编制成基础数据表,为后续数据分析所用。
4.2 频数分析
频数分析是数据分析的第一步,对于问卷收集到的数据进行频数分析,首先可以对样本进行一个总体把握,对于样本的分布情况是否符合调查所需,能够在一定程度上判断出样本是否具有总体代表性,抽样是否存在系统偏差等,并以此证明后续相关问题的分析是否具有代表性和可信性。
4.2.1 编制频数分布表,对研究对象进行频数分析
由于在进行市场调研时不仅收集了消费者的烟龄、烟量相关的数据,还收集了消费者年龄、收入等其他属性,在对烟龄进行频数分析时,众所周知,年龄与烟龄之间显著相关,年龄越大,烟龄越长。因此在对消费者烟龄进行频数分析时,需要通过加权方法,计算得到某一烟龄在总体中所占比例。
4.2.2 以编制的频数分布表为基础,以图的形式呈现在报告中
频数分布表对变量的每个指标都有体现但不够直观,所以通常对频数分布表以饼图、柱形图的形式呈现。
由图1可以看到,烟龄在21年及以上的消费者占总体的29%,烟龄在11年~20年的消费者占总体的36%,烟龄在6年~10年的消费者占总体的27%,烟龄在1~5年的消费者占总体的7%,烟龄在1年及以下的消费者占总体的1%,具体分布占比详见图1。
对消费者的日均吸食量进行频数分析,结果显示:有52.67%的消费者其日均吸食量在10支~19支,24.81%的消费者其日均吸食量在20支~39支,14.8%的消费者其日均吸食量在6支~9支。若以包来衡量,73%的消费者日均吸食量在1包以下,27%的消费者超过1包,而有77.48%的消费者其日均吸食量在0.5包~2包。
根据分析结果可以看出,样本分布基本能反映消费者面貌,能够满足分析需要,由此进行后续相关问题分析是可行的。
4.3 列联表卡方检验
为分析毕节消费者日均吸食卷烟量与基本属性之间的关系,对日均吸食量和属性进行交叉分析和卡方检验。卡方检验是以属性变量—烟龄为前提,检验变量间—日均吸食量与烟龄之间是否独立,即是否存在某种相关关系最常用的方法。表2是消费者卷烟日均吸食量与烟龄列联表。
從表3可以看出,随着烟龄的增长,日均吸食量呈现明显的增加趋势,在烟龄为11年~20年,日均吸食量为10年~19支这一交叉点达到最大值,随后随着烟龄的增长,日均吸食量的增长呈现下降趋势。
由上述结果可知,期望频数小于5的比例占20%,因此使用似然比卡方统计量的值。似然比卡方统计量的值为255.320,对应的p值为0.000,小于给定的显著性水平0.01,所以拒绝原假设,认为在1%的显著性水平下,日均吸食量与烟龄是相关的,也就是说不同烟龄的消费者,其日均吸食量是不同的。
而这种关联程度又是如何呢?从对称度量可以得到,相关系数φ=4.15,V=0.208,CC=0.383。其检验的p值都是0.000,小于给定的显著性水平0.01,说明在1%的显著性水平下,烟龄和日均吸食量的关联在统计意义上是显著的。
为使日均吸食量与烟龄之间的相关关系更加明显,对原始数据进行重新分组,将烟龄为1年以下的消费者与1年~5年的消费者合并为一组,形成一个新的列联表如表6所示。
根据日均吸食量与消费者烟龄的二维列联表作出如图3的百分比堆积图,可以较为直观地看出,消费者的烟龄越长,其日均吸食量就越大。
进一步,将“烟龄”作为影响因素变量对消费者“日均吸烟量”做回归分析,结果如表7所示。
表7中展示的是各个烟龄层消费者的平均吸食量,由回归方程可知,消费者日均吸烟量与烟龄成正比,且随着烟龄提高一个层级,日均吸烟量就增加3.048支。
5 结语
根据此次调查与分析结果,按照日均吸食量,可以将毕节农村消费者划分为三个主要群体:轻度烟民约占烟民总量的17%,日均吸食量在10支(含)以内,烟龄一般较短;中度烟民约占烟民总量的 53%,日均吸食量在11~20支(含)之间;重度烟民约占烟民总量的27%,日均吸食量在21(含)支以上,烟龄一般在10年以上;且随着烟龄等级的上升,烟量有明显提升。
针对市场调查中数据分析所存在的问题,本文以数据分析为导向,由浅入深的对数据分析方法进行了详细阐述,并结合毕节市烟草公司所展开的消费者市场调查,详细介绍了对数据分析方法尤其是列联分析在实际调研中的应用,在原来单一变量分析的基础上,将消费者属性与目标变量直接进行关联,对数据的分析更为细致、深入。
参考文献
[1] 刘智,廖文,汤苇苇.卷烟消费者行为——基于长沙县[J].当代经济,2012(22).
[2] 王艳.烟草行业市场调研览要[J].经济研究导刊,2010(13).
[3] 杨宇.列联表分析在市场调查中的应用[J].管理观察, 2009(13X).
[4] 杨锦忠,宋希云.单一响应变量统计分析在烟草学研究中应用的若干问题[J].中国烟草学报,2014(08).
[5] 郑晶晶.问卷调查法研究综述[J].理论观察,2014(10).
[6] 孙钺,狄英.论统计调查方案的设计[J].行业探讨, 2011, 10(07).
[7] 陈膺强.应用抽样调查[M].北京师范大学出版社,2010.
[8] 全洪臣.市场调研原理与应用[M].大连:东北财经大学出版社, 2008.