苏 凯,付 博,杨永锋,彭桂新,金一骁,武云杰,于建军*,于建春*
1. 河南农业大学烟草学院,郑州市金水区文化路95 号 450002
2. 河南中烟工业有限责任公司技术中心,郑州经济技术开发区第三大街8 号 450000
随着互联网的发展以及数据量的爆发式增长,大数据时代已经到来[1]。大数据中包含来自互联网活动等不断产生的无限量级别的数据资源以及市场调研数据资源[2],这些资源中所蕴含的巨量信息在产品设计中起到不可估量的作用[3-5]。大数据规模性、多样性、高速性、价值性和真实性的特征决定了产品设计可基于大数据对顾客需求进行挖掘开发[6-8]。蔡波等[9]通过网络评论爬虫和在线问卷调查两种方式获取卷烟消费者的评价数据并进行分析,验证了我国卷烟消费体验感官评价指标的实用性和适用性。大数据蕴含的信息需要使用数据挖掘技术进行提取[10],如使用关联规则算法挖掘卷烟配方单料烟的替换规则[11]等。关联规则分析的目的是找出数据中各变量之间的关联关系,在各种关联规则算法中,Apriori 是最经典也是最常用的算法[12-14]。
近年来,随着消费水平的提升及观念的转变,一部分消费者开始吸食斗烟。相关数据表明,国际烟草市场的斗烟销量持续增长。在2000—2015年期间,美国斗烟总销量增加了556.4%[15]。另据国家烟草专卖局经济研究所公布的2017 年世界烟草发展报告[16]显示,近5 年国际市场非卷烟类传统烟草制品销售额不断增长、所占比例不断提高,其中斗烟市场增长率居第三名。在国内烟草市场上,斗烟尚处于市场培育阶段,近几年各卷烟工业企业及中国烟草总公司郑州烟草研究院均在进行相关技术研究[17-21],其中四川中烟工业有限责任公司已于2017 年推出“长城芭丝”斗烟产品。产品的设计要以消费者需求为导向[22]。目前,通过消费者评论数据分析商品质量及满意度的研究越来越多[23-25]。但国内尚无基于互联网数据或消费者评价数据对斗烟产品进行分析的相关研究。因此在本研究中使用Python 编程语言编写网络爬虫程序,获取国外主要斗烟产品信息及消费者评价数据并进行市场偏好性分析,以期为国内的斗烟产品开发提供参考。
斗烟产品信息及评价数据来源于TobaccoReviews.com(www.tobaccoreviews.com)。该网站包含554 个品牌的7 071款斗烟产品的信息及消费者评价数据。数据获取时间为2018 年6 月29 日。
使用Python 编程语言编写爬虫代码对Tobacco Reviews.com 网站的斗烟产品信息和评价数据进行提取,获取斗烟产品基本信息及评价数据,包括:品牌、产品名称、配方类型、配方组成、香味类型、评价数量及评分等。其中,评分区间为[1,4],分别对应“不推荐(Not recommended)”、“稍微推荐(Somewhat recommended)”、“推荐(Recommended)”、“强烈推荐(Highly recommended)”。
爬虫程序使用Requests 库请求网页,获得网页源代码;使用Beautiful Soup 库对网页源代码进行解析,获得解析内容,并通过Beautiful Soup 库的节点选择器及正则表达式库进行数据提取,将提取后的数据保存至CSV 文件中。主要爬虫过程如下:
(1)请求http://www.tobaccoreviews.com/browse链接,提取所有品牌信息,并获取品牌详情页面链接;
(2)请求品牌详情链接,获取该品牌所有斗烟产品信息,并获取各产品详情页面链接;
(3)请求各产品详情页面链接,获取斗烟产品基本信息及消费者评价数据,并保存至CSV 文件中。
通过网络爬虫共得到81 014 条斗烟产品评价数据,涵盖554 个品牌的7 071 款产品。删除评价数量小于等于3 条的产品数据,得到269 个品牌的2 845 款产品共76 555 条有效评价数据。评分离散变异系数低于0.4 的评价数据共68 291 条,占有效评价数据的89.21%。其中,平均得分≥3.0 分即消费者认为值得推荐的产品共有1 527 款。因此,在保证数据量的基础上,选取评分离散变异系数<0.4 的数据进行品牌偏好性分析及关联规则挖掘,选取产品平均得分≥3.0 分的产品进行香味类型、配方类型及配方组成市场偏好性分析。
本研究中使用Python 编程语言编写网络爬虫及数据分析代码,软件环境为Python 3.6.4,IDE 为PyCharm,主 要 使 用 的 库 有Beautiful Soup、Re、Requests、Numpy、Pandas、Matplotlib 及Seaborn。
3.1.1 斗烟品牌
评价数量一定程度上反应产品的市场占有率,分析评价数量排名前20 的斗烟产品(表1)可知,斗烟产品的市场占有率与生产厂商的知名度存在较大关系,登喜路(Dunhill)、斯堪的纳维亚烟草公司(STG)等知名厂商的斗烟产品较受欢迎,但是个别产品的平均得分却不高,平均得分<3.0的有8 款产品,分别是Prince Albert,Captain Black Regular (white),1792 Flake,University Flake,Royal Yacht,Erinmore Flake,Mixture:Scottish Blend 和1-Q。说明品牌效应在一定程度上影响市场的偏好性,但产品质量仍是市场偏好性最重要的影响因素。
表1 评价数量最多的前20 款斗烟产品的信息Tab.1 Information on the top 20 pipe tobacco brands with the largest number of comments
对各品牌所有斗烟产品的评论数量统计求和(表2),大型斗烟生产企业(如McClelland、Mac Baren、Cornell &Diehl 等)的产品数量及产品市场占有率均较高,并且斗烟产品的市场评价也较好。G. L. Pease品牌斗烟产品的平均得分最高,为3.23 分;Gawith,Hoggarth & Co.品牌的得分仅次于G. L. Pease,为3.16分;Samuel Gawith和Dunhill 品牌的得分相同,为3.14 分。
表2 评价数量排行前十的品牌信息Tab.2 Information on the top 10 brands with the largest number of comments
上述结果表明大型斗烟生产企业所生产的斗烟产品具有较强的市场竞争力。一方面大型企业能够保证生产原料、加工工艺的稳定性,同时大型企业拥有更多、更优秀的配方设计师及产品调香师,能够保证产品质量及其稳定性;另一方面,品牌效应对斗烟产品的销售具有一定的影响。
3.1.2 斗烟香味类型
图1 消费者推荐的斗烟产品中原味和调味型的比例Fig.1 Proportions of original flavor and flavored pipe tobacco products recommended by consumers
对消费者推荐的斗烟产品中原味及调味型进行统计(图1)可知,原味(None)型斗烟产品所占比例较高,为63.13%。通过考察调味型斗烟产品香味类型发现,各品牌斗烟产品的香味各不相同,因此采用词频分析法,对调味型斗烟产品的香味类型进行分词处理,汇总后统计各种香味出现的词频(表3)。由表3 可知,在调味型斗烟产品中,香 草(Vanilla)、朗 姆 酒(Rum)、可 可/巧 克 力(Cocoa/Chocolate)及柑橘(Citrus)香味型斗烟产品较多,均大于10%。
表3 消费者推荐的调味型斗烟产品中不同类型香味的使用情况(前十)Tab.3 Usage of different types of flavor in flavored pipe tobacco products recommended by consumers (top 10)
上述结果表明斗烟产品香味类型偏好性主要表现为原味型斗烟产品最受消费者欢迎;而调味型斗烟产品中,香草、朗姆酒、可可/巧克力及柑橘香味易被消费者接受。
3.1.3 斗烟配方类型
对消费者推荐的斗烟产品的配方类型进行分析(图2)可知,芳香调味式(Aromatic)斗烟产品数量最多,占总数量的23.90%;英式(English)斗烟产品数量其次,占总数量的18.01%;第三为纯烤烟式(Straight Virginia)斗烟产品,占总数量的11.26%。同时,烤烟+百里科烟草(Virginia+Perique)、白肋烟类型(Burley Based)及巴尔干式(Balkan)的斗烟产品数量也较多,所占比例均大于5%。
上述结果表明消费者最喜爱的斗烟产品配方类型为芳香调味式,而英式和纯烤烟式斗烟产品的所占比例也较高。说明芳香调味式、英式和纯烤烟类型的斗烟产品具有较高的市场认可度。
3.1.4 斗烟配方组成
在消费者推荐的1 527 款斗烟产品中,配方仅由一种类型原料组成的斗烟产品共有326 款,其中仅使用烤烟(Virginia)、黑板烟(Black Cavendish)、白肋烟(Burley)、板烟(Cavendish)的斗烟产品分别有225、38、30、10 款,配方中仅使用东方烟草/土耳其烟草(Oriental/Turkish)、拉塔基亚烟草(Latakia)、肯塔基烟草(Kentucky)、百里科烟草(Perique)、马里兰烟(Maryland)及雪茄烟(Cigar Leaf)的斗烟产品数量均少于10 款。使用词频分析法对斗烟产品配方组成进行分析,结果(表4)显示,在产品配方中使用烤烟的斗烟最多,占85.27%,在配方中使用拉塔基亚烟草的斗烟数量仅低于烤烟,占36.87%。使用白肋烟及东方烟草/土耳其烟草的斗烟产品数量也较多,均超过30%。
图2 消费者推荐的斗烟产品中不同类型配方产品比例Fig.2 Proportions of different types of formula products of pipe tobacco recommended by consumers
表4 消费者推荐的斗烟产品中不同类型烟叶原料的使用情况Tab.4 Usage of different types of tobacco leaves in pipe tobacco products recommended by consumers
上述结果表明,在产品配方中使用烤烟、拉塔基亚烟草、白肋烟及东方烟草/土耳其烟草等烟叶的斗烟数量较多,同时,配方中仅使用单一类型烟草的斗烟产品也有一定的市场份额。烤烟烟叶含糖量较高,是斗烟原料中口感最为醇和的烟叶,因此在配方中最常使用。但受到烟叶特性的影响,烤烟烟叶燃烧时温度较高,使用烟斗进行抽吸时会在口腔中产生灼烧感,一般在斗烟配方中不宜过多使用[26]。对于吸食斗烟的消费者来说,斗烟产品只是一种“原料”,消费者会根据自己的喜好调配出适合自己的斗烟丝,即可能会存在“二次配方”的现象。所以只使用一种类型烟草作为配方的斗烟产品,一方面可以满足消费者对特定烟草吸食的需求,另一方面可以满足消费者吸食斗烟时“二次配方”的需求。
通过分析可知,斗烟产品品牌、香味类型、配方类型及配方组成均对斗烟产品的市场偏好性产生影响,因此为进一步研究斗烟产品配方组成、香味类型与产品平均得分之间的关联关系,使用Python 编程语言编写Apriori 算法,对斗烟产品数据进行分析。
3.2.1 基于Apriori 的配方原料及香味类型关联规则挖掘算法
将斗烟产品原料组成及香味类型拆分,使用英文字母(A~M)替代产品原料组成,使用阿拉伯数字(11~67)替代香味类型,并使用罗马数字(Ⅰ、Ⅱ、Ⅲ)替代评分数据,其中Ⅰ代表分数<2.0 分,Ⅱ代表分数≥2.0 且<3.0 分,Ⅲ代表分数≥3.0 分且≤4.0 分,表5 为替换后的产品信息。
使用Apriori 算法对斗烟产品的配方原料及香味类型关联规则进行挖掘,主要步骤[13]如下:
第一步:找出所有的频繁项集。
首先获取1 项候选集C1,剔除小于最低支持度阈值的项集得到1 项频繁集L1;通过L1自身连接产生2 项候选集C2,保留C2中满足约束条件的项集得到2 项频繁集……;依次循环,直至得到最大频繁项集Lk。
第二步:由频繁项集产生强关联规则。
对于每个频繁项集的所有非空子集(这些非空子集一定是频繁项集),若满足其置信度≥最小置信度阈值,则该规则为强关联规则。
表5 使用英文字母、阿拉伯数字及罗马数字替换后的产品信息Tab.5 Product information after replaced by English letters, Arabic numerals and Roman numerals
在关联规则中,支持度为项集A、B 同时发生的概率,即:
置信度为项集A 发生时项集B 发生的概率,即:
其中,Support_count(A∪B)为包含项集(A∪B)的事务数,Total_count 为所有事务总个数,Support_count(A)为包含项集A 的事务数。
为了使挖掘的规则更好地体现配方组成及香味类型与评分之间的关系,在研究中以支持度阈值0.1、置信度阈值0.7 分析挖掘结果中为“Ⅲ”的规则。
3.2.2 关联规则挖掘结果
关联规则挖掘结果(表6)表明,满足最低支持度及置信度的强关联规则共有20 条。从支持度来说,配方中使用烤烟的斗烟、原味型斗烟及配方中使用烤烟的原味型斗烟得分为“Ⅲ”的支持度最高,分别为59.29%、43.90%、39.71%;从置信度来说,配方中使用百里科烟草和烤烟的原味型斗烟、配方中使用拉塔基亚烟草和东方烟草/土耳其烟草的原味型斗烟以及配方中使用拉塔基亚烟草、烤烟和东方烟草/土耳其烟草的原味型斗烟得分为“Ⅲ”的置信度最高,分别为81.56%、81.31%、81.30%。
表6 关联规则算法对斗烟产品信息的挖掘结果统计①Tab.6 Statistics of mining results of pipe tobacco product information by association rule algorithm(%)
综上所述,得分为“Ⅲ”即得分≥3.0 分且≤4.0分的斗烟产品,其配方中主要使用了百里科烟草、烤烟、拉塔基亚烟草、东方烟草/土耳其烟草、白肋烟等烟叶原料,其香味类型主要为原味。且在配方中使用百里科烟草和烤烟烟叶的原味型斗烟产品,其得分“Ⅲ”的置信度最大,为81.56%,即该组合得分大于等于3 分的概率最高,为81.56%。
因此,上述结果表明在配方中使用百里科烟草、烤烟、拉塔基亚烟草、东方烟草/土耳其烟草、白肋烟等原料的原味型斗烟产品受市场欢迎程度较高,其中最受消费者喜爱的组合为配方中使用烤烟和百里科烟草的原味型斗烟产品。主要原因可能是原味型斗烟产品中不添加香精香料,百里科烟草、拉塔基亚烟草、东方烟草/土耳其烟草等烟叶独特的香气可以使产品香气更加丰富,提升产品吸食品质[26]。
基于斗烟产品信息及网络评价数据分析消费者对斗烟产品品牌、香味类型、配方类型及配方组成等方面偏好性,结果表明斗烟产品市场偏好性主要体现在:大型斗烟企业所生产的斗烟产品;原味型斗烟产品;配方类型为芳香调味式、英式、纯烤烟式的斗烟产品;产品配方中使用烤烟、白肋烟、拉塔基亚烟草、百里科烟草和东方烟草/土耳其烟草等原料的斗烟产品,且配方中使用上述原料的原味型斗烟产品更受市场欢迎。基于互联网数据的斗烟市场偏好性分析可为中国斗烟产品研发提供借鉴。