基于Hadoop平台的准大学生网购手机消费行为分析

2019-03-07 05:22徐俊梅陈滨
电脑知识与技术 2019年35期
关键词:数据可视化大学生

徐俊梅 陈滨

摘要:智能手机改变了几代人的生活方式,引领着新技术潮流,准大学生市场成为手机厂家的必争之地。笔者通过Chrome浏览器开发者工具采集某电商网站上高考后三个月互联网中手机销售数据,利用Hadoop技术生态组件对数据进行清洗过滤、分析存储、可视化呈现,分析准大学生购买手机的倾向,通过品牌、颜色、屏幕尺寸三个方面分析其购买行为,预测目标群体网购趋势,引导手机厂家提升产品技术水平,从而更好促进手机市场更好发展。

关键词:大学生;手机网购;hadoop平台;Python;数据可视化

中图分类号:TP391 文献标识码:A

文章编号:1009-3044(2019)35-0235-03

伴随着我国居民收入水平的稳定增长,同时互联网+、智能化技术渗透到生活中,平台应用和虚拟货币概念已经深入人心,特别是告别高中紧张的学习生活即将踏入象牙塔的准大学生们,他们对于移动通讯设备的需求量占据当年电子产品消费市场很大比例,其中智能手机的消费需求最甚。从著名的市场调研机构组织Gartner公布的2019年第一季度全球智能手机销量就近达40亿台,各大手机制造销售厂商更是推出了不同类型、不同外观和功能的手机。那么目前手机市场上到底哪些手机品牌更受关注?哪种手机颜色更受广大消费者欢迎?是否手机屏幕尺寸越大就越受消费群体青睐?本文研究的目光投放在当代准大学生身上,通过对全国在校大学生手机使用情况开展分析调查,从而预测准大学生们的需求和使用趋势。

1 大学生手机使用情况概括分析

1.1全国大学生手机使用基本情况

经调查,从全国大学生收取的8000份调查样本显示,2018年手机消费价格在1000-2000元之间的大学生占43.99%;手机消费价格在2000-3000元之间的大学生占22.34%;使用3000元以上手机的大学生占据18.76%,其中85.34%大学生购买手机的费用来源于家庭,另外有60%以上大学生更换手机周期在两年或以上,调查样本收回数据显示本科院校与高职院校大学生手机配置参数无异,并且生活费用高低与手机支付价格高低成正比[1][2]。

1.2全国大学生对手机的使用习惯

大学生一般会根据自身需求或喜好选择不同手机,其中待机时长、手机功能、屏幕尺寸、外观、品牌、摄像头像素、价格等考虑的主要因素;超过50%的大学生使用每日使用手机时间超过5个小时,而使用频率高峰期发生在20:00至24点之间。

1.3大学生选择不同品牌手机的影响因素

1.3.1手机消费心理影响因素

大学生群体处于心理发展敏感期,容易受到外界因素影响或干扰;媒体多样化宣传手段和求异个性、攀比虚荣的消费心理极易唤起大学生的购买手机的欲望。

1.3.2原生家庭环境因素

大学生在校生活学习费用主要来源于家庭,而家庭经济支持与消费习惯局限着大学生购买空间,如何分配好生活必需品、学习耗品、移动设备、娱乐休闲消费比例成为其群体当下要考虑的重要问题。

1.3.3个人购买倾向因素

时尚靓丽外观与科技功能配置是吸引年轻群体蜂拥围观手机市场的重要原因,从众心理、品牌效应、提前消费等外来因素无不影响大学生消费倾向,如何取舍和理性消费这就需要大学生们自己去斟酌[2]。

1.4大学生使用手机的用途和建议

社交平台、网购、手机游戏使大学生成为网络平台消费的主力军,但是过度使用手机不但会影响视力、阻碍社交能力发展,更会影响学业,据调查数据显示已有35.12%的大学生对手机产生依赖,工作学习生活中几乎所有的业务办理都在手机应用平台上发生[3]。

2 准大学生网购手机数据分析

本文采用脱敏方式,使用Chrome浏览器访问目标网站,通过开发者工具收集某电商网站2018年8月手机销售数据,利用Hadoop技术生态组件对数据进行解析及关键数据提取,使用Python语言完成无关数据清洗和有效数据存储,最后运用Echarts数据可视化组件,呈现数据的可视化,分析出最受准大学生追捧的手机品牌、手机颜色和手机屏幕尺寸,预测准大学生的手机消费水平和需求趋势,有的放矢地更好调控手机消费市场。

2.1电商网站手机销售网页数据采集

利用爬虫工具萃取某电商网站的在线手机销售数据,但采集到的JSON数据文件中包含部分脏数据,这就需要对目标数据集进行特征参数提取,构建文本向量。数据集描述如下:

2.1.1數据范围

Chrome浏览器爬虫到2018年6月电商网站用户购买手机数据交易数据集合。

2.1.2数据格式

Phone_brand:***//手机品牌名称

Phont_name:***//手机型号

parameters:[//手机特征参数

{//parameter_1

”namel”:”value1”,

”name2”:”value2”,

……

}]

{//parameter_n

”name1”:”valuel”,

”name2”:”value2”,

……}]

2.1.3数据样例

{”phone_brand”:”华为”,

”phone_name”:”华为P10”,

”parameter”:[

{”品牌”:”华为”,

”型号”:”华为P10”, ”制作商名称”:”华为技术有限公司”,

”出厂年份”:”2018年”,

”出厂月份”:”6月”}

{”机身颜色”:”曜石黑”,

”手机类型”:”智能手机拍照手机4G手机时尚手机”,

”操作系统”:”华为EMUI 5.1(兼容Android 7.0)”,

”CPU品牌”:”麒麟960”,

”核心数”:”八核+微智核i6”,

”电池类型”:”不可拆卸式电池”,}

{”分辨率”:”1920x1080”,

”触摸屏类型”:”多点触控”,

”屏幕尺寸”:”5.1英寸”,}

{”运行内存RAM”:”4GB”,

”存储容量”:”64GB 128GB”,}

{”键盘类型”:”虚拟触屏键盘”,

”款式”:”直板”}

{”后置攝像头”:”2000万像素(黑白)+1200万像素(彩色)”,

”摄像头类型”:”三摄像头(后双)”,

”视频显示格式”:”*.3gp,*.mp4,*.wmv,*.rm,*,rmvb,*.asf”}]}

利用python语言来构建数据采集请求功能函数,利用Re-sponse JSON数据解析,并在本地完成手机销售数据文件的创建和书写[4][5]。具体功能语句如下:

def response_handler(self,url,data)://使用目标网页Url或接口构造Response对象

response=requests.post(url=url,data=data, headers=self.head-ers)

def parse(self,response)://对Response对象进行解析;形成结构化数据

items=[]

datas=json.loads(response.text).get('data ',[])

def save_data(self,item)://将解析到的数据存储到指定目录下的Json文件中去

data=json.dumps(item, ensure_ascii=False)

self.fp.write(data+',\n')

2.2手机销售数据清洗与过滤

在搭建好的Hadoop集群的伪分布环境中读取采集到的HDFS数据文件,经数据解析后,进行过滤和分区,利用MapRe-duce程序完成编译、打包,发布与执行,从而完成手机销售数据的清洗。下面从数据文件中解析JSON格式数据,从数据中获取需要的字段[6]:

String phoneBrand=GetStringByName(rawValue,"phone_brand");//提取手机品牌名称

String phoneSize=GetPhoneSize(rawValue);//提取手机屏幕尺寸

String buyColor=GetPhoneColor(rawValue);//提取用户购买手机颜色

2.3手机销售数据分析与可视化

在Linux Shell基础上完成Hive数据库和数据表的创建,利用HQL语言完成数据统计,并实现Sqoop数据推送,因手机网购数据集包含三种手机特征参数,分别是手机品牌、手机颜色、手机屏幕尺寸,故最后在Flask网页后台利用可视化前端开发工具Echarts组件调用HTTP API接口实现数据可视化渲染,从而呈现手机销售与三组参数的数据分析结果,需要特别说明的是这三个手机特征参数均排除了其他的聚类项的影响,独立获取的对应手机销售量。运行Chrome浏览器,输入URL地址后即可查看数据可视化成果[7][8]。

利用上传工具(如SFTP)将清洗后的手机销售网页数据传至分布式服务器中,并利用Hive创建数据库和数据表,加载清洗后数据至数据表中,进而完成手机销售数据的查询分析[9]。具体功能语句如下:

Hadoop fs—mkdir/data//Hadoopshell命令创建目录

hadoop fs—put/home/清洗后的数据目录/data//上传数据至HDFS目录下

Create database db_phone;//Hive创建数据库

Create table tb_phone_data(Phone_Brand string, Phone_colorstring, Phone_size string) row format delimited fields terminated by'|';//原始数据表

Create table Phone_brand_count(Phone_Brand string,Phone_sale_count int);//手机品牌销量查询暂存表

Create table Phone_color_count(phone_color string,Phone_sale_count int);//手机颜色销量查询暂存表

Create table Phone_size_count(phone_size string,Phone_sale_count int);//手机屏幕尺寸销量查询暂存表

Load data inpath '/data/*' into table phone_data;//数据加载

Insert overwrite table Phone_brand_count selectPhone_Brand_Name,count(1) as Phone_sale_count from phone_da-to group by Phone_bBrand_Name;//手机品牌销量查询insertoverwrite table Phone_color_count select phone_color, count(1) asPhone_sale_count from phone_data group by phone_color;

//手机颜色销量查询

insert overwrite table Phone_size_count select phone_size,count(1) as Phone_sale_count from Phone_phone_data group byphone_size;//手机屏幕尺寸销量查询

在python创建项目的根目录下使用python manager.py run-server命令,在chrome浏览器中输入URL地址显示可视化结果,具体呈现如下面三张图所示。

第一组:差异手机品牌对手机销售量的影响结果图。

用二維柱状图呈现的是不同手机品牌的销售数据,X轴表示抓取电商网站中在售品牌,Y轴表示不同品牌手机的销售数量,数量是台。

从图1中数据分布整体结构上看,国产手机品牌销售量在手机销售中占有较大优势,手机销售量排名前十的手机品牌中,国产手机品牌共有7个,认可度较高的手机在售品牌的排名次序依次为华为、小米、Apple、OPPO、VIVO、魅族、诺基亚、三星、飞利浦、锤子、努比亚。其中华为、小米的手机销量占有比较明显的优势,排行第三名的苹果手机销售量与前两名销量更是有较大差距。随着大学生爱国意识的不断增强,国产手机不管是外观设计、人体工程学理念还是核心技术支撑已经有了巨大的发展,更符合中国人的使用喜好和习惯。

第二组:差异手机颜色对手机销售量的影响结果图。

此二维饼图输出的是不同颜色手机销售数据分布,从电商网站获取到的手机数据量显示每种颜色手机销售比例,不同色块大小代表指定手机颜色的销售数据量。

从图2中手机销售数据比例分析结果看,排名前三的手机颜色是黑色、蓝色和金色,其中黑色是最受消费者欢迎的颜色,更得到对象群体的青睐。

第三组:差异手机尺寸对手机销售量的影响结果图。

此折线图呈现的是不同屏幕尺寸手机销售数据,X轴表示的是手机屏幕尺寸,Y轴表示的是手机销售数据,数量是台。

从图3中数据分析结果上看,5.99英寸是最受群体欢迎的手机屏幕尺寸,5.5英寸次之,5.84英寸手机销售数据排名第三,而更大尺寸的手机屏幕并没有出现在销量较高的手机范围内,因现在移动终端设备种类和用途的多样性,所以并不是手机屏幕越大越受目标群体的青睐。

3 小结

依据小概率事件不发生原理,本文从某电商网站中采集到的2018年8月手机销售数据经数据清洗和可视化处理后,得到的三种特征参数:手机品牌、手机颜色和手机屏幕尺寸与手机销售数据的比例分布图,可以预测出准大学生们的手机网购倾向,帮助手机制造厂商掌握市场消费动向,有针对性地开展主动营销方案,精准投放产品,提升企业服务质量。

参考文献:

[1]李文韬.从手机品牌选择看大学生消费观——基于对南充市某高校大学生手机品牌使用情况调查[J].山西青年,2017(9):266.

[2]虞雀.大学生手机消费影响因素实证研究[J].江苏科技信息,2015(20):75-77.

[3]牟潇,侯玲.大学生网购手机消费行为分析[J].文化与探索,2018(16):146-147.

[4]赵科军,葛连升,刘洋,等.基于Hadoop和Spark构建可扩展的网络安全分析平台[J].华中科技大学学报:自然科学版,2016(S1):11-13.

[5]Yeonhee Lee,Youngseok Lee.Toward scalable internet traffcmeasurement and analysis with Hadop[J].ACM SIGCOMMComputer Communication Review,2012(1):117—119.

[6]Hingave H,Ingle R.An appmach for MapReduce based loganalysis using Hadoop[C].Electronics and Communication Sys—tems(ICECS),2015 2nd Intemational Conference,2015:201—204.

[7]刘萍.基于Hadop与Spark的大数据处理平台的构建研究[J].通化师范学院学报,2018(6):59—62.

[8]于金良,朱志祥,李聪颖.Hadoop平台的自动化部署与监控研究[J].计算机与数字工程,2016(12):34—37.

[9]孟永伟,黄建强,曹腾飞,等.Hadoop集群部署实验的设计与实现[J].实验技术与管理,2015(1):21—23.

【通联编辑:唐一东】

收稿日期:2019-08-15

基金项目:安徽省教育厅(相助省级重点项目)质量工程(2017zhkt358)

作者简介:徐俊梅(1983-),女,安徽合肥人,讲师,硕士,主要研究方向为计算机网络技术及大数据技术;陈滨(1981-),男,安徽合肥人,学士,讲师,研究方向为软件工程。

猜你喜欢
数据可视化大学生
带父求学的大学生
大学生之歌
可视化:新媒体语境下的数据、叙事与设计研究
我国数据新闻的发展困境与策略研究
让大学生梦想成真
他把孤儿院办成大学生摇篮