李垒, 郝倩
(河南工业职业技术学院 电子信息工程学院, 南阳 473009)
随着互联网、物联网、云计算技术的不断发展,大数据成为当下最热门的技术之一。互联网上的信息称为大数据的重要来源,智能终端的普及给大数据带来了丰富、鲜活的数据,云计算是大数据诞生的前提和必要条件,大数据的出现是历史的必然,它具有数据量大、速度快、类型多、价值高的特点[1]。 “大数据”与“小数据”的区别不在于“大”,而在于“有用”,在于是否有边界。大数据是没有边界的,重点是“分享思维”“整体思维”,小数据是有边界的,主要是“局部思维”“盲人摸象思维”。大数据时代的到来[2], 促使各行业也纷纷从自身出发,创造本行业与大数据技术深度结合的契机,寻求产业升级路径。
国内经济持续发展,居民收入逐步提高,带动人们对乳制品的需求不断增长。全球主要液体乳品消费国人均水平为23-102公斤,而我国人均乳品消费约20公斤,不足世界水平的1/5,人口老龄化的到来以及居民健康意识的增强,也将促进乳品需求的增加[3]。目前,城市乳制品销量占到全国乳制品总销量的90%,广大农村乳品市场潜力巨大,有待挖掘,随着农村乳制品消费量的逐步增长,我国乳制品行业将会迎来更加广阔的发展空间,这也为国内的乳制品企业创造了发展的大好机遇。与此同时,对于乳业来说,每天的交易都会产生非常庞大的数据,如企业股份财务报表、品牌指数、区域岗位招聘信息等。我们需要根据数据模型,对这些数据通过进行整合、分析,挖掘出隐含在其中的有价值的信息,研判乳品行业的健康状况及发展趋势,进而有效地助力企业科学决策,规避风险,创造更大的持续发展优势。
道德经的一句话“有道无术,术尚可求;有术无道,止于术。”阐明了数据分析的本质。数据分析就是一门“明道优术”的学科。而大数据时代的数据分析是指对规模巨大的数据进行分析[4]。大数据分析流程主要包括数据采集、数据预处理、数据分析以及数据展现几个部分。
大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作[5]。大数据的采集需要有庞大的数据库的支撑,有的时候也会利用多个数据库同时进行大数据的采集。因此对于数据库的负载以及每个数据库之间进行切换都存在着挑战。数据采集的性能将会直接决定在一个给定的时间段内大数据系统能够处理的数据量的能力。
由于数据获得的方式多种多样,数据规模也十分庞大,导致实际得到的大数据往往存在着不完整、重复、不一致性,无法直接进行数据挖掘与预测,或达不到满意的分析结果。因此,如何对数据进行有效的清理和转换,使之成为符合数据分析要求的数据源,是影响数据分析准确性的关键因素。为了提高数据分析与挖掘的质量,有必要在之前先进行数据预处理。在一个完整的数据挖掘过程中,数据预处理要花费60%左右的时间。数据预处理主要通过数据清洗、数据集成、数据变换和数据规约等方式来完成。
大数据时代,数据分析与挖掘是大数据处理与应用的关键环节,它是从大量数据中提取或“挖掘”知识,发现规律,该环节决定了大数据集合的价值性和可用性,以及分析预测结果的准确性[6]。在进行大数据分析时,应根据大数据应用情境与决策需求,选择合适的数据分析技术,提高大数据分析结果的可用性、价值性和准确性质量。数据分析与挖掘的任务和功能一般可以分为两大类:描述和预测。描述类挖掘主要是展现数据集中数据的一般特征。聚类分析是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。
预测类挖掘是是利用数据挖掘工具建立连续值函数模型,对已有数据进行研究得出预测结论。从技术上可分为定性预测和定量预测。定性预测是指使用者根据掌握的经验及判断力对将要预测的对象作出定性化的分析过程;定量预测是使用数学模型,对历史统计数据使用数学方法得到变量间规律关系。
数据展现是指将大数据分析与预测结果以计算机图形或图像的直观方式显示给用户的过程,并可与用户进行交互式处理。数据展现的目的是将分析所得的数据进行可视化,以便运营决策人员能更方便地获取数据,更快更简单地发现大量业务数据中隐含的规律性信息,以支持管理决策。数据展现是影响大数据可用性和易于理解性质量的关键因素。
要得到好的大数据分析成果往往需要大量的数据规模、快速的数据处理、精确的数据分析与预测、优秀的可视化图表以及简练易懂的结果解释。
以某乳品行业数据为例,采用大数据可视化分析平台“魔镜”为分析工具,采用大数据思维,通过分析乳品行业公司财务运营情况,品牌热度,人员招聘等信息,对乳品行业企业的发展状况进行多方位的分析评估,对企业实际运营管理提供有价值的数据支撑,指导企业发现问题,并提出相应的对策方案。
将数据源导入分析平台,分析发现数据中存在缺失性、一致性和错误性数据,对这些影响分析结果的数据进行预处理。
(1)缺失数据处理
数据的缺失包括记录的缺失和某个字段的缺失,通过对源数据处理发现,港股中大庆乳业营业收入项,销售成本项,毛利项等都为零,进行数据清洗,如图1(a)所示。
企业港股财报中的每股收益和员工薪酬全部为0,很明显的数据缺失,与现实中实际情况不符,判断为缺失值,将其删除,如图1(b)和(c)所示。
(a)
(b)
(c)
(2)重复数据处理
数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等来检测记录是否相等,相等的记录合并为一条记录(即合并/清除)。根据分析,清除数据源中的重复数据,如图2所示。
图2 去除重复数据
(3)数据一致性处理
由于乳企招聘信息中“学历”字段中的“学历大专”、“学历:大专”和“大专”三种表达形式意思相同,而且影响分析,所以我们选择将其统一合并为“大专”。其他学历有同样问题的字段我们也进行了一致性的操作。如图3所示。
图3 一致性处理
(4)异常值处理
港股中成本都是支出,实际应按照负数算。但是财务成本字段中存在数据为正的情况,为了不影响财务成本有关数据,将其判定为异常值予以剔除。如图4所示。
图4 异常值处理
(1)统计分析
利用数据分析平台对各个乳业的乳品品牌进行分析(根据乳业近三个月的数据来进行分析),主要从整体指数、移动指数和PC指数等方面进行分析,可视化结果如图5所示。
图5 整体指数分析
整体指数代表了一个企业的整体发展水品。使用数据分析平台对各企业商品品牌的整体指数(汇总)和各品牌整体指数占比进行分析,如图所示。从分析结果可以看出,各商品整体指数最高的是蒙牛的特仑苏品牌,达到了43%,所有企业中整体指数占比最为明显。
移动指数是指在移动端搜索关键字的搜索量,PC指数是指在电脑端的搜索关键字的搜索量。将各企业品牌的移动指数和pc指数进行对比,如图6所示。
图6 移动指数和PC指数分析
还发现除圣牧全程有机奶的pc端搜索量比移动端搜索量高之外,其他品牌都是移动端搜索量高于pc端。其中指数对比最明显的是蒙牛特仑苏,可以得出我国居民的搜索习惯,大部分是通过移动端来搜索。因此,对于品牌关注度高的企业继续严把产品质量关,以获得更好的口碑,关注度稍低的品牌在提高产品质量的同时,还需加强对品牌的推广、加大对产品的宣传力度。
创建“企业A股收入分析”仪表盘,对各乳企经营状况,“A股收入”进行分析。如图7所示。
图7 “企业A股收入分析”仪表盘
从分析结果中可以看出,乳品行业里营业收入最多的分别是伊利、新希望和光明乳业。另外,乳业产品的营业收入随各季度会有一些变化,春秋季节光明乳业环比占到92%,然而冬夏季节环比占比为0,华资实业在冬夏季节环比占到60%,在春秋却下降到-10%,所以需要企业在各季节经营方式做些调整。先锋新材、新希望、燕塘乳业、皇氏集团、科迪乳业、贝因美、金健米业这些企业在春秋季节却出现了环比负增长,这说明了企业经营状况呈下滑趋势。从2016的营业收入同比增长对比,可以看出与2015年同期相比大部分企业是呈上升趋势,部分企业并无明显增长,个别企业出现负增长,表明乳企行业近年来发展整体呈上升趋势。
(2)数据挖掘
聚类分析按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合,每个集合中的数据性质相近,不同集合之间的数据性质相差较大。它在相似的基础上收集数据来分类。
根据各乳业的营业收入数据,利用“魔镜”平台分析工具的“数据挖掘”中的聚类分析,得出分析结果,如图8所示。
图8 乳企营业收入聚类分析
据调查,公司的营业收入水平表现了该公司的发展前景,通过聚类把乳企营业收入进行可视化区分,对整个乳品行业的营业能力进行总览。
相关性分析是指对两个或多个具备相关性的变量元素进行分析,用来衡量两个变量因素的相关密切程度。根据移动指数与pc指数数据,根据移动指数与pc指数数据,利用“魔镜”平台分析工具的“数据挖掘”中的相关性分析,得出移动指数与pc指数的相关性,如图9所示。
图9 移动指数与pc指数相关性分析
从结果中可以看出,pc指数数据落入移动指数空间的置信度是0.78,属于中度相关,而移动指数落入pc指数空间的置信度分别是0.90和1.0,属于高度相关。
(3)对策建议
各乳企通过“互联网+”,大数据等先进技术,对企业相关数据进行分析,有利于充分了解国内市场的需求重点,紧跟国际市场,加大产品研发投入,注重产品的升级换代。另外,在智能时代,各乳企应该加大低端岗位员工的培训力度,提高他们转岗和再就业的能力。而新进乳企应该提供更具特色的产品,强化自身品牌的区分度,在市场中为自己赢得一席之地。
大数据是在互联网时代,信息储存和处理能力飞跃发展之后得到的一个成果,也是人工智能的基础技术。大数据是任何企业都绕不过去的一个具有决定性意义的重要技术,必然对所有企业都造成不可忽视的影响。大数据分析为企业带来有价值的信息,助力企业做出合理预测和科学决策。