Python 在商品销售数据分析中的使用

2022-07-11 07:46千文
电子技术与软件工程 2022年10期
关键词:销售预测模块

千文

(贺州学院 广西壮族自治区贺州市 542899)

过去的商品市场营销方式通常是采用广撒网的形式,但是这种营销方式虽然具有一定的效果,但是随着现代技术的不断发展,已经无法带来更为显著的效益。基于此背景下,精准营销已经成为一种新的、有效的营销手段。不断整合先进的营销理念,帮助企业准确定位客户,通过高度的信息集成实现精准营销。该方式不仅能够降低营销成本,而且可以提高企业的经济效益。目前,商业软件如SPSS、MATLAB、SAS 被用于数据分析。但是这些软件昂贵,具有庞大的安装包,安装过程非常复杂。Python 相较于与商业软件相比,拥有着非常庞大的标准库与第三方库,可以实现对更加复杂的数据逻辑和更庞大的数据集的处理,并且自动分析十分方便。Python 成为数据分析领域的首选工具。Python 丰富的第三方库、开源社区为许多非计算机专业提供了广泛渠道。因此,本文简要介绍了Python 的产品销售数据分析中的思路。

1 相关技术

1.1 Python语言

Python 是一种计算机编程语言,结合了可解释性、编译和面向对象。Python 语言以其可读、简单、易于维护和可扩展性等众多优势成为近年来最流行的编程语言之一,并且在数据科学和数据分析领域具有显著的应用优势。

1.2 Matplotlib可视化库

Python 的二维图形库Matplotlib 是一个功能强大的通用Python 可视化库。Matlab 绘图工具包提供了一个类似于Matlab 的绘图。用户只需调用pyplot 模块中的函数即可简单高效地绘制直方图、散点图和条形码图。

1.3 Pandas

其是以Numpy 为基础的一种工具,其创建目的是为了解决数据分析任务,它为时间序列分析提供了帮助。Pandas中拥有大量的库和标准数据模型,所以能够为处理大型数据提供必要的工具。

本文选择Python 和Java 编程语言进行系统开发,选择Java 语言和预测模型进行网站开发,并设计了Python 语言。前端开发选择了一个简单的基于layui 的网络编程平台。程序中使用的基本框架是layui 和jQuery,使用的路由框架是q.js。它是一个轻型单面前端配线架,设计理念是“轻巧而简约”。为了使缓存得到更好的利用,同时减少后端支持,q.js终止了html5state,提供了两种URL 注册方法,分别是关键字和正则表达;使用的MWM 框架为Pndyls,其是专门为jQuery 编写的。

2 商品销量预测模型的构建和验证

在对于商品进行预测之前,首先需要了解具体流程:包括确定预测对象、预测目标与需求等。假设预测商品为服装,此时需要考虑到衣服销售季节,明确衣服场景。预测对象、场景决定了预测方法的选择。另外,确定预测时间,预测对象不同对于预测时间具有很高的要求。其次,对于数据进行处理,收集数据之后开展预处理,提高预测精度。数据预处理方法非常多,如常见的数据清洗、数据集成、数据转换、数据规约等。之后可以构建模型,销售预测方法则是根据上述分析到的条件来选择适合的算法,并基于此建立预测模型。最后,确定评价指标,通过指标判断预测结果。

2.1 销量预测方法的选取

表1 所示为销量预测的主流方法。在预测和分析商品未来销售数据时,根据现有数据,数据预测方法可分为定性预测和定量预测。市场预测员根据定性知识收集各种数据,然后根据市场预测员收集数据,并基于预测人员的知识水平、主观判断和丰富经验来评估商品的未来销售发展趋势。定性预测方法具有成本低、时间短、易于使用,可以综合多种因素。但这一方式对于预测要求非常高,所以预测人员的专业知识和经验非常重要。

表1: 主流预测方法对比

定性预测存在非常高的随机性,因此可以采用不同预测决策者的加权平均值,但是预测结果和实际结果之间会出现差异。定量预测则是利用数学模型来分析已有的历史数据,经过对历史数据进行统一后,对于收集到的数据进行处理,以此来观察变量之间的规律关系。原则上可以将定量分析分为两类,其中一类是时间序列预测方法。这一方法能够预测商品的变化规律,并且得到商品在市场上的演化权。时间预测序列方法认为未来的发展形势是过去发展的延伸。回归预测是一种非常重要的因果分析方法。在预测过程中,使用特定的数学模型来对于自变量的变化过程是否存在特定关系进行研究,其因果律不仅表现它的时间序列中,而且具体表现在变量关系。

随着技术的发展,在社会各个领域中开始广泛应用支持向量机和神经网络。具有非线性预测能力的神经网络方法在神经网络模型中十分常见,但是因为神经网络以来学习样本情况比较严重,所以非常容易陷入局部最优,甚至无法得到最优解。基于此情况下,样本数据较小时,预测精度相对较低;但样本数据较多时,将会需求大量训练时间。由于其自身的特点,支持向量机在预测小样本数据,支持度非常高,预测结果也比较准确。

而关于销售额的预测方法也非常多,因此选择销售额的预测方法需要根据预测场景和预测对象来选择。该预测方法根据预测对象和情况进行预测,有效地减少了预测结果与实际情况之间的误差,获得准确的商品销售预测结果。然而,如果我们选择的预测方法没有考虑到实际情况,这不仅会浪费大量人力、物力,还会浪费时间。另外,预测结果很难在环境中得到实际应用,导致预测结果和实际情况之间存在较大的差异。基于训练场景、预测对象等情况来开展预测的话,预测结果的精准度更高。

通过对商品销售现状的分析和各种预测算法的比较,结合样本数据和短期预测时间的特点,如果选择一种需要大量数据才可以获得准确预测的预测方法,则预测时间会成倍增加,但精度是相似的。根据短期销售预测的特点,本研究采用支持向量回归方法,对于非线性预测数据友好,在高维预测、小样本数据具有良好的预测效果,能较好地满足商业销售预测的需要。

2.2 商品销售影响因素分析

商品销售的影响因素可概括为定量因素和定性因素。其中,定性因素是指在具体数据中难以量化的因素,如城市经济发展趋势、宏观调控政策、习惯差异、城市发展水平等。由于销售预测只涉及短期,在短期定量预测中,当地总人口和居民恩格尔系数难以改变,大部分的可支配收入也比较稳定。通过分析影响商品销售的因素,并且结合产品的特点,并考虑到影响需求的主要因素,包括气象条件、节假日、历史需求、促销活动等。第二,商品销售相关因素的日变化,包括日期类型(休息日、促销日、工作日、节假日)、天气等。

在本次设计中,地区总人口数、居民恩格尔系数无较大变化,大部分人的可支配收入也比较稳定。本文考虑到众多影响因素,包括历史需求、天气、节假日、促销活动等,基于此将影响因素分为两类:第一类为预测商品日常销售所产生的数据,从而确定商品需求情况;另一个是与原材料销售相关的影响因素,这些因素每天都在变化,例如日期(促销日、工作日、休息日、节假日)等。在预测商品销量前,将数据进行隶属函数的模糊化处理,方便后续预测。由于影响因素较多,所以各影响因素水平较大的情况下,利用影响因素的原始数据进行分析、预测,数值范围大的因素影响显著,数值范围大和数值范围小的因素影响减小。因此,有必要确保预测结果的更高精度。为最大程度保障结果准确性,解决影响数据的因素,这些指标的尺度相同。

2.3 基于SVR商品预测模型的设计

在销售商品的过程中,需要一个详细的销售计划,以便在短时间内储存商品。只有提前预测商品的未来销售量进,才能保证在短时间内不出现货物短缺、库存过剩、腐败和报废等情况,造成经济损失。因此,商品销售预测是产品销售过程中一个非常重要的环节。然而,在目前的销售预测研究中,很少有一个完整的平台。因此,为了促进产品销售行业的发展,增加贸易商的收入,避免误判造成较大的经济损失。本次设计中模型设计采用更可靠的预测算法和更精确的预测精度来满足预测的需要。产品销售量为该回归模型的因变量,以天气、周假期和促销情况等作为回归模型的自变量。

本次设计中输入变量为:

W:当天周属性;

IsP:当天是否进行促销活动;

SV:当天的商品销量;

IsH:当天是否为节假日。

本文选择上述的几种核函数构建商品销售数据预测模型,通过SVR(kernel+“poly”)构建SVR多项式核的预测模型、线性核预测模型、高斯核模型。

2.4 评估预测效果

在模型开发中的预测模型的评估是一个非常重要的部分。如果构建的模型太过简单那么训练模型非常容易发生欠拟合现象;而模型复杂程度过高的话,则容易过拟合。所以需要评估预测模型,保证变化平衡。通过对模型进行评估,基于评估结果可以找到最佳模型,从而更直观地了解模型的预测性能。

2.4.1 模型评估的方法

数据挖掘采用验证(Hold.out)与交叉验证(Cross.Validation)方法,这两种方法可以帮助模型对于新数据集性能进行预测。

(1)保持法验证。将数据集随机分为三个子集,分别是训练集、验证集和测试集;验证集:对于培训阶段得到的模型结果数据集进行评估,但不是所有模型算法都需要验证集;测试集:该测试集可以避免新数据的训练结果导致训练模型的大偏差。如果模型和训练集比测试集更合适,则可能是因为过拟合;训练集:主要是用来确定预测训练模型的数据集,并且为优化模型参数、模型选择提供了实验平台。

(2)K 折交叉验证。当样本数据有限的情况下,可以将有限的数据分成k 组,以便对模型性能进行无偏估计。在每个训练过程中,为所选子集创建验证集,本次训练集选择k.1 组的剩余子集。在进行一轮训练时,根据所有数据都可以得到k 组模型。基于该模型验证集的平均分类准确率的平均数作为k.cv 下分类器的性能指标。该方法的优势在于能够从有限样本数据的学中得到尽可能多的有效信息。在这一过程中,可以从多个角度来学习有限的样本数据。这个学习

过程可以避免陷入局部极值。训练样本和测试样本在这个过程中均得到最多的学习,结果说服力更强大。

2.4.2 预测中的误差

从几个方面来研究预测模型中存在的预测误差情况,包括偏差和分差引起的,在模型最小方差与偏差之间寻求平衡。基于误差来得到诊断模型的结果,从而促进数据拟合过程的优化,防止发生欠拟合现象和过拟合现象,获得更准确的模型。根据偏差和方差的概念,误差预测可分为两类:

(1)方差误差:模型在给定数据点的可变性,如果模型出现重复构建情况,方差意味着模型不同实现之间在给定点的预期值的变化程度。

(2)偏差误差:其是模型预期值、平均值和模型正确值之间的差值。当存在多个模型的状态下,每次新收集数据然后创建新模型后,基于原始数据的随机性,所以生成模型存在许多预测。偏差是判断模型预测值和正确值之间距离的因素。

2.5 数据收集和处理

本文的销售数据选择某市场的服装销售数据,收集数据为2020 年1 月1 日至2021 年1 月1 日的销售数据。基于影响销售数据的因素,将其开展模糊化处理,然后保存在数据库中。经过对原始数据进行分析,发现原始数据中存在残缺值,这样表示信息存在空白,并且还会对预测产生影响,数据集的处理直接影响到预测的准确性。为了应对残缺值问题,可以采用均值填充。如果缺失值是影响因素中的数值型数据值的情况下,基于该属性在其他所有对象的取值平均值来对于缺失的属性值进行填充。

3 管理预测平台的设计和实现

3.1 管理预测系统整体流程

本系统的目的是让商品的销售单位准确了解市场上商品的销售情况。同时,通过系统预测,可以预测短期销售情况,促进商品销售的定制化。系统流程如图1 所示。

图1: 销量管理预测系统流程图

3.2 程序开发平台

该项目的开发平台分为两部分:销售数据模型用Python编写。在开发过程中,选择Pycharm 作为Python 的开发平台,其拥有智能提示、代码跳转、实时查看变量/内存、代码格式化、版本控制、代码单元测试、断点提示等工具与插件,这些可以提高Python 开发效率。Web 平台的开发选择IntelliJ,有一个更高效的项目管理模式,一个不同但清晰的settings 目录,支持更高效的插件开发和其他JCSS 项目。此外,它有许多快捷键,以方便用户开发。

3.3 管理预测平台的实现

3.3.1 用户信息模块

用户信息模块的主要操作流程如图2 所示,该模块主要负责用户登录。

图2: 信息管理流程

3.3.2 历史销量模块

在这一模块中包括本次设计中的数据展示的页面,主要是销量历史数据的管理和查快时主要展示内容。历史数据页面为历史数据展示和管理,方便用户维护历史数据和管理历史数据。用户在进入平台的历史销量模块之后,这一页面上所呈现的历史销量数据内容主要包括商品名称、各种商品当日销量。每天数据均可以删除和修改,方便用户查询历史数据,并对比每天销量的对比。

3.3.3 意见与通告模块

为了方便沟通的及时性,设计了该模块。在这一模块中,用户可以上传文字、视频、图片、文档等众多类型的信息。

3.3.4 预测模块

调用SVR 预测模型,对配置文件中的参数、数据等进行访问,读取预测时间的准备数据,从而提供销售预测数据。在本项目中,系统将对下周的销售开展下一周的销量预测。由Python 编程模块执行定时任务,这一模块中可以实现定时人物,包括每分钟、每小时、每天、周几等特定时期。通过对历史销售数据的分析,结合相关销售因素,采用SVR模型来预测商品的销售情况。基于Python 在机器学习中的应用,本研究采用Python 作为预测模型开发语言,在用户填写了商品销售预测所需要的名称、时间等信息之后,系统将首先评估是否存在预测数据。不存在预测数据的话,将会调用预测模型开展预测,选择预测周期和商品类别,然后进入销售预测页面;如果存在,则直接读取。

4 总结

综上所述,本文使用Python 实现商品的销售预测模型,采用Java 作为编程平台,选择支持小样本数据的SVR 算法来构建商品的销售预测模型,能够为商品未来的销售预测提供依据。用户还可以在平台上查看商品的历史销售数据,掌握商品的销售情况。本文所设计的平台是一个具有监控和预测功能的销售管理平台。该平台旨在为该地区的市场管理员、商户等提供便利。

猜你喜欢
销售预测模块
无可预测
28通道收发处理模块设计
“选修3—3”模块的复习备考
选修2-2期中考试预测卷(A卷)
选修2-2期中考试预测卷(B卷)
这四个字决定销售成败
给人带来快乐的袜子,一年销售1亿美金
销售数字
集成水空中冷器的进气模块
品牌销售排行