基于机器学习的软件开发过程优化研究

2024-12-31 00:00:00李红军

信息系统工程 2024年11期

摘要：随着人工智能技术的飞速发展，机器学习作为其中的重要分支，被广泛应用于各个领域。旨在探讨基于机器学习的软件开发过程优化问题，以提高软件开发效率和质量。首先，详细分析了软件开发过程中常见问题。其次，利用Apriori关联规则算法对软件开发过程中的大量数据进行训练和分析。然后，基于训练结果，优化软件开发中的各个环节，从而提高开发效率和降低错误率。研究结果表明，在实际软件开发项目中，采用基于机器学习的优化方法可以显著提升团队的协作效率，减少开发周期，提高软件质量。

关键词：机器学习；软件开发；过程优化；Apriori关联规则算法

一、前言

随着信息技术的快速发展，软件开发已经成为各行业的重要组成部分。然而，传统的软件开发方法在满足日益增长的需求和挑战方面已经显得后劲不足。软件质量、开发效率、团队协作等方面的问题愈发凸显[1]。在这种背景下，机器学习作为一种新兴的技术手段，为优化软件开发过程提供了全新的可能性。通过利用机器学习算法，软件开发团队可以更好地处理日益增加的开发数据，准确识别和预测潜在问题，从而及时调整开发方向。此外，机器学习还可以帮助优化开发流程，提高团队的协作效率，降低开发成本，提高软件的质量和可靠性[2]。因此，本研究旨在探讨基于机器学习的软件开发过程优化策略，为提高软件开发效率和质量探索新的可能性。

二、软件开发过程常见问题分析

在软件开发过程中，常见的问题包括需求不明确、沟通不畅、进度把控困难、代码质量低下等。首先，需求不明确可能导致开发团队无法准确理解客户需求，进而影响产品的最终质量。沟通不畅则可能导致开发团队之间或开发团队与客户之间信息传递不畅，造成不必要的延误和误解。此外，软件开发项目的进度把控往往是一个挑战，团队往往难以准确估计开发时间和资源，导致项目延期或超预算。最后，代码质量低下可能导致软件在使用过程中出现漏洞和问题，影响用户体验和产品可靠性。这些问题的存在常常会导致软件开发过程效率低下、成本增加、质量下降等负面影响。因此，研究如何有效解决这些常见问题，提升软件开发过程的效率和质量，具有重要的现实意义。结合机器学习等先进技术，可以帮助实现软件开发过程的智能化优化，为推动软件产业的发展提供新的可能性[3]。

三、软件开发数据挖掘技术

（一）数据挖掘流程

数据挖掘是从大量结构与非结构化的信息数据中采集有价值信息的过程。研究者对数据挖掘有很多定义，提出的分阶段处理模型应用较为广泛，他们把整个数据挖掘阶段分为七个过程。目前，数据采集挖掘方法已全面运用于金融、医疗等范畴，教育行业也在逐步根据自身特点和优势进行探索和实践[4]。

数据采集挖掘步骤包括：目标的定义、目标数据库建立、预处理数据、模型建立、检测、测评与说明和现实运用，如图1所示。

通过图1可以清晰地看到数据挖掘过程和各项流程的关系。首先，目标的定义是要求数据挖掘的技术人员与客户前期进行一个良好的沟通，一方面可以明确实际要求，另一方面是要明确了解数据分析要解决什么具体问题。目标数据库的建立是通过对大数据的收集和描述，对数据质量进行评估，加载数据库模型，构建元数据。预处理数据是整个挖掘过程中的重要环节，其耗费时间占整个数据挖掘过程70%左右。数据预处理有处理噪声数据、不一致数据和不完整数据等。例如，在有噪音干扰环境下得到的数据属性，不同数据来源会导致数据产生不一致性。模型的建立是一个反复的过程，需要认真考虑模型的实用性，应该先创建小量数据模型，然后进行数据验证再得到一个最终模型，还需要通过检测环节对模型的稳定性和准确性进行评判。测试与说明是对模型运行的结果进行检验并评价它的模型价值。现实运用主要是在对模型进行充分论证和试验后，应用于技术人员的实际工作和其他不同数据集的分析上[5]。

（二）面向数据挖掘的机器学习方法

数据挖掘是大数据分析首要研究的热点。所谓数据挖掘是指从存储或数据库的大量数据中，找到隐藏的、未知晓和无法发现的具有潜在价值信息的过程。数据挖掘是对发展决策的一种支持手段，它立足于人工智能、机器学习、统计学、数据库、可视化等方法与技术，通过对大型数据库的探查与分析，可以预测未来的发展趋势与走向。例如，通过对高校的招生大数据分析可以得到哪些专业受到学生欢迎，哪些省份的生源质量提高快，由此可以对学校的专业设置和招生名额分配提供一定决策支持。同样，在教学管理、教学评价、网络安全、学生管理等各个方面，大数据分析都有它重要的决策需求。在数据挖掘分析中最重要的基础是有效的数据统计分析方法和数据分类分析方法[6]。

统计分析方法是在资料系统相对完善的基础上进行统计分析，将定量和定性相融合，在统计调查、设计整理基础上，通过分析统计对象的有关知识实施的活动来认识研究对象。常用的统计分析方法有主成分分析法和因子分析法等。

主成分分析法（PCA）是一种借助正交变换将可能有关联性的变量转为无关联变量的方法。主成分分析不是简单地舍去不关键的标准，而是全面分析各种标准，涉及信息获得变成主成分的全面标准，是数学降维的一种主要方法。

因子分析法本质上是取得变量关联的数据矩阵，研究内部结构。借助得到的若干能操控全部变量的任意变量，能够说明诸多变量间的关联性。这些不可查看的任意变量称为因子，并按照关联性进行分组。分组体现着同一组变量的关联性高，而不同变量的关联性低。

分类分析方法是指采用一定方法能够将对象划分到预先定义的目标类中的方法。分类分为两个过程：首先，在数据收集与采集的基础之上借助算法获得分类模型。例如，F是目标模型函数，能够将数据和属性集X先行反馈到目标类之中。其次，检验模型的精准性，假如精确程度在可允许的范围内，则能够使用该模型进行新的数据类别区分。目前，普遍使用的分类分析法有决策树法、贝叶斯区分算法、类别区分法和相关分析法等。

决策树分析法也被称为树形分析法，因其图形与树干相似得名，是一种使用较为普遍的分类分析方法。它具有操作简单，易于理解的特点，是一种立足现实案例的总结学习算法，可以帮助使用者很好地理解问题。决策树的类别区分涉及三个环节：首先绘制树形决策图，对决策问题进行再次分析；其次由右到左反方向计算各节点期望值；最后对比各类方案的一个期望值，进行剪枝，并将去掉的部分用“=”号隔断。

四、基于Apriori算法的软件开发过程中数据关联分析

关联分析是数据挖掘中最实用的技术之一，也是目前数据挖掘研究中较为活跃的技术。良好的关联算法可以为数据分析节省大量时间和空间，从大量的数据池中快速发现子项集间存在的有趣关联，并充分利用这种关联进行进一步数据挖掘和呈现。目前常用的Apriori算法是较为基础的关联规则算法，可挖掘和采集诸多数据中项集之间的关联性，缩小频繁项集之间的空间。其重点理念是找出全部项集，保证出现的次数与定义的最小度一致，进一步生成可以满足最小可信度和支持度的关联规则。该算法在安全、通信、数据管理等领域都有广泛的应用，但是存在效率较低的问题，需要进一步改进和优化。

（一）Apriori关联规则算法

Apriori算法是利用了逐层搜索迭代的思想找到数据库中的项集关系，生成关系规则。算法中的项集就是项的集合，如K个项即K项集，如果其中的一个项集满足最小的支持度则称为频繁项集。Apriori的关联规则思想本质上是从数据库中扫描所有候选项集，找到频繁项集，进一步计算其支持度，将产生的候选项集互相联结、循环，直至无法产生新候选项集为止。

该算法有四个性质：一是在数据遍历运算时，遵循自上而下、由底到顶的遍历方式；二是坚持宽度和深度优先的搜索策略；三是在给定的事务数据库中，优先寻找候选项集；四是在数据分布上，主要在水平和垂直两个方向进行分布。

Apriori关联规则算法流程是：第一，扫描数据库，对数据库中的数据进行计数，结合需求给出项目集最小支持度以及最小置信度；第二，针对所有候选项目集支持度进行计算和比较，当该项目集支持度低于最小值支持度时将其删除，否则将其作为下一步频繁项集；第三，在第一次数据库扫描时产生候选项集，并计算每个项集的承受度，令其与先行部署的最小承受度限值进行对比，获得频繁项集；第四，将频繁项集数据项进行结合，经过关联后获得候选项集，将其最小支持度阈值进行比较，进一步获得候选项集；第五，借助多次扫描进行比较，直到没有新的、更大的项集产生；最后，结合从最大频繁集获得的相关规则，借助计算相关规则的置信度，深入地获得较为合理的相关规则。

（二）改进Apriori关联规则算法

Mapreduce是分布式的简化编程的模式和调度模型。前文分析表明传统Apriori关联算法存在耗时和需要消耗大量存储空间等弊端。如果在Mapreduce模型基础上能结合 Apriori算法，形成Mapreduce+Apriori交叉的算法结构，则可以借助Mapreduce的并行计算框架改进传统Apriori算法存在的计算效率不足弊端，可为数据挖掘工作提供一定技术支持。从算法的基本理念上来看，该算法是利用Mapreduce“划分而治”的方法，将Apriori算法与Mapreduce框架进行结合。算法具体计算过程将分为Map和Reduce两部分，通过这两部分把大块数据文件划分成独立的数据块进行并行计算处理，其处理的过程如图2所示。

Mapreduce+Apriori交叉算法内容包括：扫描原始数据到矩阵，压缩重复数据成矩阵D；利用Mapreduce的并行计算模式特性对矩阵D分块；将分块后的矩阵D发送到Hado结构中的每一个计算终端上；由每一台计算终端对数据进行分布式的计算处理，通过并行计算提高数据计算效率，扩大存储空间。

该算法是运用Mapreduce并行模型与 Apriori关联算法进行交叉融合。首先，将原始的数据划分区块，将数据集分为数据块并提交给map节点。其次，引入局部最小承受度限值，按照块的占比计算局部最小承受度限值。最后，针对每一块数据使用该算法来减少事务数据矩阵的限值。这种算法通过借助数据的不断划分来采集数据矩阵中的频繁项集。在整个计算阶段之中，减少了对数据库的扫描次数和频率，可以降低算法的完成时间，提高算法的计算效率。

五、实验结果分析

为验证上述改进算法的有效性，本文在 Mapreduce模型结构下，构建一个分布式集群环境。该集群环境共建立了7个节点，各节点处理器主频CPU2.8兆赫兹、6GB内存，操作系统为 Linux的Ubuntu18.10。传统的数据分割式算法在计算耗时上较为显著，在三频繁项集关联算法中耗费时间最长为35019秒，简单并行算法时间的耗费为其次，在三频繁项集关联算法中耗费时间为30982秒。而本文的“Mapreduce+Apriori”交叉算法，在1、2、3频繁项集中消耗时间分别为10228秒、12921秒以及29851秒，有效改善了在挖掘过程中随着频繁项数据的不断增加而导致的系统运行速度和计算速度明显降低的问题。表1给出了Mapreduce+ Apriori交叉算法在不同数量集群节点上的加速比提升结果。因而在耗时和加速方面，本文所提算法明显要优于其他两种算法。

六、结语

本研究基于机器学习的软件开发过程优化方法在提高软件开发效率和质量方面具有重要意义。研究的创新点在于将机器学习技术应用于软件开发过程中，实现了自动化的问题识别和预测。传统的软件开发过程依赖于人工经验和规则的制定，容易受主观因素的影响，并且无法处理大量数据的复杂性。而基于机器学习的方法可以更准确地分析数据，发现隐藏在其中的规律和趋势，帮助开发团队更好地规划和管理项目。未来可以进一步探索该方法在不同领域和环境中的应用，并结合其他先进技术，实现软件开发过程的智能化和自动化，为推动软件产业的发展作出贡献。

参考文献

[1]吕志颖.基于大数据智能化的信贷软件开发过程优化研究[D].杭州：浙江大学，2023.

[2]黄作鹏.基于CMMI的鹏成网络公司软件开发质量管理优化研究[D].兰州：兰州理工大学，2023.

[3]马润楠.基于DevOps的A公司软件项目过程管理优化研究[D].北京：北京邮电大学，2024.

[4]张晖.基于敏捷开发的D公司软件项目管理过程优化研究[D].济南：山东大学，2022.

[5]骆传慧.FPGA软件开发过程中编码规范的作用[J].科技视界，2016（20）：239+241.

[6]白锐，任群英，郭万里.生料浆制备过程的优化控制软件[J].上海交通大学学报，2014，48（07）：998-1003.

作者单位：青岛滨海学院

责任编辑：张津平、尚丹