(吕梁学院,经济管理系,山西吕梁市,033000) 郭越乐
作为信息化建设项目的核心,软件造价分析工作发挥着重要作用,在分析和利用信息化工程造价数据时,如果没有大数据技术作支撑,软件造价分析新方法的功能难以充分发挥,从而造成大量异常数据产生,从而影响造价分析的准确率[1-2]。目前,造价数据在不同阶段的复杂度都较高,同时编写报告的工作量庞大,采用人工计算方式获取造价数据相对较低,造价费用在不同阶段具体应用情况不易高效且精准获取[3]。本研究基于国家标准功能点评估,同时将智能软件度量系统创造性的借鉴,工作量评估以“需求导向”为重点,同时结合机器学习及大数据知识体系,针对工作量评估方法体系从流程、制度等层面开展创新性研究,确保工作效率能得到显著提高。
按照说明书模板,对word文档内的格式信息进行读取,在此基础上对“业务功能”相关内容进行识别[4]。参考说明书模板读取相应章节内容,具体文本描述包括:业务流程描述、模块名称、业务功能说明等。在对存在各模块中全部的动名词短语、名词短语及名词进行识别时需合理利用数据挖掘技术及自然语言处理方法。在此基础上再完成不同候选集的构建,包括ILF,EI,EQ这三种。
当模型采用数据挖掘技术完成构建后,此时要进行测试和验证,以实际数据作为参考依据。在对各个预测模型的有效性进行验证时,推荐系统常用的评价指标主要包括召回率Recall、准确率Precision等[5]。
在构建模型的初期,数据支撑的审核主要通过功能点实现。验证数据、深度学习模型、机器学习模型及其他模型均从语料集中获取。因此在后期评估和训练模型的过程中,收集语料集发挥着关键性作用。
应用word2vec 完成词向量转换,可实现向量化文本中全部的词,从而对它们的关系展开定量分析和研究,基于此将存在于词与词间的隐含关系进行充分挖掘。作为自然语言处理中的核心概念,NGram 也被称为N 元模型,通过N-Gram 可实现对某句或词义合理性的判断和评估,一般而言,人们在NLP 中仅需通过语料库就能实现这一目的。功能项短语通过该算法就能完成分词功能。前面存在若干词语后某个词接着出现,通过这种思想来实现算法功能,事实上该思想也算法假设n变量的基础。
在构建模型时需考虑不同类型的语料,在此基础上再完成任务。模型训练重复次数随着语料集不断增加而增多,这样一来模型精度可根据数据新增状况有不同程度的提升。当结束模型训练后,再评估模型准确性指标及模型性能指标,将模型预测的效率及准确性作为重点考量指标。
功能点分类模型可通过模型流程进行构建,下列为详细步骤:①验证集与训练集语料均包含在已有语料集种,将特定识别名称赋予给模型。语料管理页面中如果缺少语料需先将相关语料进行上传;②分词处理方式以及词典均采取自定义选取方式,结合行业类型和特征完成自定义词典选择,可选择新建词典或者不做选择;③对神经网络分类模型、包含SVC 及逻辑回归在内的基本机器学习方法的分类器模型进行选择;构建模型参数数值可参考所选模型;④训练模型前需要完成模型属性的设置。通常情况下,训练模型需要较长的时间,完成训练需耐心等待。在结束训练后评估分析模型性能。
模型管理人员负责完成构建机器学习模型过程中的配置与管理工作。具体工作内容包括评估、调整、训练及构建模型。模型使用人员使用权限由管理人员负责分发。
模型管理人员在语料集变动条件下需随时重新调整已有模型的参数。该过程要求使用者对这些变化调整没有任何感知,从而有效开展模型评估。
在未正式生产使用前,模型结束训练后需要再次通过评估和测试。确保模型具有应用价值。为实现这一目的,需不算完善和更新模型评估体系。
在未正式生产使用前,模型结束训练后需要再次通过评估和测试。确保模型具有应用价值。为实现这一目的,需不算完善和更新模型评估体系。
针对构建的模型定制相应的评估指标,选取指标需结合各功能点及应用场合来完成,在无法确定选取评估指标的情况下,全部指标作为选择;验证集数据全都来源于评估模型,在此基础上评估各种类型的验证集;评估指标在多次评估环节都不一致,这种情况下,对于使用模型人员而言,可根据自己需求预测选取合适的模型。
通过模型评估体系测试已经过训练的模型,进一步评估该模型的准确性指标及性能指标。确认投放使用模型的前提是需要通过测试,模型管理人员面对未经测试的模型仅有对比使用的权限。
一般模型包含多种性能指标,因此在多个层面各指标都能对模型性能进行较好诠释。模型性能指标在不同场合要求下所需满足的条件不一致。表1 为模型评估指标的结果。事实上,模型性能指标可通过准确率进行精准反馈,模型识别能力随着准确率的提高而增强;因此通常需要采取必要措施提高模型识别率。
表1 模型评估指标
综上所述,本文考虑到低效、人工计数难度高等问题,在功能点技术过程中对已识别功能点计数文档的特征抽取出来进行探索,基于此完成分析框架的构建以及功能点辅助审核规则的形成。系统类别以及主要功能的识别需通过参考功能点计数项完成,人工审核工作量可采取文本分析能力构建所降低,从而促进预算管理效率的提高。