◆刘晓霞 贾冀哲 徐嘉拓
关于大数据系统中的软件工程管理方法探讨
◆刘晓霞1贾冀哲2徐嘉拓2
(1.沈阳理工大学装备工程学院 辽宁 110168;2. 东北大学软件学院 辽宁 110819)
当前社会已进入大数据时代,应用软件具有开发过程复杂、开发周期长及生命周期短、异构系统间信息资源共享困难、不易维护等特点。基于这一现状,本文提出一种基于大数据系统的软件工程管理方法。该方法旨在面向大数据体系结构,以大数据平台为核心建构统一的数据资源池,并以大数据—应用生态系统为基础,实现信息系统的快速搭建与海量数据的有效管理。
大数据;系统;软件工程;管理;方法
大数据时代,信息具有冗余化、海量化特征。其作为应用软件与所有信息新系统的“血液”,大数据的整个生命周期都会对软件应用范围、功能结构甚至软件使用产生影响。大数据时代与传统信息时代不同,人们更加注重大数据的安全性、价值挖据与算法研究,更多的在于关注大数据本身与数据应用[1]。在软件工程中,人们为了解决软件系统开发中存在的异构系统问题,通过大数据挖据与建构软件工程管理体系,实现对软件系统的开发与应用。基于大数据系统的软件工程系统功能扩展困难,开发过程复杂,难以适应结构环境变化。因此,增加了应用软件开发成本。基于此,本文基于“SOSE”(面向服务的软件工程),通过DOSE、大数据生态系统与数据资源池技术进行软件工程管理。
DOA是一种面向数据的体系结构,在该体系下,基于DRC(data register center)数据注册中心这一核心部件,对大数据系统统一进行标识、定义与管理。同时,通过DAC(data authority center)数据权限中心对大数据使用权与所有权进行权限管理。数据资源池中的数据需由DEC(data exception controlcenter)异常控制中心进行自适应管理,以解决软件工程开发中遇到的各种系统功能复杂、数据量庞大等问题[2]。
2010年,国外学者Forney M基于大数据概念首次提出大数据生态系统的软件工程管理思想。其认为,大数据生态系统是一个信息系统,基于大数据生态系统进行软件工程管理时,会经历系统分析、系统设计、系统实施与维护这一完整的生命周期。在软件工程开发中,大数据生态系统为应用软件开发提供了信息“土壤”,也为软件系统应用与维护提供了现实可能性。大数据生态系统的水平结构与垂直结构变化,使数据量剧增,也使信息实现由获取到删除、由应用到淘汰[3]。
逻辑数据资源池以大数据为核心,以(DRC)数据注册中心为基础,实现对软件工程进行优化管理:
一是基于DRC(数据注册中心)对大数据进行逻辑管理。
在逻辑资源池中,所有大数据均要经过DRC注册,并按统一标准对数据资源进行标识与规范化处理,减少数据冗余,记录不同数据状态、属主信息、数据大小、存储地址等属性信息。最后,数据注册中心会将注册后的源数据存储至逻辑数据资源池中统一管理。为用户提供数据定位与数据搜索等服务。
二是DEC(数据异常控制中心)与DAC(数据权限中心)协同对应用软件系统进行维护。
DAC主要负责对用户权限信息与角色进行管理,并采用加密技术结合大数据状态对其加密与解密处理。DOA定义下的大数据具有应用态(大数据在应用时授权解密)与数据态(大数据在传输与存储时加密)两种形态;而DEC主要负责对软件工程元数据等进行维护,并负责检测与控制数据资源池发生的异常。
(1)以DRC为基础
DOA是基于大数据系统的软件工程管理核心基础,DOSE系统以DOA为架构,DRC可通过物理数据资源池及逻辑数据资源池对软件工程开发与应用软件系统服务中产生的各类数据进行存储。
(2)业务逻辑与数据逻辑实现转化
在DOSE体系下,一个完整的数据逻辑过程是指数据资源池中某个数据的一次读写操作;一个或多个数据逻辑构成一个DOSE业务逻辑。通过数据导向可详细对用户软件工程开发需求进行了解;而数据逻辑可进一步对应用软件系统开发过程进行细化。
(3)大数据生态、可持续
DOSE系统中,应用工具、应用需求及数据都有生命周期。若将所有数据比作“土壤”,应用比作“森林”或“树木”,整个大数据生态系统为可持续、永恒、生态的软件工程管理系统。
(1)大数据注册标注统一化
①通过统一的标准对大数据注册、定义;
②采用数据逻辑资源池进行数据管理,使同一数据存储于多个空间;
③ 以统一协议在统一平台下或数据注册中心进行数据交换。
(2)大数据驱动应用
在软件工程管理中,要使业务逻辑与数据逻辑产生关联。通过大数据驱动,基于数据土壤,对大数据进行需求分析,搭建应用森林,实现对整个软件工程进行驱动管理。
(3)数据与应用有效协调
通过在大数据与应用软件间构建完善的协调机制,基于大数据可获得更多需求;也可基于基本功能单元实现对整个软件工程中的应用软件进行管理,结合用户频繁的需求变换,延长应用软件价值生命周期。
下图1为基于DOSE架构的完整生命周期:
图1 完整生命周期
K-NN分类算法(K-Nearest Neighbor)基本应用思路[4]:当给定一个新的文本后,找出在训练集中与该文本最相似的K篇文本,然后结合其所属具体类别,对新文本所属类别进行判断。具体如下:
(1) 分别输入分类体系C与训练集d及待分类文本d′,输出待分类文本的具体类别;
(2) 预处理待分类本文。采用公式对待分类文本权重进行计算,并通过向量 V(d′) 表示待分类文本;
(3) 在训练文本集中选出K个与新文本最相近的文本,并通过如下公式计算文本的初始值;
在新文本的K个邻居中,采用如下公式对每一类文本的具体权重进行计算:
式中:
在上式中,若属于类,则函数值=1,否则函数值=0。
(4)对类的权重进行比较,向权重最大的那个类别分配文本。
大数据时代,数据冗余化对软件工程开发与应用软件系统维护提出了巨大挑战。在大数据环境下,应着力开发安全、高效、健壮的软件,除了需要得到DOSE等技术的支持外,更要建构一套统一、完整的软件管理方法标准,实现对软件数据的挖据与软件工程的集约化、安全化管理。
[1]王建民.领域大数据应用开发与运行平台技术研究[J].软件学报,2017.
[2]孟春蕾,范广露,李家怡等.产品质量管理中的大数据技术应用分析[J].电子质量,2017.
[3]徐良.面向数据的软件工程方法研究[J].电脑知识与技术,2016.
[4]苗放.面向数据的软件体系结构初步探讨[J].计算机科学与探索,2016.