基于场景化的大数据+AI 算法仓平台研究

2024-06-26 04:25王强刘海德牛清娜李雪冬
电脑知识与技术 2024年14期
关键词:数据挖掘流程

王强 刘海德 牛清娜 李雪冬

摘要:为解决大数据技术及AI技术应用发展中原子算法重复利用率高、算法缺乏统一的生命周期管理、运维部署难度大等问题,通过打造了大数据+AI算法仓平台,采用基于多端点、多分支以及自动机技术的数据挖掘流程模型技术、分布式架构体系上分布式并行挖掘算法实现技术和自动机器学习技术,实现了无代码拖拽式操作,拓展了大数据+AI技术应用领域,助力企业AI时代数据化运营,对存量算法、行业平台及第三方应用厂家算法进行统一管理,完成了算法能力的统一输出,形成了一体化的算法智能运营能力体系为行业赋能。

关键词:场景化;AI算法仓;数据挖掘;流程

中图分类号:TP3 文献标识码:A

文章编号:1009-3044(2024)14-0073-03 开放科学(资源服务)标识码(OSID) :

0 引言

随着数字时代的不断发展,大数据和人工智能(AI) 技术正成为推动社会、企业发展的核心引擎。为了在这个充满机遇和挑战的领域中取得更大的突破,文章基于场景化的AI算法仓技术研究旨在通过构建一体化的大数据+AI算法仓平台,从已有大数据基础算法、大数据公司、第三方以及现有系统中应用算法纳入到原子算法池,封装成易应用的组件,构建可视化的标准算法资源体系,形成原子算法的能力全景视图。基于算法资源,通过基础算法的自由组装和验证,形成适配场景化应用的综合算法能力,以快速支撑行业场景化应用。并打造丰富的算法资源池,满足各类用户数据分析过程中从数据接入、数据处理、分析建模、模型评估、部署应用到管理监控等全流程的功能诉求;同时辅以图形化、拖拽式的建模体验,让用户不用编写代码,即可实现对数据的全方位深度分析和模型构建,助力企业AI时代数据化运营。

最后将不同生产场景的各个环节深度融合,促进科研成果的转化落地,赋能各行业场景,实现更广泛的应用。

1 相关技术

数据挖掘是从海量数据中提取有价值信息的关键过程[1]。为了在各类业务场景下实现更灵活的数据挖掘,我们采用了基于多端点、多分支和自动机技术的数据挖掘流程模型。通过XML标签的形式描述流程语言,构建了一个解析器系统,其中主解析器负责遍历目标语言描述的流程信息,调用子解析器对子结构进行解析。这种模型的灵活性使得我们能够更好地适应不同场景下的数据挖掘需求。

由于传统的单机算法可能面临性能瓶颈。因此,我们首次采用了分布式架构体系上的分布式并行挖掘算法技术。通过对传统算法的分析和移植,我们将核心逻辑随数据块进行分发运算,实现了在分布式环境中的高效挖掘。这一技术的引入为平台在大规模数据情况下的运算提供了更好的性能保障。

在数据挖掘的建模过程中,选择合适的算法及参数是一个复杂而关键的任务。为了降低用户门槛,引入自动机器学习技术,包括自动择参、自动分类、自动回归、自动聚类、自动时序、一键式建模等自动学习功能节点[2]。用户只需定义算法和参数的范围,平台将在此范围内自动选择最优的算法和参数。这使得算法的应用更加智能化,不需要用户深入了解底层的技术细节。图1为技术路线图。

2 研究方法

1) 大数据+A I算法仓平台核心组件研制。采用机器学习、深度学习、自动学习等多种机器学习方法,运用低代码、无代码建模技术,实现基于拖拽式节点操作、连线式流程串接、指导式参数配置操作模式,研究人员可以通过简单拖拽、配置的方式快速完成挖掘分析流程构建式,包括数据接入、数据处理、模型构建、模型评估、模型管理等。如图2所示,从而建立统一的算法管理能力,实现算法从接入、验证、组合、上线、监控的统一流程管理。为确保项目的技术领先性,我们首先进行了创新技术的深入研究。这包括基于多端点、多分支、自动机技术的数据挖掘流程模型技术、场景化的多模态模型封装技术、模型自动构建及训练技术、分布式并行挖掘算法实现技术、图形化拖拽式建模技术、全新模式的专业数据处理及算法节点技术。这一阶段的研究奠定了整个项目的技术基础。

2) 基于技术研究成果,着手研制大数据+AI算法仓平台的核心组件。这些组件包括AI算法模型库构建组件、算法模型构建及训练组件、算法模型应用扩展组件、模型部署应用与管理组件。通过确保这些组件的有效性和协同工作性,我们为整个平台提供了功能上的全面支持[3]。

整合研发的核心组件,构建AI流水线体系框架,形成一个完整的数据挖掘流程。同时,我们将各种AI 算法和模型集成到平台中,确保平台的通用性和适用性。该流水线框架将为用户提供一站式的大数据+AI 解决方案。

3 实证分析

为了降低分析挖掘的应用门槛,我们研发了无代码拖拽的建模分析方式。通过如JsPlumb等技术实现节点之间的连线、拖拽和标签显示,我们构建了一个可配置的节点系统。该系统包括节点与节点之间的连线、数据集与数据集的连接、模型与模型的连接。通过插件化的系统结构,我们确保了平台的高性能、高稳定性和可复用性[4-5]。

在大规模数据参与建模时,我们首次采用了分布式架构体系上的分布式并行挖掘算法技术。通过充分利用分布式集群的算力,我们实现了传统算法的并行化移植。这一技术确保了在大规模数据情况下的高效挖掘,使得平台在不同场景下都能够快速而灵活地运行,图3为分布式架构体系上并行挖掘算法技术体系结构图。

为了使得分析挖掘与各个场景开发业务更加匹配,我们研究了全新模式的专业数据处理及算法节点技术。通过基于场景的专业数据处理和算法节点的研究,我们实现了对不同业务场景数据的专业、高效和便捷分析[6]。这一技术保证了算法在不同行业场景中的深度应用。

3.1 大数据+AI 算法仓平台核心组件研制

文章研究的核心之一是大数据+AI算法仓平台的核心组件研制。我们将采用多种机器学习方法,包括机器学习、深度学习和自动学习等,结合低代码、无代码建模技术。通过拖拽式节点操作、连线式流程串接和指导式参数配置,研究人员可以通过简单的拖拽和配置,快速完成挖掘分析流程的构建,包括数据接入、数据处理、模型构建、模型评估和模型管理等。这样的设计旨在建立统一的算法管理能力,使算法能够从接入、验证、组合、上线到监控的整个流程得以统一管理[7]。

3.1.1 机器学习、深度学习、自动学习等多种机器学习方法的应用

文章涉及多种机器学习方法的应用,包括机器学习、深度学习和自动学习。这些方法将在大数据+AI 算法仓平台中得以实现,为用户提供强大的算法选择和应用能力。通过低代码、无代码建模技术,我们将实现对这些机器学习方法的可视化支持,使用户能够通过拖拽式节点操作,轻松完成复杂的算法构建和配置。

3.1.2 拖拽式节点操作、连线式流程串接、指导式参数配置的技术实现

为了提供用户友好的建模体验,我们将采用拖拽式节点操作、连线式流程串接和指导式参数配置等技术[8]。这些技术的实现旨在使研究人员通过简单的拖拽和配置,快速完成挖掘分析流程的构建。通过可视化的方式,用户能够清晰地了解整个算法构建的流程,并根据需要进行节点之间的连接和参数的配置,图4为数据业务流程图。

3.1.3 统一算法管理能力的构建

大数据+AI算法仓平台的一个重要目标是构建统一的算法管理能力。这包括从算法接入、验证、组合、上线到监控的整个流程的统一管理。通过对核心组件的研制,我们将实现对300多个算法的管理,并形成一体化的算法智能运营能力体系。这将大大提高算法的利用效率和管理效果,为用户提供更加便捷的算法应用体验。

3.2 算法组装融合研究

在算法组装融合研究方面,我们将进行机器学习算法组装融合、统计分析相关算法组装融合、深度学习算法组装融合、集成学习算法组装融合和自动学习算法组装融合等工作。通过统一管理存量算法、行业平台和第三方应用厂家算法,实现算法能力的统一输出。涉及对300多个算法的管理,构建算法统一管理机制,形成一体化的算法智能运营能力体系。

3.2.1 机器学习算法组装融合

文章将进行机器学习算法的组装融合研究,旨在将不同的机器学习算法进行组合,以适应不同的应用场景。通过组装融合,我们可以在不同的业务环境中充分发挥机器学习算法的优势,提高模型的预测性能。

3.2.2 统计分析相关算法组装融合

除了机器学习算法,我们还将研究统计分析相关算法的组装融合。统计分析在数据挖掘中有着重要的地位,通过将不同的统计分析算法进行组装融合,我们可以更全面地挖掘数据背后的规律,为决策提供更可靠的依据。

3.2.3 深度学习算法组装融合

深度学习作为近年来取得巨大成功的算法领域之一,其在图像识别、自然语言处理等方面表现出色。我们将研究深度学习算法的组装融合,以适应对大规模、复杂数据的处理需求。

3.2.4 集成学习算法组装融合

集成学习是一种通过结合多个弱分类器来构建一个强分类器的方法。我们将进行集成学习算法的组装融合研究,以提高整体模型的泛化能力和鲁棒性。

3.2.5 自动学习算法组装融合

为了进一步提高算法的智能化程度,文章研究自动学习算法的组装融合。通过引入自动学习的元素,算法将能够更好地适应不断变化的数据环境,实现模型的自动调整和优化。

3.3 算法应用扩展能力研究

通过SQL、R、Python、Java、Scala、Matlab脚本实现个性化场景的算法扩展能力。研发基于大数据+AI算法仓平台的自定义算法功能,以支持用户基于不同的业务场景需求,通过R、Python、Java、Scala、Matlab、PySpark等编程语言,依据大数据+AI算法仓平台的规范封装自主算法并发布形成平台节点算法。这样的设计旨在方便用户灵活扩展平台算法节点功能,增强平台的业务适应能力,充分满足企业级用户的个性化需求。

3.3.1 基于 SQL、R、Python、Java、Scala、Matlab 脚本的个性化场景算法扩展

通过SQL、R、Python、Java、Scala、Matlab等脚本实现个性化场景的算法扩展能力。这将使用户能够根据自己的需求,通过编写脚本来实现对特定场景的定制化算法应用。

3.3.2 大数据+AI 算法仓平台自定义算法功能研发

为了支持用户根据不同的业务场景需求,文章研发基于大数据+AI算法仓平台的自定义算法功能。通过R、Python、Java、Scala、Matlab、PySpark等编程语言,用户可以在平台上自主封装自己的算法并发布成平台节点算法。这将极大地提高平台的业务适应能力,满足企业级用户的个性化需求。

4 结束语

通过创新技术的研究和核心组件的研发,我们成功构建了一体化的大数据+AI算法仓平台,为企业提供了全方位的算法智能运营解决方案。在大数据和AI应用中,我们解决了原子算法重复利用率高、算法缺乏统一生命周期管理、运维部署难度大等问题,为企业AI时代的数据化运营提供了有力支持。该平台的设计不仅拓展了大数据+AI技术应用领域,还建立了更完善的科研教育体系,为行业赋能,促进产业数字化转型。

参考文献:

[1] 刘玉林,菅利荣.基于文本情感分析的电商在线评论数据挖掘[J].统计与信息论坛,2018,33(12):119-124.

[2] 朱荣,周彩兰,高瑞.基于数据挖掘的客户关系管理系统研究[J].现代电子技术,2018,41(1):182-186.

[3] 蒋旭东,周立柱.数据仓库查询处理中的一种多表连接算法[J].软件学报,2001,12(2):190-195.

[4] ARTSTEIN R,POESIO M.Inter-coder agreement for computa?tional linguistics[J].Computational Linguistics,2008,34(4):555-596.

[5] 张卫丰,陈红英,王庭,等.聚类算法对代码仓库中学习者行为特征的研究[J].软件导刊,2021,20(11):142-147.

[6] 冯喆,张强.低代码开发平台在企业数字化转型中的应用研究[J].互联网周刊,2022(10):13-15.

[7] 崔海涛,章程,丁翔,等.面向微服务架构的开发组织适应性评估框架[J].软件学报,2021,32(5):1256-1283.

[8] WU X W,LI C,WANG X,et al.A creative approach to reducing ambiguity in scenario-based software architecture analysis[J].International Journal of Automation and Computing,2019,16(2):248-260.

【通联编辑:朱宝贵】

基金项目:山东省重点研发计划(软科学项目)(No.2023RKY01008);山东省教育系统政府公派出国留学项目资助(2021) ;淄博市重点研发计划:“淄水在线”智能水务物联网云服务平台项目(2019ZBXC246)

猜你喜欢
数据挖掘流程
吃水果有套“清洗流程”
探讨人工智能与数据挖掘发展趋势
违反流程 致命误判
基于并行计算的大数据挖掘在电网中的应用
数据挖掘技术在中医诊疗数据分析中的应用
本刊审稿流程
析OGSA-DAI工作流程
数字流程
一种基于Hadoop的大数据挖掘云服务及应用
Beagle犬定购、接收和检疫流程初探