探讨大数据时代机器学习的应用及发展

2022-11-25 17:57潘志洋
电子元器件与信息技术 2022年4期
关键词:机器算法

潘志洋

天津工业大学软件学院,天津,300387

0 引言

党的十八大以来,大数据逐步上升到国家战略的层次。时代要求我们要把握信息革命历史机遇,用好大数据,增强利用数据推进各项工作的本领,不断提高对大数据发展规律的把握能力,使大数据在各项工作中发挥更大作用[1]。大数据技术是指针对包含结构化数据、半结构化数据和非结构数据在内多种多样的数据,快速从中提取有效信息的技术。传统的数据分析技术重点关注使用适宜的既定统计方法针对数据展开分析,以便从中发掘具体的功能和价值。相较于传统的数据分析,大数据技术的关键目标之一在于在浩如烟海、结构繁复的大量数据之中发掘各类数据背后的潜在的客观规律,借此最大化数据所能体现的价值。为此,应当切实地结合机器学习,通过计算机发掘数据,并从中筛选信息,获取相应的知识。只有相应地发展机器学习,大数据技术的目标才可以获得可以实现的保障。具体而言,大数据的特征大致如下:一是数据在体量方面极其巨大;二是数据在类型方面极其繁多;三是数据价值性密度较为低下;四是众多数据需要进行即时快速的处理。因此,受制于大数据的各种特征,发展机器学习需要从研究方向、主要评测指标和相关核心技术三个维度出发,具体地结合实际进行。

1 大数据时代机器学习现状

机器学习属于人工智能领域的关键研究内容,具体而言是指计算机借助经验调整自身系统性能的行为。人类拥有学习能力,人类的学习行为背后蕴藏着极其复杂的运行机制,模仿这种运行机制得出的就是机器学习理论的基础。机器学习的主要研究方向在于通过计算机模拟或是复现人类获取知识进行学习的过程,进而经由针对既有知识进行解构、创新、再重构的过程,帮助计算机提升状况处理效率和处理能力,最终帮助计算机从各类数据之中获取相应的知识。

机器学习研究方向大致可以分为三个特点。一是机器学习本质属于跨数学与计算机学科的交叉研究方向;二是机器学习具有显著的知识集团化特征;三是近年来机器学习的理论发展和技术革新速度均大大超过传统学科[2]。而研究学习机制是发展机器学习的基础,且进入大数据时代之后社会各行各业对于数据分析的需求都在持续增长,更加高效的信息运用方法对于发展机器学习的重要性越发凸显,逐渐成为促进机器学习发展的主要动力源[2]。

大数据时代,机器学习的发展更加偏向于强调学习行为本身,而机器学习逐渐成为底层技术和服务技术,研究方向主要体现在以机器学习为基础,针对复杂多变的各类数据,进行更加深入的分析,并更加有效地运用数据中所包含的信息。机器学习的发展方向逐渐向智能化的数据分析发展,同时已经为智能化的数据分析技术提供了关键的基础。此外,身处大数据时代,数据产生速率不断加快,以至于带来了数量远超从前的数据增长。与此同时,崭新数据分析需求仍在随着时代的发展持续地出现,诸如文本理解、文本情感分析、图像搜索与图像理解和图形及网络数据分析,不仅为机器学习的研究提供了崭新的研究方向,还促使更多的新型机器学习方法产生并投入实际应用。在对机器学习的研究中,只有切实地解决是否可以拓展的疑问,才可以更加有效地进行数据分析。大数据时代的特征及其所需要求大致包含三个方面。

1.1 数据性质极其复杂

在互联网及金融行业,训练实例的数量极其丰富,每日出现包含数十亿事件的数据集合也是司空见惯的。同时,包含传感器在内的各类设备持续性记录观察数据也可以作为训练数据投入使用。而此类数据集合动辄可以高达数百TB,针对大型数据集合,最为理想的方式是结合服务器集合的存储与带宽。为此,可以采用最新的计算框架简化针对大型数据集进行计算的工作。机器学习的实际应用通常包含自然语言、图形以及视频,而这些数据所包含的数据实例具备众多数量特征,在数量方面远超当下可以轻易进行处理的特征。为求促进计算扩展到更加丰富的程度,在特征空间内并行计算可以得到较好的效果,另外可以引入在特征空间内进行迭代运算的具体算法。

1.2 计算难度较大

在部分应用场景中,诸如AI导航和智能化差异化推送,都需要及时进行预测。受限于预测速度,为求较短的预测时间,预测算法需要复合的并行化处理。计算时间通常取决于单项任务的处理时间以及时延,可以通过提升一台机器的性能与吞吐量减少单项任务所需的计算时间;将任务设置为复数彼此相关的进程组,由于不同进程所需的处理时间不一,任务的总体处理时间取决于各个进程的计算所花费的时间,如果其中一个进程处理时间有所延长,任务在总体层面就会相应地遭遇时延,以至于拖慢任务的完成。部分精确度较高的学习算法以复杂的非线性模型或是造价不菲的计算子程序为基础,为此,分配计算作业至不同的处理单元才是大数据学习算法的重点工作。在特殊行业内,部分数据在基础特征方面呈现非线性的结构,在其中运用高精度非线性表现方法在性能方面胜于普通的简单算法。这种算法的共同性质是计算较为复杂,一台机器的学习速度会极其缓慢,使用并行多节点处理或是多核处理则可以较好地提升针对大数据使用复合算法和模型计算的速度。

1.3 预测级联需求较高且需要反复学习预测

在部分应用场景下,对于顺序和彼此依赖的预测要求较高,其中具有高度复杂的联合输出空间,并行化处理可以有效提高速度。现实中的很多问题,诸如物体的追踪、语音的识别和机器的翻译,都需要执行一整套彼此依赖的预测,乃至需要构造预测层级。假设以一个级联为任务,那么就会带来充足的联合输出空间,而计算变得更为复杂,一般会带来极高的计算成本。为了求出调整学习算法所包含的超参数,评估统计的重要性,需要反复执行学习行为和预测,也就是所谓的可并行化处理的具体运用,原本就很适应并行化处理。在具体的参数扫描过程中,可以通过在配置有所不同的同一数据集合上反复运行学习算法,进而在一个验证集合上具体地进行评估。

2 大数据时代机器学习需要具备的能力

针对大数据进行价值发现的难度较高,为大数据分析服务的机器学习技术在三个方面需具备符合预期的适应能力。

2.1 泛化与快速学习能力

一般而言,经由训练样本进行训练的机器学习算法需要具备充足的泛化能力,换句话说也就是针对新输入合理地进行响应的能力,该项能力在对于机器学习算法性能进行评估的过程中基本具备十分重要的参考价值[3]。机器学习中最为基础的目标在于针对训练数据之中的实例进行相应的泛化延伸。不论如何,在测试中看到相同实例都是不现实的。而通过训练数据得出较好的表现相对来说是较为简单的,仅仅需要针对具体实例进行记忆。在机器学习的过程中,训练速度与测试速度会影响学习速度,而训练速度与测试速度是彼此相关的。部分算法的训练速度较为理想,测试速度则相对较为缓慢;部分算法则正好相反。为此,相对重要的研究方向之一在于调整训练速度和测试速度,以便获得同时保证两种速度的机器学习算法[4]。

2.2 便于理解与代价感知能力

功能可以较好满足预期的机器学习算法大多是不透明的,对于用户来说,可以看到的仅限最后的输出结果,而得出结果的过程是欠缺的。伴随着数据总量的增多、问题复杂程度的提升,对于过程的需求也在逐渐增长。偏向算法研究的机器学习的原型系统在转向实际的机器学习的系统时会受到更加繁多复杂的内外因素影响,其中较为关键的是现实中不同的领域不同的误判结果所需支付的代价间的平衡性。部分误判结果需要支付较为高昂的代价,而部分误判结果的代价无关痛痒。为此,应借助大数据分析的核心优势,综合各种数据与因素针对特定物事进行全方位无死角的解读。代价敏感较为符合要求的学习算法可以提供较为理想的解决方向,借由引入代价相关信息衡量误判的严重程度。

2.3 数据利用能力与知识迁移能力

如今,人工智能通过模糊语言搜集快速高效化分析处理模块,实现对庞大数据的分类和筛选。数据处理既包含有标识的数据,也包含海量未标识数据,还包含杂质较多且不一致不完整的脏数据与不平衡数据。如果按照既有习惯直接舍弃脏数据,仅仅使用有标识数据而不使用未标识数据,在数据运用方面就会造成较为可观的浪费,同时也会影响到已掌握模型的泛化运用能力。且通过一个任务学习得到的知识应当可以迁移至有其共性的其他任务之中,以便尽可能地提高在其他任务中进行学习的性能。举例而言,用以监督学习的公式中包含学习函数,而在大数据场景下,很多情况需要学习一连串的相关函数,尽管判断函数存在一定的差异,但是其中仍有许多共性。

3 大数据时代机器学习的关键技术要点

当下,机器学习的研究与实际运用过程中最为常见且相对关键的核心技术主要包含集成的学习、半监督式的学习与概率图模型学习以及迁移式的学习。

3.1 集成学习

在现实之中,群体决策通常高于个体决策,尤其是群体之中见解均不同的情况。在机器学习中同理,集成学习是指整合复数不同学习系统得出的结果,以便获得超出个体学习系统的理想学习效果。通过集成学习,哪怕是更为简单的学习系统也可以得到更为理想的学习效果。此外,集成学习所具备的架构特性原本就适合并行处理,可以为提高大数据时代背景下的训练效率和测试效率奠定较为符合预期的基础。传统机器学习的核心在于检索,检索全部的可能函数并相应地构造假设空间集合,以便从中选取最为贴合未知函数的相近函数。而在统计、计算与表示层面会面临一定的问题,可用的训练数据同时存在很多,甚至存在复数精确度相近的不同假设,其或许会在相同的训练数据上得到相同的表现,但换用新的数据则会出现较大偏差,而使用集成学习的简单平等投票则可以避免这些问题。

3.2 半监督式的学习与概率图模型的学习

参考传统机器学习的理论框架,机器学习可以分为有监督的学习和无监督的学习。前者使用的是有标识数据,后者则仅仅使用未标识数据。进入大数据时代后,数据采集和数据存储方面的技术高速发展,大量未标识数据的收集逐渐变得轻而易举。同时,大量的有标识数据则需仰赖领域内专家的帮助,不仅极其耗时耗神,还需要面对容易出现错误的风险。因而在现实之中,未标识数据在数量方面已经远超有标识数据,只有充分地利用未标识数据,机器学习所得模型的泛化能力才可以得到保障。大数据的发展对于处理海量不确定数据提出了较高的要求,而不确定数据广泛存在于各行各业,通过这些不确定数据分解出信息并相应地获取知识逐渐成为大数据分析的重点发展目标[5]。概率图模型是概率论与图论结合后的产物,是图形化表现概率实际分布的结果,为把握随机变量之间错综复杂的依赖关系并构造规模较大的复数变量统计模型创造了统一的条件。

3.3 迁移式的学习

进入大数据时代后,大量崭新的数据出现在各行各业,只有获得海量有标识数据的训练用数据,才可以在崭新的数据处理上运用传统的机器学习方法。针对各行各业差异化地设置训练数据需要占用大量的人力物力,而在不同场景间迁移转化知识的能力可以相应地解决问题。迁移式的学习在传统的机器学习之中较为匮乏,根源是传统的机器学习通常要求学习的知识与应用的场景具备一致的统计特征。当二者彼此分离之后,相关统计特征会随之发生改变,统计学习的效率会大幅降低。而迁移式的学习可以较好地解决该问题,其主要借助源头任务中的相关知识相应地提升目标任务中的学习效率与学习性能,这不仅可以帮助计算机掌握更为有效的学习能力,还可以推动机器学习相关研究的发展。

4 结语

在当下的大数据时代,无标识数据与少量有标识数据构成了绝大部分的数据,对此,采用半监督式的学习方法可以较为切实地处理这一类数据。伴随着数据量的急速增长,单一的学习器所能得出的学习成果和学习效率难以满足实际的需求,只有通过复数学习器进行集成的学习,才可以更加有效地得出学习成果。概率图模型借由图形可视化处理,可以为结构多样的大数据分析工作提供简约却有效的分析模型。只有通过迁移式的学习,既有学习成果才可以在持续累积的过程中逐渐引入其他未知的学习领域。只有充分切实地关注机器学习的相关技术及其相关方式方法,机器学习才可以取得更加长足的发展。

猜你喜欢
机器算法
机器狗
国际主流轧差算法介绍:以CHIPS的BRA算法为例
机器狗
哪种算法简便
Travellng thg World Full—time for Rree
寻找快乐的机器蛙
未来机器城
学习算法的“三种境界”
算法框图的补全
算法初步知识盘点