大数据环境下批量处理的机器智能识别技术分析

2020-11-16 02:11李伟田高华赖玲
数码世界 2020年10期
关键词:大数据环境

李伟 田高华 赖玲

摘要:网络信息技术不断发展,在很大程度上便利了人们的生产生活,大大推动了社会进步,可以预见到,在未来机器智能技术将继续发展,并且会拥有更强大的信息处理能力,在人们的生产生活中占据更加重要的位置。本文将结合当前社会的发展现状,对大数据环境下批量处理的机器智能识别技术展开分析。

关键词:大数据环境;批量处理;机器智能识别技术

引言

大数据也被称之为“海量数据”,信息是人们进行决策行为的基础和依据,数据越广泛和准确,对人们做出正确的决策来说就更有利,在当前的时代背景下,人们获取信息越来越容易,同时对信息的整理和辨别也越来越重要,“大数据”环境下数据规模的庞大、结构的复杂和类型的众多要求机器智能识别技术具有更强的数据分析与处理能力,要求能够通过机器智能识别技术在规模庞大的数据库中将信息加以分类并批量处理。

一、机器智能识别技术简介

人类主要是通过视觉来获取信息,所以在机器智能识别系统中,也存在着计算机视觉,即计算机通过摄像头和电脑来代替人眼对目标进行识别、信息采集,之后再根据这些信息进一步对数据进行处理。当前的计算机识别技术既可以对无生命智能识别卡进行信息采集与识别,也可以根据人身体上一些无可复制的特征进行识别,如人脸、眼睛、指纹、声音等。机器智能可以模拟人的思维与意识,针对各种事件和情况可以根据所获取的信息进行信息处理与分析,然后将结果呈现给人类,机器智能可以应用在很多领域,帮助人们提高工作效率,甚至完成人类不可能完成的信息处理任务。

二、利用机器智能识别技术进行海量数据批量处理的优势

利用机器智能识别技术进行海量数据批量处理可以不仅可以减少人力成本,还能够大大提高效率,对于信息处理来说,参与信息操作与管理的人员越多,合作的人越多,出现失误与信息漏洞的可能性就越大,同时,一旦有人辞职,必然会引进新人,对于新人的培养既耗时又耗力,严重影响工作效率。而采用机器智能识别技术来进行对信息进行批量处理可以精简公司团队,减少系统数据的错误发生率。

当前随着信息化技术和计算机网络技术的发展,各个行业的多个领域都需要对数据进行大批量处理,比如行政管理,如今我们需要将所有数据包括国家级、省级、厅级,教育、公安、金融、税务,社会管理、城市建设在内的数据进行全集中式管理。学校内的主管部门需要管理成千上万的学生,在进行管理工作时需要同时处理学生的入学与毕业等数据,如果不利用机器智能识别技术的话,这项工作将会耗费巨大的人力物力。尤其是在金融机构、银行等企业中,每日的信息处理量巨大,而且一旦出现失误将会造成巨大的财产损失。利用机器智能识别技术可以轻易的进行数据一致性检查,同时对一些简单的基础性数据可以进行大批量的同时操作,还能及时对数据进行批量更新,大大减少了出错率,提高了信息处理效率。

三、数据批量处理的方式

在对数据进行批量处理之前,要先进行批量数据抽取,数据集的筛选和过滤过程包括建立数据集筛选的查询条件、得出数据记录集和得到最终需要批量数据处理的数据结果集。在进行数据批量处理时,可以选择用事件进行批量数据处理的方式,用事件进行数据批量处理又可以分为批量增加和批量修改两种方式。如果是对主表进行批量增加只要对较少的数据进行修改,就可以对大批数据进行快速录入,如果是对关系表子集进行批量增加,则无法进行大批量数据快速录入,比如在档案系统中的学历子集、工资子集等。在对主表进行批量增加时,首先可以在搜索栏中加入关键字,同时输入批量循环的操作次数,然后增加第一条主表记录并用数组记录不为空的字段记录, 用于循环执行时赋值给批量增加的字段记录,最后执行主表的批量增加事件。

还可以用SQL语句来对数据进行批量处理,首先对数据进行过滤操作,之后将条件应用于SQL语句的WHERE部分数据抽取流程,然后再对首条表单的数据进行提取,将改变的一组数据作为INSERT,UPDATE的操作的改变对象。在使用这种方式对数据进行大批量处理时,要注意做一些相关的额外开发工作来保证子集表中的数据能够保持统一和一致。

四、批量处理的机器智能识别技术

(一)支持向量机

支持向量机是一类按照监督学习方式对数据进行二元分类的广义线性分类器,而对数据进行大批量处理的前提就是要对信息做好分类。那么支持向量机是如何进行数据分类的呢?在这里我们以天气分类为例,来解释一下支持向量机的工作原理以及流程。

首先,我们要在网上寻找一些数据,可以运用Python爬虫爬取百度相關搜索的词条,进行多轮爬取,我们将跟天气相关的语料称为正语料,与天气无关的语料称为负语料,正语料和负语料分开爬取,一般来说,训练模型所需要的正负语料比例大概是1:3到1:5,也就是说训练天气模型的时候,正语料大概是10000条左右,负语料30000+条。在完成数据搜索工作后,可以做一些简单的人工筛选,将一些不纯的正语料去掉,剩下的纯净的正语料。之后再将剩下的正负语料进行进一步处理,比如停用词的去除等操作,就是将语料中没有意义的词去除,比如“吗”、“的”等等。语料处理好之后,大概要从语料中抽10%的语料,用于模型训练好之后的测试,即抽取大概1000条正语料和3000条负语料作为测试语料,剩下的语料作为训练语料。将所有的语料进行分词处理,将完整的语料分成若干词语,分词可以运用“结巴”分词的库。将每一个分词后的语料进行标注,正语料标注为1,负语料标注为0。语料和标签之间用TAB分隔,即“\t”。 之后将标注好的正负语料进行混合,然后进行打乱顺序,让带标签的正负语料充分混合。可以运用卡方或者互信息等方法将分词之后的语料每个词的特征提取出来,即每一个词语与当前类别的相关程度,特征提取也是为后面的向量化做准备的。可以用feature_select.py。特征提取结束可以得到每个特征词与相关类别的相关度排序。做好这些之后,就可以将我们处理好的数据进行向量化,将我们的语料转化成向量,分好词的语料命中之前特征提取的特征词,那么就将向量中的这个值设置为1,其他的为0。这个过程中,特征词就是这个向量的维度,每个语料都是一个这么多维度的向量。向量化执行一个vector.sh脚本文件,里面指定feature_num,text_data,train_model这几个文件,其中feature_num=500是指我们取前500个特征词作为我们训练模型的维度,text_data是我们之前分好词打好标签的混合好的语料,train_data是我们指定好向量化好之后生成的向量化文件。之后再进行参数调优,之后,就可以调动sibsvm中的svm-train来训练模型,同时要设置好之前参数调优得到的结果,最终就得到了一个天气模型,除此之外,还要将参数调优得到的结果c和g传入一起训练,还要将参数b设置为1,为了得到的分数是其概率。最终可以得到我们想要的模型,如果我们调用svmpredict,根据训练获得的模型,对数据集合进行预测。通过对数据集合的预测,可测得准确率与召回率,最终就会得到预测的结果。

(二)克隆选择法

当前随着网络信息技术的不断发展,对图形的批量处理显得越来越重要,图像识别指的是计算机通过模式识别、视觉识别、机器识别等方式,对图像进行分类与处理,不过如果想要进一步对图形进行识别与处理,就要借助计算机批量的为兄奥图像视觉,使工作有序展开。在对微小图像进行识别的过程中,计算机视觉发挥了重要作用,不过由于微小图像自身特征不够明显,使得计算机视觉在对图像进行识别时,难度比较大,识别不够准确。此时,就需要用到另一种信息处理识别方式,即克隆选择法。这种方式能够针对微小图像批量识别难度大的特点解决在批量处理信息中的难题。

首先我们要对微小图形特征智能识别原理有所了解。在大数据环境下,要基于灰度共生矩阵批量提取微小图像纹理特性参数,全面系统的描述微小图像视觉的特征,在归一化手段处理的同时,还要对支持向量机加以利用,使智能识别批量微小图像特征更准确。微小图像的恢复共生矩阵当中,会呈现出灰度的相关特性关系。除了要利用归一化处理手段,还应该对样本展开分级支持向量机的训练工作,这样就可以完成微小图像批量处理特征的智能识别就可以得到实现。因此,在大数据环境下,对微小图像特征的智能识别可以轻易的实现,只要利用微小图像批量处理的特征识别原理就可以了。

在对微小图像特征进行智能识别批量处理的过程中,首先应该想办法获得微小图像五个尺度上的融合特征,可以通过对微小图像的Gabor进行变换,同时将方向不同、尺度相同的微小图像按照一定的规则融合起来来实现。

五、结束语

综上所述,大数据环境下,必须采用机器智能识别技术对信息进行批量处理,在对信息进行批量处理的过层中,常运用的包括两种方式:支持向量机和克隆选择法,在对微小图像进行识别上,克隆选择法具有相对优势。

参考文献

[1]曾劲松.大数据环境下批量处理的机器智能识别技术研究[J].信息记录材料,2019,20(6):102-106.

[2]柴晓丽.大数据环境下人脸识别技术在智能监控系统中的运用分析[J].电视技术,2018,42(7):38-42.

[3]曹颖,王彦琳,秦晓晗,等.大数据技术在人工智能中的应用研究[J].数码设计(下),2018,(7):137-138.

[4]陈锐,王滨,艾传鲜.大数据处理技术在机器人红外巡检中的应用研究[J].电力系统装备,2019(8):212-213.

[5]蔣玉婷.大数据背景下的人工智能优化技术研究[J].信息与电脑(理论版),2018,418(24):147-148.

[6]尹汉雄.大数据视角下的人工智能技术应用探讨[J].科技资讯,2019, 17(14):26-27.

作者简介

李伟(1983.07-),男,汉族,江西赣州,硕士研究生,助教,研究方向:大数据、机器学习。

猜你喜欢
大数据环境
大数据环境下商业银行“小微贷”竞争策略分析
浅谈在大数据环境下的民生审计思路
基于大数据环境下传统媒体广告经营创新分析
大数据环境下高校图书馆个性化信息服务研究
基于大数据环境的新闻编辑理念变革创新机制
大数据环境下的信息系统审计初探