姜霁航
(南京信息工程大学,江苏 南京 210044)
机器学习是人工智能的一个重点研究方向,书面上的意义是指计算机利用经验来改变系统自身性能的行为能力。人类自身具有学习能力,学习行为的背后拥有着十分复杂的处理能力,这种处理能力就是机器学习理论[1]。研究机器学习的主要方向是如何利用计算机来实现模拟人类的学习能力和整理获取到的知识点,从而提高自身的能力。总之,机器学习的最终结果是为了在大数据库中获取知识。
业界对大数据的特点进行了系统化归纳,由“4V”组成:数据量大(volume)、种类繁多(variety)、数据价值密度低(value)、实时处理数据(velocity)。正是因为上述的四个特点,大数据时代下的机器学习才更值得研究。当前,大数据时代成为一个热门话题,所谓的“大数据”指的是数据繁多复杂、自然产生没有规律以及不够精准的数据。大数据带给机器学习的难度不仅仅表现在数据量大而导致的计算困难,还因为需要从不同的地方获取不同的数据,由于这些数据都散乱地分布在不同的地方,而且数据与数据间还会有着某些关联,可是也不能满足所有的条件,而且由于数据比较分散,我们无法将数据进行统一整理学习[2]。传统的机器在学习理论知识和推算方法的时候都需要保证数据的独立性,一旦这个条件无法满足,机器学习模型和计算能力就无法发挥用处。
大数据除了给机器学习带来计算方法上的问题之外,也会给机器学习带来机会。当今社会,是处处都彰显大数据信息的时代,一旦某个区域的信息量过大,数据空间就会变得密密麻麻的,如果将这些信息进行分类,就会得到有价值的信息。
受到信息化社会的影响,人类将如何实现机器学习,确保学习的科学性和合理性作为首要目标,于是,相关技术人员需要合理应用技术,加强机器学习手段,对机器学习有着更加明确的认知。
监督学习主要是以提前设定的学习要求为基础,例如:数据按照精准度分类,避免数据出入较大。针对机器学习在学习模型时候的相关参数数据,相关人员可以合理地使用科学手段,加上合理的计算方法进行调整,最后得到一个比较好的模型。在此基础上,对数据比较新鲜的案例进行标记分类,进一步作出科学的判断,从而计算出标记内的概率分布。一般来说,模型学习主要分为:贝叶斯分类器、决策树、逻辑思维回归、神经网络以及支持向量机等等。因此,在整个学习的过程中,需要适度使用数据分析和数据优化的功能。例如,在支持向量机里面对数据二次优化处理,而神经网络不一样,它所采用的是梯度优化的方法。
什么叫无监督学习,也就是说从大量的数据中没有得到有用的信息。在将该项学习用于特征处理时,不用对监督信息进行才处理,这与数据的密度息息相关。例如:在分散式的分布的数据中取样分类,从而找到分布的规律和采集样本的工作。该项学习主要表现在数据寻找工作上,在此过程中,面对不同的问题,数据所体现出来的含义存在差异[3]。开展无监督学习常见的数据分析方法是聚类分析,一般来说,就是从数据本身的特点进行分类,让复杂的数据形成多组。在具体的操作过程中,给数据值科学筛选相似度是极为关键的环节,在此期间,还包括寻找数据的相似度以及数据之间距离的度量。
何为半监督学习,指的就是新兴的机器学习技术应用在以往较为传统的计算机的缺点上。通俗来说,就是传统的计算机在处理数据的过程中,一般都会通过错失某些数据来处理未被标记的数据,该项措施最大的弊端就是容易丢失有效信息,该项学习手段也视为无监督学习,而监督学习是处理已经标识出来的数据。所以,半监督学习处于两者之间,能够有效地处理具体的标识数据,同时处理未标识的数据,重新整理分析,进而从未标识的数据中获取到有利用的数据,确保数据的最大使用率,避免造成数据的损失和浪费。尤其是在当今社会,信息时代的快速发展下,数据库的信息量大到让未标记的数据远超出了标识数据,如果不进行数据整理分类,将会损失了很多有效的数据信息。
强化学习,主要体现在智能学习方面,也就是以学习环境为基础,根据不同的反馈信息选择不同的技术手段,从而完成学习任务,在最大程度上优化学习技术[4]。在此过程中,延迟和试错搜索最为关键。以马尔科夫决策理论的全过程为基础,是否智能取决于MDP模型知识的学习,从而更好地提高学习效率,MDP模型的学习主要是计算相关模型和无关模型两个方法。
整合学习,顾名思义,就是将整个学习系统上不同的学习手段整合在一起,不断优化原先的学习系统,扬长避短,坚固学习架构。通俗来说,就是“团结就是力量”型学习手段。不管是人工操作,还是机器自动学习,都是工作开展的基础,独立学习的系统内部有着巨大的能量,但是还是不能与整合后的学习系统相比较。不同的机器下的使用学习,分析出来的数据不能够跟上数据时代的潮流,不能应对当下的数据问题,还能推动机器学习模拟人类的发展趋势。
在机器学习期间,只有经过有效的学习,才能得出更好的方案,让机器学习能够被广泛应用,从而完成相关工作。在此基础上,泛化能力将成为机器学习未来发展的方向,同时也是较为常见的问题[5]。不管是何种行业,在应用机器学习的时候,都需要不断提高机器学习的泛化能力。目前来说,支持向量机资深带有极高效率、综合数据能力强的特点,所以在一定的时间内,能够快速综合理论知识点。
信息时代的发展,不管是数据产生的速度还是数量,在一定程度上已经最大化发展。当机器学习被用于不同岗位的时候,工作人员首先要考虑的是如何提高学习的效率问题,同时,还需要定期检查机器学习的技术能力是否满足当下的时代发展。在评估计算机计算速度的时候,主要是评估训练速度和预测速度,两者看似毫无关联,实际上不可分割,前者指的是优化数据从而获得更好方案的速度;后者反之,在最佳方案上进行演算,从而提高计算速度,如果相关人员能够高效地将两者融合,定能在计算速度和最佳方案上争取最短的使劲,为后续的机器学习提供有价值的参考资料。
对于机器用户而言,机器都是在幕后开展计算工作,用户只需要输入对应的参数指示,就可以获得有用的信息,但是在这个过程中,如果缺乏对数据产生的原因和方法的认识,容易导致使用者在面对复杂繁多的信息时,降低机器的学习能力,导致用户不能在遵循相关标准下解决问题。
在以往的机器学习过程中,都是将已经标记出来的数据进行处理,但是随着我国网络科技的不断进步,数据分析手段也在不断创新,未被标记的数据容易给各个行业带来一定的干扰和挑战。例如:在医学上,关于医学影像的资料或者垃圾信息。同时,有些行业的噪音大,干扰信息比较多,容易受到不一致的垃圾数据的干扰,从而给相关从事人员带来不好的影响。在机器学习的过程中,相关工作人员需要科学合理地应用未标识数据在相关数据下能够高效处理垃圾数据,从而保证数据的使用率。
大数据时代下,利用机器学习计算分析大量繁琐的数据,那么,如何降低机器学习计算中的错误率是当前需要解决的问题。当各行各业和对应学科出现失误的时候,每个时代都有不同的数据忍耐度,就算是同一个行业或者同一个学科中的判断失误,所出现的数据价值都是存在一定差异的[6]。例如:当小偷入室抢劫的行为发生的时候,系统会误以为是业主回家,反之,机器将业主回家的行为判定为是小偷入室抢劫等情况,虽然事情的一样的,但是两者产生的价值信息是有很大区别的。所以在我国以往的机器学习中,要综合考虑同等事件下的同等价值问题,在以后的某个时间段里,需要高效地处理类似的这种敏感性价值问题。
在机器学习的时候,需要对机器学习进行深入分析,然后有效地提高泛化能力和学习速度,及时处理代价敏感问题将是未来机器学习的重要发展方向。基于大数据时代的机器学习顺应大数据时代发展的需求,推动了我国的经济水平发展和奠定了现代科技进步的良好基石,可以提高我国的国际竞争力,并在国际竞争中占据优势。