庞霄波
[摘 要]软件数据挖掘技术就是在互联网中无数条信息中寻找需要且有价值的消息,它是软件工程中重要的研发领域,还能缩短软件的研发周期。计算机的核心是硬盘,其好坏决定了软件的使用质量和实用程度。各类软件的出现为现代信息搜索技术提供了便利条件,面对巨大的信息量,数据挖掘技术展现了其优势,让人们能够充分利用这些数据为未来的计算机的发展提供帮助。文章探讨基于关联分析的计算机软件数据挖掘技术。
[关键词]关联分析;计算机软件;数据挖掘;应用
[中图分类号]TP311.13 [文献标志码]A [文章编号]2095–6487(2021)07–00–03
Data Mining Technology of Computer Software Based on Association Analysis
Pang Xiao-bo
[Abstract]Software data mining technology is to find needed and valuable information from countless pieces of information on the Internet. It is an important research and development field in software engineering and can also shorten the software development cycle. The core of the computer is the hard disk, and its quality determines the quality and practicality of the software. The emergence of various types of software provides convenient conditions for modern information search technology. Faced with a huge amount of information, data mining technology has demonstrated its advantages, allowing people to make full use of these data to provide help for the future development of computers. The article will discuss in depth the computer software data mining technology based on association analysis.
[Keywords]association analysis; Computer software; Data mining; application
計算机软件挖掘技术是信息收集、数据集成、数据规约的一种技术,是一种仿生全局优化方法数据挖掘。随着计算机技术的飞速发展,信息量大大增加,所以对信息的整合就需要人们格外关注,数据挖掘技术很好地解决了这一问题,这种算法提高了数据挖掘的效率和质量,降低了传统算法的复杂程度。由于它的算法复杂,因此经过的步骤也比较多,不仅如此,它还是一个反复循环的过程,只要有一个步骤没有达到标准,就需要重新开始,所以要想掌握这门技术就要有细心和耐心。
1 数据挖掘的基本技术流程
1.1 信息收集
信息收集是数据挖掘的第一步,是通过所给的数据进行分析得出所需要数据的特征信息,并选择合理的方法进行信息收集,再将这些信息存入到数据库中,最后对这些数据整合汇总到合适的数据库中,便于查看以供参考。而面对海量的信息如何选择一个合适的数据库就尤为重要。
1.2 数据集成
数据集成就是把不同特点、方向、性质的数据结合到一起,形成全面且安全的网络环境,为人们提供各类信息满足需求,同时进行数据共享。
1.3 数据规约
在这个信息量巨大的网络时代,信息链四通八达,能链接到世界各地。由于大量的数据集中在一起,而数据挖掘技术本身算法就难以掌握,耗费的时间较多,所以在进行数据挖掘算法时更是要花费很大的精力。但是如果运用数据规约技术既能保证数据的完整性和计算结果的准确性,又能节约时间提高效率,是一个一举多得的好办法。
1.4 数据清理
在这个网络发达的时代,每分钟会产生几十万条信息,从而形成了庞大的数据存储仓库,面对这样巨大的信息量总有一些是错误的、不完整的、没有价值的,而这些数据就需要清理。如果不能及时处理这些垃圾信息可能会造成不必要的麻烦,而且经常清理不必要的数据才能节省空间将有价值的信息存入数据仓库中以供参考。
1.5 数据变换
这个步骤是通过一些专业的技术手段将原本的数据转换成特殊的形式以供使用,而对一些实数型数据,就需要运用概念分层和数据的离散化来转换数据,实现数据变换。
1.6 数据挖掘过程
根据数据库中的信息,选择合理的统计方法、分析模式、决策树、规则推理和遗传算法等方式处理这些数据,分析得出有价值的信息,这就是数据挖掘的过程,也是这项工程的核心所在。
1.7 模式评估
由专业人员对挖掘所得数据的准确性进行评估,包括信息的实用性、可靠性和价值程度。从企业的角度来说,商人从商为利,那么这样做可以达到最大化的商业利益;从社会的角度来说,所做的一切都是为了社会的进步,而这样做能给未来的数据挖掘技术带来更好的发展,使我国的科技水平更上一层楼。
1.8 知识表示
将分析所得的数据整理,以表格或其他的方式呈现给用户,让其能清晰直观地看到数据的变化情况,了解实时信息,同时将这些数据汇总到数据库中进行合理的分类,为其他应用软件提供参考资料。
2 遗传算法的基本原理
遗传算法是建立在生物学和遗传学基础之上的一种随机搜索算法,这种算法具有良好的隐含并行性,能够与其他模型结合使用,因此在数据挖掘技术中被广泛使用。由于遗传算法具有对于各种通用问题都可以使用的特点,所以被广泛应用于训练神经网络,从网络中提取复杂的计算规则。但是它也有缺点,其算法比较复杂,操作困难,所以计算效率要比传统的优化方法低,因此应用范围就比较局限,而且其编码存在表示的不准确性。为了解决这些问题,相关技术人员实施了很多优化办法,比如函数优化、组合优化等一些高效的技术手段。
3 计算机数据挖掘技术的研发
随着计算机的更新换代,相关网络技术也在不断发展,一些数据处理的软件技術层出不穷,数据挖掘技术就是其中之一。要想执行这一技术就需要良好的网络环境和技术条件。其中还包含很多细节性的内容,比如可视化技术,就是将一些隐藏的比较深的数据信息通过一些特殊的技术手段进行深入的分析,最后得出想要的规律或答案。这种方法有效地提高了人们获取和处理信息的效率,便于进行各类数据的分析和整理。但是任何一种新型科技的研发都离不开研究人员的管理,良好的管理模式才能创造出更理想的科研成果,这样才能保证挖据所得数据的真实性和准确性,为以后的网络应用提供有效的帮助。
4 计算机软件数据挖掘技术的操作方法
数据挖掘的操作方法的种类数不胜数,主要有决策树方法、粗集方法、覆盖正例排斥反例方法、统计分析方法和模糊集方法等。决策树经常被应用于预测模型,它将大量的数据进行分类,获得重要的、有价值的信息,因为对数据处理的速度快,所以很适合用于大规模的数据分类;粗集实际上是一种数学工具,通常用于研究不准确的数学知识,它不需要额外的信息就能获得所需的数据,而且算法简单,便于操作。它的处理对象大多是类似于二位的信息表,但不能处理连续的数据,所以连续属性的离散化是影响粗集方法实用化的重点;覆盖正例排斥反例方法就是在正例集合中任意选择一个数据,在到反例中逐个对比,与所选值相容的就舍弃,相反的就保留下来,不断循环;在庞大的数据库中,每个数据之间只存在两种关系:函数关系和相关关系,而对这两种关系的分析就需要用到统计分析方法,它可以找出数据中的最大值、最小值、求和、平均值等,还可以统计回归分析、相关分析、差异分析所得出的数值差异来确定所有数据之间的不同;根据字面意思理解,模糊集是思维的基本形式之一,就是对事物进行模糊判断、模糊识别、模糊分析等。互联网系统的应用程度越繁琐,模糊集的作用就越大,传统的模糊集合还可以分为5个分支,它们之间并非是独立的,而是相辅相成的,有着紧密的联系。
5 计算机软件数据挖掘技术的应用
随着时代的变迁,数据挖掘技术成为了一种前沿科技,对数据挖掘技术的研发变得非常重要,其占据了现如今网络市场的主导地位。当今社会,人们对个人数据信息的保护越来越看重,而各种支付方式的出现就增加了信息泄露的风险。在这种情况下,数据挖掘技术就显得十分重要,它既保护了信息的安全又提高了对有效数据获取的效率。不仅如此,它在其他领域的应用也非常广泛,例如在检测克隆技术的代码中能有效地阻止错误代码的传播。任何一种程序的研究都需要不断地试错,这样才能提高应用软件的质量,同时还能解决突发状况的发生。对相关研究人员来说,要准确地分析各个数据之间的关系,并及时对计算机内的数据信息进行清理和整合分析才能有效地降低数据泄露的风险,保证用户的网络安全,提供良好的上网环境。在故障检测方面需要研究人员的关注,因为数据挖掘技术比较复杂,所以故障检测技术需要不断地进行优化,以便网络系统的正常运行。
6 数据挖掘技术的模式
计算机软件数据挖掘技术的模式很多、种类丰富,但是大多采用表格的形式。对于企业来说,这种模式能让商家更加直观地了解消费者的信息,并通过这种技术手段对获得的数据进行分析,让商家清楚消费者的喜好,以便于以后的营销。对于个人用户来说,数据挖掘技术可以清理更深层的垃圾,例如有些应用软件看似被删除了,但其实依旧存在,只是隐藏在电脑的深处,发现不了而已。而随着这些无用的信息的堆积,就会降低电脑的运行速度,减少内存的使用量,对用户造成不必要的麻烦。所以在计算机的使用过程中,运用数据挖掘技术及时清理这些垃圾可以更好地保护电脑的使用寿命。对于研发者来说,不断地完善这种技术,提高用户的使用效果才能提升自身的市场竞争力,拥有更好的发展前景。
7 基于关联分析的数据挖掘技术
7.1 关联分析的方法
关联分析是一种简单实用的分析技术,就是发现数据信息之间的关系,并总结出一些规律。简单来说就是发现交易数据库中不同商品之间的联系,从而对一些事物进行分析得出某种规律。在关联分析方法中Apriori算法是几大重要算法之一。它运用逐层搜索的方法有效地缩小了频繁项集的搜索空间。但它也有不足之处,它的算法繁琐复杂、准确度不高,而这就需要科研人员不断地完善并努力优化这项技术。可以运用划分的方法,将数据库分成几个互不相交的块;也可以通过哈希算法进行改进,还有减少交易个数等方法,但主要目的就是改善它繁琐的对象挖掘过程,降低计算难度,同时避免数据的重复,减少数据存储所占的空间。
7.2 关联规则的生成
把频繁项集划分成前件和后件两个部分,然后求前件到后件的置信度,如果大于最小置信度阈值,那么它就是一条强关联规则。不同的算法有不一样的关联规则,也就会产生差异,比如有Apriori算法、GA-Apriori算法和文本算法等,专家们曾经测试过,在用各种算法进行数据挖掘的时候,在这几种算法中文本算法在相同时间内处理数据所消耗的时间最少,也就是说它的效率与其他两种算法相比是最高的,因为它对计算机数据库进行了改进,减少了其他算法不重要的操作,而且也没有Apriori算法那么复杂,能让人们在短时间内获得强关联规则的频繁项集,
8 结束语
随着计算机技术的发展,数据挖掘技术越来越被重视,不论是对企业还是个人,它都是一个值得关注和讨论的话题,它在未来计算机领域将会有很大的发展前景。作为研发者,要保证开发出来的技术真实可靠,所以就要对每个岗位的人员安排进行严格的管理,以确保研发技术的质量。作为营销者,不断改进营销模式,提高营销策略才能将这项技术推向大众,让更多消费者体验到这一技术的优势。而为了保证计算机技术的高精准度,高效性和方便性,技术人员要注重对它的完善和改进,降低计算过程中的复杂程度和计算量,提高对数字的计算速度,不断优化它的挖掘效果,提升用户的体验感。
参考文献
[1] 兰园淞,刘雪萍,庞少红,等.基于logistic回归与Apriori数据挖掘技术的护理专业学生实习与就业关联研究[J].广西教育,2020(7):58-61,69.
[2] 张稼,陆兴华.基于语义关联特征的大型信息管理系统数据挖掘技术[J].电子测量技术,2019,42(4):85-89.
[3] 王进忠.基于数据挖掘和可视化技术的计算机应用基础教学评价[J].中外企业家,2020(17):206.