秦文静 四川交通职业技术学院
在计算机技术的发展过程中,计算机数据挖掘技术的发展历史并不算长,但是由于市场的巨大需求和研发人员的不断努力,计算机数据挖掘技术得到了迅猛的发展。这是现代信息社会各种信息技术的结合领域,若是对该技术进行严格的定义和划分时较为困难的,现阶段的信息化社会,信息的交流速度已经远远超过人们的想象,不仅有大量的需要记录的数据,而且还有许多需要进行研究、分析和归类的数据,数据的大量变化就要求技术要能够及时进行更新跟上时代的发展,传统技术在进行大数据处理时往往存在覆盖面较小的问题,而基于不同学科之间技术的家算计数据挖掘技术则具有较大的覆盖面,具体主要表现在:首先,该技术能够根据数据自身具有的特点和属性进行有效的归类,这样便于存储和查询;其次,还能识别数据内在中存在的不同点,对数据进行分类;再次,就是该技术还能识别不同类型数据之间的关联关系,这样就能建立数据之间的互联关系;最后,就是可以对大数据进行分析,根据数据之间存在的关系对该行业之后发展的趋势进行分析,而且具有极地的数据监测错误率。
传统的数学上的统计方法,主要是包括对数据进行记录,然后利用抽样、多维度分析和最后根据数据的分析做出预测这样的统计方式。抽样主要是对于数据较多时,为了能够对于数据集准确又不失科学性的研究而进行对整体进行抽样;多维度分析则是对于较为复杂的数据进行分解为不同的因子进行分析。这些统计方法都是数学上的统计方法。
数据特征的表现一直都不是非常的明显。在统计学上这种情况一般会采用加间数据制作成表格的形式来进行分析,制作成表格不仅会对于数据具有一目了然的分析,而且还能把数据所包含的内容至关的表现出来。主要是利用散点法等统计方法进行分析。对具有较高可视化和高维度的数据来说,当前如何将这些数据至关的体现所包含的内容给技术急需解决的问题。
在当今的数据互联时代,对于数据联机进行数据之间的沟通已经成为计算机技术对于数据处理最基础的技术。通过在不同计算机之间进行联机来实现对于多维度的复杂数据的分析,不同部门甚至是不同的行业之间的数据互联要充分做好协调合作,这样才能根据数据体现的信息进行分析和对数据进行筛选计算,从而能够对数据进行深层次的研究和分析。
树状图一种较为常见而且应用广泛的统计学手段。主要是根据数据的类型然后按照一定的规则进行划分,主要是应用于数据的划分和统计。目前主要的算法都能够对于数据进行决策归纳,具有数据处理的分类和连续属性。
这是一种仿生学的技术,主要是利用人类神经元对于信息的敏感度和传输速度进行的仿生技术。主要按照人类神经元的信息传输和处理方式划分为三层,以实现对于数据的存储和传输。
优势一个典型的仿生学案例,主要是利用人类进化论的自然科学知识,根据生物进化过程中出现的基因的各种改变而作为基础的一种技术。根据试着生存这样最为简单的生物进化理论,来对于大数据进行筛选和归类处理。基于这一思想而得到的算法技术,能够对于数据处理模型更进一步的优化处理。
在大型超市里面对于数据的管理就是这种技术最贴近生活的应用。用户咋购买货物时可以通过货物管理系统和金钱POS机管理系统进行对于商场的经济效益管理,尤其是在现今社会中移动支付的便捷应用和条形码、二维码等快捷连接应用到移动支付中。在市场中由于用户的不断增多,在某个阶段甚至会成为市场数据统计的一种负担,为解决这一为题,在市场营销过程中,可以对于较为熟悉的客户的购买习惯、购买行为等数据进行记录和分析,这样能通过分析以此来判断客户的购买意向和兴趣,通过对于这些数据的总结能够分析出该市场的经济效益主要来自于那些商品,能极大提高市场的市场营销能力和为市场之后的发展提供借鉴的数据,有利于和其他市场进行竞争。对于超市和商场这样的大型购买机构,自由通过对于客户的购买数据进行充分的挖掘,这样才能够准确的分析出市场的走向和客户购买的的意向,这样高层领导才能根据数据进行科学的决策。而现今市场上的数据一般会分为两类,一种是传统的数据库方式,另一种则是货篮营销方式,前者主要是利用数据库的优势对于客户购买的意向进行分析,通过交互式互动方式来对于潜在的客户进行筛选,这样就可以有针对性的进行市场营销策略,系统自动分析客户之间的关系,然后进行维护。对于该货物的零售阶段的表现进行记录和分析,包括商品的购买数量和售后的反馈等一系列数据。通过分析顾客和改商品之间购买关系来发现一定的规律,然后通过打折等营销手段进行商品的促销工作。
投资分析和股票在市场之间的交流已经成为金融市场主要的交流方式。在对于金融领域进行分析时,要充分考虑到市场的影响以及该行业的特殊性。因此一般会采用模拟预测的方法来进行分析,包括数据统计回归技术等。由于金融行业投资的特殊性和较大的风险性,在投资之前必须对于该行业数据的各个方面进行分析,尽量规避投资中的风险和陷阱,做到投资的稳定性。而任何事物都可定具有一定发展规律的这一自然定律,在股票市场从开始投资到股票市场的变化都可以根据一定的数据分析进行简单的预测和分析.在对于已经拥有的数据进行整理和分析过程中,要结合现在的形势进行分析,同时要对不同数据之间的关系进行充分的深层次挖掘,根据一定的科学的模式进行预测。鉴于股票市场的复杂性,这中间充斥着错误的数据和结论,航多股票机构为了吸引股民能够入股,因此存在明显的恶意欺诈行为等不道德甚至违法的行为,这些不仅会严重影响股民的利益,而且还会对国家的经济造成不好的影响,这是就需要通过对比和分析和之前数据的方式进行甄别,分析不同诈骗行为之间的共性和不同点,在对比过程中总结经验,对于之后可能存在的诈骗行为进行大量宣传,开发相应的软件能够对与投资的风险进行评估,这样不仅能够降低危险投资的风险性,而且还能极大的抑制金融方面的犯罪活动。
随着电子行业的不断进步和发展,半导体制造业已经成为衡量国家生产水平的关键产业。在半导体的生产和测试过程中都会产生大量数据,通过计算机技术的与数据的挖掘能够分析出产品质量的好坏和产品对于市场的适应程度。在电子商务中,数据挖掘技术也能够通过对于数据的挖掘,来分析客户的网上浏览记录以此来分析该客户的电子商务购买经验。
数据挖掘过程分为数据准备、模式发现、结果表达和解释三个主要阶段,图1给出了交通数据挖掘的系统模型。
ETL及数据预处理为交通信息的模式发现提供一个干净、一致、集成、归约(reduction)的数据集-交通信息数据仓库。数据挖掘任务管理在数据挖掘算法集中选择完成挖掘任务的算法,在交通数据仓库中选择挖掘算法应用的数据,执行相应的挖掘操作,将挖掘得到的模式保存到交通信息模式库。
交通数据挖掘系统的系统模型提供了一个多层的应用体系结构,将数据挖掘功能的实现分为应用层、分析逻辑层、算法工具层和数据层。应用层是用户调用分析逻辑所设立的分析功能的入口,分析逻辑则表现了应用系统的分析能力。多层体系结构能够在跨平台、网络环境下应用,应用系统可以根据需要采用灵活的方式,如B/S、C/S等。在交通数据挖掘中,分析功能的抽取及响应、数据挖掘算法的选取、设计是一个难题,需要交通系统的利用知识和数据挖掘技术的紧密结合。分析逻辑层将分析模型从实际分析需求中提取出来,完成一定的独立分析功能,由一个或多个数据挖掘算法具体实现,每个分析模型都是独立的功能单位。
算法工具层集中了交通流分析需要的算法及相关计算工具,如挖掘各种模型的数据挖掘算法、统计方法、相似性度量方法等,是各个独立的算法工具的集合。在算法工具层,除了数据挖掘算法外,还应当由数据挖掘算法所需要的辅助工具,如对于聚类算法,相似性度量或距离函数是关系到聚类质量的核心问题,不同的相似性独立或距离函数针对不同的数据或分析目标,在算法中可以根据需要来选择配置。
交通数据挖掘系统与其他智能交通系统的应用接口,并接收应用系统的反馈信息对交通信息模型库的模式进行解释与评价。
交通数据种类繁多,分布在各种智能交通应用系统中,具有异构、层次的特点,交通数据挖掘需要将各种交通数据从操作数据库中抽取出来,经过清洗、转换、装载等一系列处理,集成到一个统一的本地交通信息数据仓库。数据仓库为数据挖掘提供有效的数据处理平台,许多数据挖掘功能,如分类、关联、聚类等,都可以与各种粒度的多维数据分析OLAP操作集成,在多个抽象层上交互数据挖掘。
数据挖掘技术是一种数据处理的重要手段,虽然在某些方面还是存在缺陷,但是在现今社会的很多方面都能够发挥其作用,不仅能够分析市场形势,还能够根据数据存在的信息对风险进行规避,这能极大的提高这些行业的经济效益。现阶段数据挖掘技术已经应用广泛,随着数据库不断应用到各行各业,过去很多在数据处理上的难题都能够得到处理和解决。
[1]郑继刚.数据挖掘研究的现状与发展趋势[J].红河学院学报,2010,12:44-46.
[2]朱世武.数据挖掘运用的理论与技术[J].统计研究,2003,08:12-14.
[3]李华.数据挖掘理论及应用研究[J].断块油气田,2010,01:51-54.