吴燕珍
摘要:大數据是当今最热门的研究项目,数据挖掘技术则是大数据分析的工具,该文从生活中常见的大数据进行分析。
关键词:大数据;数据挖掘;数据分析
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2018)19-0014-02
当今的世界是互联网的世界,是大数据爆炸的时代,无论何时无论何地各行各业都有相关的大数据呈现出来,种种这些无一不在提醒我们已经进入大数据时代。
1 关于大数据
其实大数据并不仅仅指海量的数据,把大型关系数据库称为大数据也有不对。大数据具有“高维、海量、实时”的特点,就是说数据量大,数据源和数据的维度高,并且更新迅速的特点。而这些特点都是传统方式难以应对的,相关的技术就要升级,新的技术栈通常基于分布式架构解决,而分布式架构又带来一致性、资源调度、性能优化等多种问题,由此批处理、流计算、图计算、即席查询等方向都有发展。
大数据使用到的相关技术包括有数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模块预测和结果呈现等。传统的数据挖掘就是在数据中寻找有价值的规律,这和现在热炒的大数据在方向上是一致的。可以理解成大数据是场景是问题,而数据挖掘是手段。大数据是包含数据挖掘的,两者是息息相关的。
2 关于数据挖掘
数据挖掘是指从大量数据中挖掘出有价值的潜藏规律和知识。数据挖掘渴望完整而真实的原始数据,去噪和样本平衡很重要。数据挖掘的出发点是代替专家从大量的数据中挖掘出隐含的知识。实施过程涉及机器学习、模式识别、统计学、分布式存储、分布式计算、可视化等,还需要掌握领域专业知识。
数据挖掘的出现需要条件:海量的数据;计算机技术大数据量的处理能力;计算机的存储与运算能力;交叉学科的发展。数据挖掘需要人工智能、数据库、机器语言和统计分析知识等很多跨学科的知识。
3 在大数据中数据挖掘技术的应用
3.1超市中的应用
沃尔玛公司在欧洲的分店的有一个经典的案例:沃尔玛公司采用数据挖掘技术对欧洲店的一年的销售数据进行分析,发现一个让人惊讶的关联结果:在居民区中纸尿布卖得好的店铺啤酒也卖得很好。原因是欧洲的妈妈让爸爸去超市买纸尿布时,爸爸通常都会顺带给自己买两罐啤酒。因此纸尿布与啤酒一起销售出去的机会是最多的。这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。
通过类似的数据挖掘方法,发现商品与商品之间的关联规则,在零售业更是应用得炉火纯青。在吉之岛超市中,摆放寿司的地方总能看到芥末和酱油。超市里在牙膏的旁边通常配备牙刷和剃须刀;洗发水的旁边摆放香皂和浴巾;在水果店里苹果的旁边摆放香蕉;在市场中售卖活鱼的档口中也售卖姜、葱、芜荽,这样一种商品的售卖可以促进另一种商品的消费。
3.2 公安系统执法应用
2018年4月,深圳交警结合视频识别技术,试点人工智能“刷脸”系统,对交通违章行为进行治理。人脸识别出违章者信息,5月1日上午9时,深圳市福田区国花路与桂花路交汇处,红灯亮起时,一名身穿红色工服的快递员,因为闯红灯,被深圳实行“刷脸”执法以来,开出第一张罚单。刷脸执法系统主要通过视频检测到违章行为,深度学习人脸技术,对人脸进行实时提取和识别,自动储存闯红灯的人脸数据,并通过实时搜索比对,通过数据对接手段,核实违章者身份。
目前人脸识别技术广泛应用在公安执法系统中,警方只需将指定对象的脸部数据采集到公安系统数据库中,那么只有该指定对象一出现在视频中,系统就能精确地将识别出来。因此还被应用于抓捕罪犯、寻人等。人脸识别技术的开发虽然需要借助其他技术,但是其主要技术还是来自数据挖掘中的分类算法。
3.3 球队布阵应用
在2016年里约奥运会,中国女排时隔12年再登顶,夺取了金牌。能在小组第四出线逆袭得到金牌,是难以想象的。这当中郎平教练的得力指导,队员的艰苦训练技术提高,当然很重要。然而,比赛时使用先进的数据分析工具,才是获胜的关键。我们在观看每场排球比赛时,总能看到中方或外方的教练都拿着一个平面电脑在调兵遣将。
如何布阵以提升获胜机会?当前不管是排球或是足球比赛,这些球队的教练都不约而同使用不同软件公司开发的数据挖掘应用软件来优化他们的战术组合。教练可以用便携式电脑或者平板电脑,随时挖掘存储在数据中心的服务器上的数据。对于过去一年甚至两年中的每一场比赛,都按不同的事件被统计分类,如得分、助攻、失误等等。时间标记让教练非常容易地通过搜索相应球类比赛的录像来理解统计发现的含义。例如:教练通过软件分析发现本队的A球员发球时,对方B球员如果不上场往往可以发球得分,因而会在对方B球员不在场时让A出场发球,从而让本队得分几率提高。
3.4 银行应用
银行的主要功能除了储蓄之外,就是贷款业务了。贷款是银行最重要的业务之一,是通过赚取存取款利率之间的差价而获取利润。而贷款给谁?谁能如期还贷?因此信贷风险分析是非常重要的,这关系到银行是否按时拿到还款,是否能赚到钱。银行信贷风险包括正常、关注、次级、可疑和损失等风险。正常和关注这两种风险对银行信贷风险影响很小,一般情况下贷款人会按期偿还本金和利息,贷款损失的概率较小。对于损失、可疑和次级这三种贷款风险,银行贷款就需要承担很大的风险了。
银行使用数据挖掘技术对贷款申请人的相关数据进行分析,如贷款人年龄、收入、职业、贷款用途、贷款人及家庭经济情况、贷款金额和贷款期限进行分类和筛选。建立信贷风险分析机制,提取分类规则并确定重要的决策属性,选取最优信贷评估模型对贷款申请人信用风险进行分析、评估和预测,把信贷风险降至最低。
3.5 电子商务网站库存预测
2017年的双11购物节,上海嘉定区朱桥镇的刘先生从下单到收到快递,共用时12分18秒。这是使用大数据分析,数据挖掘的结果。
了解客戶的实际需求以及潜在需求是电子商务网站的重点研究问题。结合用户的浏览兴趣、购买习惯和偏好、以及放入购物车的商品。通过数据挖掘,推测客户的兴趣偏好,预测他们的潜在购买可能,甚至可以准确判断出用户的潜在需求。因此,商家就可以精准地准备货物,不同的仓配点每种商品的库存量都会根据挖掘结果备货。从而可以做到从客户下单到签收,用时12分18秒就可以完成交易过程。由此可见,在大数据时代下,数据挖掘技术对于电子商务行业是极其重要的。
4 结束语
数据挖掘应用在大数据时代非常广泛,除了本文所提到的与生活息息相关的应用外,还有一些用于高科技领域的大数据挖掘,甚至还会被犯罪分子用来作案。它就体现在我们的生活中,无论我们是否意识到它的存在。它已经影响到我们如何购物、工作、搜索信息,甚至还会影响到我们的休闲、健康和安宁。
参考文献:
[1] Zhang Yue,Guo Shu-Li,Han Li-Na,Li Tie-Ling. Application and Exploration of Big Data Mining in Clinical Medicine.[J]. Chinese medical journal,2016,129(6).
[2] Yue Zhang,Shu-Li Guo,Li-Na Han,Tie-Ling Li. Application and Exploration of Big Data Mining in Clinical Medicine[J]. Chinese Medical Journal,2016,129(6).
[3] Gang Xin,Hui Yan. Study on the Optimization of Data Mining in Big Data[J]. Advanced Materials Research,2014,3326(989).
[4] Shabnam Shadroo,Amir Masoud Rahmani. Systematic survey of big data and data mining in internet of things[J]. Computer Networks,2018,139.
[5] SHI Guangren,ZHU Yixiang,MI Shiyun,MA Jinshan,WAN Jun. A Big Data Mining in Petroleum Exploration and Development[J]. Advances in Petroleum Exploration and Development,2014,7(2).
[6] 贾璐洁,张靖.数据挖掘在高校教务管理中的应用[J].中国科技信息,2007(12).
[7] 赵军,王晓.基于数据挖掘的第三方物流中心库存需求预测模型[J].物流技术,2014(33).