龚芳海 李文彪
摘 要:互联网大数据处理技术已经成为现代网络社会的发展趋势,大数据挖掘是数据处理的关键技术。因此,文章结合互联网,对大数据关键技术进行分析,在分析互联网大数据时代发展现状的基础上,分析了大数据挖掘关键技术,包括数据采集、实时数据处理以及数据管理等基础,以期推动互联网企业的高速发展。
关键词:互联网;大数据挖掘;关键技术
随着网络技术的不断发展,互联网已经逐渐影响人们的学习和生活,在互联网大数据时代下,社交网络产生的数据相对较大[1]。通过大数据分析技术,可以揭示数据与隐藏模式的相关性,继而可以为企业的发展提供契机,使其根据客户的需求来提供针对性的体验服务,在此基础上,可以不断提升企业的综合竞争能力[2]。而客户通过大数据挖掘技术,可以享受更好的服务体系,便于增加体验感。因此,在互联网环境下,对大数据挖掘关键技术进行分析具有重要的意义。
1 大数据含义
随着互联网技术的不断发展,大数据已经逐渐影响人们的学习和生活,所谓大数据,是指数据相对较为庞大,无法通过计算机软件有效的获取[3]。IBM曾经提出大数据的4个特征:(1)数据量庞大,达到PB等级。(2)存在视频、图片以及日志等多样化的文件形式。(3)具有较快的处理速度。(4)具有高质量的数据。在大数据处理过程中,通过数据分析挖掘技术,可以挖掘数据的价值。
2 互联网大数据时代的发展现状
互联网大数据是指用户在使用终端的情况下产生的数据信息,其包括网络协议以及流量等情况,网络是由供应商提供,同时其可以通过数据信息来获取用户的相关数据[4]。随着互联网事业的不断发展,企业同样获取了较大的发展机遇,互联网大数据可以为其发展提供基础信息以及使用信息,通过对数据的掌握,了解网络的运行状况,并且可以加强用户的体验。大数据分析是对网络的服务管理,可以分析用户体验的相关信息。
3 大数据挖掘关键技术
3.1 大数据采集
大数据采集技术通常划分为基础支撑层以及大智能感知层。智能感知层主要负责对数据的识别、传输以及感知等基础[5]。基础支撑层则负责为数据平台提供数据库以及物联网等相关处理技术。运营商通过对网络大数据的处理,可以及时地对用户的需求变化作出响应,从而提升企业的综合运营能力。
互联网每天会产生大量的视频、日志以及互动等多样化的数据信息,虽然可以为用户带来便利,但是其同样会为运营商带来巨大的挑战,其主要体现在以下几个方面:(1)存在多源数据获取问题。大数据时代具有多元异构以及动态性的特点,如单个用户的位置信息价值相对较低,而将多个用户的信息整合起来,则可以提升整体价值。然而在数据采集中,收集多元化的数据成为企业面临的新问题。(2)海量异构管理问题。在互联网上,存在大量的异构数据信息,部分数据缺乏注册结构,因而其价值不一,企业需要对关键数据以及异构分析,以此来实现对数据质量的管理。(3)数据实时挖掘问题。对于现代网络,聚类和关联分析已经逐渐应用于数据信息的处理,然而通过模拟分析,无法获取实时的数据,为互联网企业的发展带来了较大的冲击。
3.2 大数据预处理技术
大数据预处理是指在大数据挖掘前期,通过相关技术,对大数据进行预处理,其主要包括数据的清理、集成以及归约等几种处理方式[6]。大数据的数据量相对较为庞大,但是并未存在较多的数据价值,相反,大数据数量的增加,在一定程度上增加了数据的噪音,部分数据缺乏使用,同时由于数据的不断增加,导致媒体数据被碎片化处理,因此,需要采用大数据清洗技术以及降噪技术来处理大数据。对于数据的早期处理,主要通过数据挖掘技术来获取时序知识以及分类知识等,同时在大数据时代,人们进入非结构化的时代,需要对大数据进行预处理,以此来满足时代的发展需求。
3.3 大数据管理技术
大数据通过网络时代的发展而产生,并且随着网络技术的不断发展,呈现更为多样化的发展趋势,同时多样化的物联网感知设备,其具有多种格式,且大数据环境下,其具有多样化和复杂性的特点。在此情况下,其要求物联网大数据系统需要通过特定技术来处理大数据,以此来满足多样化的发展需求。因此,设计系统架构,以此来提升系统的扩展性成为研究的重要课题。
3.4 大数据处理和可视化技术
大数据信息具有速度快的特點,因而在处理过程中,如果处理不及时,将会不断减弱数据信息的价值,因此,对于大数据的处理,需要从诸多领域进行实时挖掘。通过在线处理的方式来提升数据的处理效率,且对数据的算法以及模式进行改进。
大数据可视分析技术,是指将大数据挖掘以及对计算机的融合和认知能力结合起来,通过人机交互以及可视化技术对数据进行分析,其可以有效提升数据的分析能力和处理能力。
3.5 海量异构数据处理
随着互联网事业的不断发展,其逐渐产生了海量的异构数据,根据数据的特点分析发现,其具有数量庞大、类型多、价值密度低以及处理速度快等特点,要求在秒级的时间内,对数据进行分析,并且产生相应的分析结果。如果处理时间相对较长,则会逐渐降低信息的价值,针对大数据的处理问题,需要对其模块进行设计,其主要包括下列模块:(1)处理模块。(2)集成模块。(3)文件系统模块。(4)数据库模块。(5)易用性模块。(6)接口数据访问层。
针对互联网数据的处理问题,需要在数据处理系统中安装探测模块。互联网企业通常根据处理时间,将数据划分为在线信息、近线信息以及离线信息。其主要是根据消耗的时间来进行划分。对于秒级信息的处理,通常是采用流处理技术,通过适当的处理技术分析,可以强化对I/O系统的应用。
对于流式处理系统,其主要采用Flume以及Storm等系统架构,在对数据处理后,将相关数据存储到数据库,以此来实现对数据的实时处理。对于批处理系统的设计,首先需要对数据进行存储管理,之后对数据进行分析和计算,其存储系统可以采用HBase,对于冷数据的处理,可以采用Gluster FS等技术,这样可以有效降低管理成本。同时在数据的处理中,通常利用OLAP来进行建模,同时利用组件进行分析,可以较好地提升数据的处理效率。
在互联网技术不断发展的情况下,相关技术同样呈现不断发展的趋势,如通过Spark技术,可以将中间数据进行存放,使其提升迭代的效率,另外,通过计算模型以及相关问题分析,可以绘制图形数据库。另外,在数据处理中,通过数据接口,可以为用户提供应用以及服务。
3.6 实时数据挖掘
互联网数据具有复杂性的特征,其不利于实现故障的诊断以及用户的体验,数据挖掘模块是通过对无线网络的理解,采用数据分析和挖掘的方式获取报表,以此来开放应用程序编程接口(Application Programming Interface,API),其可以获取以下几种类型的数据信息:(1)网络分析信息,通过对流量以及会话等模块的分析,可以实现对网络性能的关键绩效指标(Key Performance Indicator,KPI)分析。(2)网元分析。通过网元对比以及网元组对比等趋势分析,可以获取RNC性能负载。(3)终端分析。通过终端设备的使用情况分析,可以获取小时的数据变化,继而可以获取相关的性能指标。(4)用户分析。通过对用户数据的比较,可以获取用户资源的使用情况。(5)应用分析。通过对用户应用业务的分析,可以获取用户的累计分布情况以及单个用户的时间变化。(6)通过QoS以及QoE等指标的分析,可以获取用户网络状况以及负荷等相关信息。
在实时数据分析中,多媒体数据挖掘同样是重要的技术手段。通过画像建立以及视频推广等模式进行分析。用户画像的挖掘技术通过视频播放以及注册搜索等行为,采用大数据分类方式构建模型,包括性别或者年龄模型等,通过对模型的预测,可以对用户进行判断,以此来为企业的发展提供数据信息支持。视频推荐模式是根据用户的行为,对视频的相关热度等情况进行分析,可以获取用户的兴趣反馈数据,其便于识别用户的ID,经过信息整理,企业可以采用针对性的推荐来满足客户的基本需求。另外,通过用户画像以及视频推荐,可以为广告企业进行定位,其将符合用户需求的广告投放到定向的人群,以此来提升媒体的运营质量。
4 结语
随着互联网事业的发展,大数据挖掘已经成为企业关注的重要问题,本文对大数据挖掘技术进行分析,体现了对海量数据的整合,企业可以通过大数据挖掘技术,实现对客户信息的整理,并且為客户提供个性化的服务模式。
[参考文献]
[1]裴莹,付世秋,吴锋.我国教育大数据研究热点及存在问题的可视化分析[J].中国远程教育,2017(22):1-8.
[2]李涛,曾春秋,周武柏,等.大数据时代的数据挖掘—从应用的角度看大数据挖掘[J].大数据,2015(4):57-80.
[3]程陈.大数据挖掘分析[J].软件,2014(4):130-131.
[4]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014(3):45-47.
[5]郭迟,刘经南,方媛,等.位置大数据的价值提取与协同挖掘方法[J].软件学报,2014(4):713-730.
[6]王树良,丁刚毅,钟鸣.大数据下的空间数据挖掘思考[J].中国电子科学研究院学报,2013(1):8-17.