信息分析视角下的大数据分析平台构架研究

2019-09-10 16:21赵杨晨
现代信息科技 2019年7期
关键词:大数据分析

摘  要:在物联网和云技术的发展中,对于大数据视角下的综合信息平台进行构建,是为了在数据源扩大,存储技术不断进步的基础上,采用信息化建设的方式,运用结构化和非结构化的数据建设方法,对大数据进行处理。建立在大数据平台基础上的综合信息分析,能够对于信息进行更海量的处理,为各行各业高效发展提供技术支撑。

关键词:信息分析;大数据分析;平台构架

中图分类号:TP311.13      文献标识码:A 文章编号:2096-4706(2019)07-0160-02

Abstract:In the development of internet of things and cloud technology,the construction of integrated information platform from the perspective of large data is to process large data by using structured and unstructured data construction methods based on the expansion of data sources and the continuous progress of storage technology. Comprehensive information analysis based on big data platform can deal with more information and provide technical support for the efficient development of all walks of life.

Keywords:information analysis;big data analysis;platform architecture

0  引  言

随着移动互联网和物联网的发展,海量数据处理的时代已经到来,对海量数据进行分析和处理,已经成为各大公司都要面对的非常紧迫的任务。海量数据时代到来之后,数据分析公司预测,数据的数量将是一个天文数字。如何具有可伸缩性、计算性能和成本上无可替代的运算优势,这需要通过以互联网企业为主流的大数据分析平台来担当起数据挖掘和多维分析以及海量存储的任务。作为互联网数据分析公司,在海量数据的分析领域上,应对严苛的业务需求和数据压力,要尝试尽可能多的大数据分析方法,构建出大数据平台下的数据分析平台结构。

1  大数据分析平台的分类

在进行大数据平台的分类的时候,按照当前的业务进行多个角度的分析,针对不同的具体需求,可以对数据分析架构进行不同类别的分类,按照数据分析的实时性,可以进行实时和离线数据两个类别的分析。

实时分析用于移动互联网产品的分析中,在大量数据的分析过程中,不影响用户体验,同时又要满足用户分析要求,采用精心设计的传统的数据库组成方式进行集群的处理,往往需要建设内存计算平台,但是这样做的软硬件成本都是比较高的。

而比较新颖的数据分析工具进行反馈的时间则缩短,在这基础上通过机器学习搜索引擎实现推荐引擎的计算,应用离线分析的分析方式,通过数据采集工具,将日志加以导入,对海量数据运用传统的工具进行处理,运用其应对数据转换的开销过大的问题,在性能上追求满足海量数据采集需求的任何要求。互联网企业当前较为先进的包括Facebook等开发的各种软件,能够应对每秒数百兆的日志数据采集和传输要求。在这种数据上传的过程中,形成了大数据分析平台的中央系统。

按照大数据的数量级进行内存级别的含量以及海量级别的分类,这些分类可以看到在大数据的分析架构平台上拥有快速的分析能力,能够适时地进行实时分析,潜力十足,高速数据分析已经可以实现。

2  大数据分析平台的应用

面对大数据分析,大数据平台可以进行表间关联的混合存储、数建分组和压缩延迟加载。传统数据库中无法应用优化数据库的技术方式,采用分片索引的技术,将优化后的技术应用在数据分析性能中,例如:使用Hadoop平台,在模仿SQL数据分析的功能上,能够采用优化的方式进行多维的分析,应用事实表和维度表,关联多维度性能的降低行列混合存儲模式,采用数据格式的特定分析方法对业务模型进行变动。此时,海量数据转换的格式代价相对降低。但是,目前采用这种多维分析的方法,虽然业务比较灵活多变,业务目镜可以随着业务维度和度量发生变化,但是在整个平台建构过程中,业务人员进行快速改变,问题分析的角度容易受到影响,无法灵活地处理问题。因此,改用大数据分析结构,运用Cube支持将维度和度量都交给业务人员,由业务员自己对维度进行核定,度量,并进行计算和分析,最终形成报表。这种方式可以在自定义维度上具有优势维度,可以根据业务需求进行重新分组和划分,而数据的非结构特征则可以根据性别和学历加以自定义。

即便是业务模型发生了变化,依然可以将多维立方体进行重新定义。在Cube上进行多维分析,限制了业务人员快速改变问题的思路。采用Hadoop多维分析平台作为架构分析,将海量的小日志文件进行高速合并和传输,采用确保数据传输安全的方式,进行日志数据中的维度信息的扩展,将信息写入数据日志中。数据冗余模块在整个系统的瓶颈中进行内存的冗余,原始数据的设定,自动生成多维分析语言,提交给集群之后,通过核心模块,将多维分析命令进行前端模块的设置,运用可视化的定义器进行数据日志的维度和度量定义,通过多个工作流,根据业务进行定制,数量输入后海量数据会缩小很多,传统的数据报表中这种难以展现的工作流程在新的数据平台上得到了展现。

3  智能云数据下构建的智能楼宇物联网大数据平台

利用物联网、云计算和大数据的方式,将智能建筑中传统的自动化节能化技术加以完善,向着数字化方向演进。不同门类的海量传感器组件组成了智能建筑中的神经网络,为建筑赋予了新的生命符号。智能楼宇系统十分复杂,包括消防、安防、供水、供电等。智能云数据构建的楼宇物理网大数据平台,在进行构建的时候,安装有各种传感器,在运行过程中,各类传感器和模块通过传感器,将数据信息获取和上传,实现大数据的挖掘和利用,是传统的楼宇数据运行平台无法比拟的。

以历史大数据分析为主要功能的楼宇能源管理模型被建立起来,人工智能和人脸识别技术在智能安防模型中被加以应用,通过研发BDOS大数据操作系统搭建出了物联网大数据处理平台,将大数据底层设计架构进行了产品的整体技术解决和标准化的技术解决。应用大数据平台和智能云平台实现大数据操作系统的运行,降低用户在云计算基础上开发大数据的技术门槛。

同时,数据的计算原则包括了在大量单一数据点进行信息的提取,框架中可以包括流处理框架混合框架等等。对于大数据进行库处理,离不开引擎和框架这几组定义。进行引擎的设置的时候,需要对所处理的数据状态进行分类,每一个系统都有批处理方式,运用流方式进行连续不断的数据的处理。在批处理上,运用大容量静态数据及完成计算过程,通过数据持久地保留在数据有限集合中,形成了海量数据集的批处理,批处理模式中的数据集需要具有计算总数和平均式的功能。

如果无法从持久存储设备中进行数据集的处理,则应该充分考虑数量的量,并且提供充足的处理资源。在批处理处上应对大量持久数据的表现,在历史数据进行分析的基础上节省时间,对不适合处理的要求,尽量进行离场处理。设计过程中充分考虑数据的量,采用批处理操作的模式,对开源社区的大数据框架进行海量数据的处理,对集群节点带的存储和复制进行协调,确保节点故障不会发生。对于数据来源进行存储中间态的处理,要求在集群协调组建中,运用底层资源和调度作业的运行方式,对基层资源接口加以连接。

此时,运用迭代方式运行工作负载最大,批处理模式则对每个键进行数据子集的计算,将数据集成分拆之后,分配给所有可用节点。从文件系统中读取数据及使用算法进行基本处理,通过对每个节点进行计算,汇总成相应的数值。这种批处理模式可以对任务进行多次的写入和执行操作。每个层面磁盘空间上的资源相对较少,因此比起类似技术来说,这一类技术不适宜将一切都存储在内存中,在持久存储上具有劣势。因此,圍绕智能物联网技术进行了周边技术的开发,形成辽阔的生态系统,处理框架和引擎,通过集成使用资源管理器处理的方式,得到了一批久经考验的批处理模型。

这些模型能够更灵活地运用处理技术,而且集成能力更强,可以在不同技术的多种工作负载处理平台上进行底层技术的运行。流处理系统,采用的是与传统数据计算模式不同的处理方式,针对各个数据集可以执行操作,在对完整数据集进行系统的数据总量的设置的时候,在特定时间内进行数据的更新,同一时间内可以处理。不同状态下的最少量的状态,大部分系统可以提供某些状态的方法,但流处理主要针对副作用比较少的、功能性的处理进行优化,在处理优化之后侧重于离散步骤,针对任何一个数据执行,处理更有优势。

对于不同结果的结合体进行类似状态管理,可以实现不同状态下的管理机制的更高效。在进行相对的业务制造处理的时候,关注一段时间内对变化趋势的数据进行的实时处理,选择最佳的工作负载。此时,技术具有非常大量的数据,以及非常好的无边界数据的特点,在流处理模式上可以对应应用操作,在拓扑的尾部使用相互连接的系统输入,建立起必要的处理模式,遴选操作是其中比较具有优势的。这种状态处理可以不使用。

4  结  论

处理模式优化后就可以进行逐项的处理。点击某个链接之后,用户可以充分发挥框架与生俱来的优势,提高处理的灵活性。在流处理的处理过程中,配合用户使用纯粹的流处理技术,采用延迟处理数据的方法,保证每条信息都能被处理。对不同批次的数据进按照顺序进行一次性批量处理,通过资源管理器进行集成,为用户提供了更多的选择。随着当前计算机技术的不断发展,目前对于已经具备流处理能力以及框架处理能力和批处理和流处理混合处理功能的平台,多个团队在经过不同处理阶段的组织和协调之后,已经可以实现很多处理工作的大幅简化,对于性能来说予以提升,对于工作成本来说予以大大的降低。为了满足用户科研的需求,在流处理模式上具体的策略方法为:将数据流采用小规模固定数据处理方式,实现内存计算策略和先进的调度机制的快速处理,最终形成一个独立集群部署。这一平台能够进行快速的批处理和流处理。对于不同类型的任务,可以运行一个集群加以处理。同时,平台包括各种库的生存系统,可以实现交互式查询和机器学习,对于生产力的大幅度提高也有着促进作用。

参考文献:

[1] 孙雪娟.基于信息分析视角下的大数据分析平台构架研究 [J].信息通信,2017(11):96-98.

[2] 肖源,郝杰,刘莹,等.信息分析视角下的大数据分析平台构架研究 [J].情报科学,2016,34(9):83-89.

作者简介:赵杨晨(1998-),男,汉族,河南三门峡人,本科在读,研究方向:电子、光电。

猜你喜欢
大数据分析
基于大数据分析的低压台区降损系统研究及应用
大数据分析对提高教学管理质量的作用
基于大数据分析的电力通信设备检修影响业务自动分析平台研究与应用
面向大数据远程开放实验平台构建研究
面向大数据分析的信息管理实践教学体系构建
传媒变局中的人口电视栏目困境与创新