大数据技术下企业信息采集技术研究

2019-07-08 03:32何邦财

无线互联科技 2019年8期

何邦财

摘要：大数据技术作为一种新的信息融合应用技术，被广泛应用在各个领域中，大数据技术给企业信息采集工作带来了各种机遇和新的挑战。企业要积极转变工作理念，结合自身发展情况和需求有效引进、利用不同信息采集技术，从不同渠道获取自身需求的信息资料，促进企业建设稳定持续的发展。文章进一步对大数据技术下企业信息采集技术展开分析与探讨。

关键词：大数据技术;企业;信息采集技术

大数据时代，企业要想在竞争激烈的市场上始终占据一席之地，就必须高度重视对自己及相关的信息采集技术的创新研究应用工作。大数据最为显著的特点是大量、多样、高速、真实性以及低价值密度，企业要想从海量数据中采集到具有高价值的数据信息，就需要搭建起一个专业完善的数据信息采集系统，利用不同技术展开对数据的科学提取、转换及加载，为企业管理工作提供科学参考依据，帮助企业建设与管理创造出更多价值。

1 大数据技术下企业信息采集工作的优势分析

1.1 信息采集系统性

企业在传统信息采集工作中，通常采用的是手工操作方式，处理效率低、成本高且准确度不高，缺乏一定的科学系统性。而基于大数据技术辅助应用，企业能够快速准确采集到自身需求的信息数据，有效建立起完善的企业内部数据，完成从传统信息手工采集到自动化采集的过程转变，全面准确掌握市场用户的实际发展情况。同时，最大限度地降低了人工因素对数据采集工作准确性带来的影响[1]，有效提升了信息采集工作业务的处理质量和效率，帮助企业创造更多经济效益，促使企业数据信息采集变得更加规范系统性。

1.2 信息采集范围广泛性

在计算机互联网大力发展的时代背景下，大数据技术能够帮助企业在短时间内收集到大量自身需求的信息数据，节约人工成本。海量的中小企业分布在各个地区，在计算机互联网、云计算技术以及大数据技术的应用下能够让中小企业的数据统一集中起来，将实际采集的准确数据录入储存到计算机系统中，实现对数据的实时动态跟踪查询，得出企业在信息采集工作中应用大数据技术能够保证信息采集范围的广泛性，避免数据的单一性影响到企业建设更好的发展。

1.3 信息采集真实完整性

企业在传统信息采集工作中，实际采用的各项数据信息处理水平较为落后，难以为企业提供真实完整的高价值数据信息。工作人员往往只会通过基础抽样方式展开对各项数据的加工处理和存储，使用样本大致估计总体特性。现代企业通过将大数据技术融入信息采集工作，能够促使企业具备高效处理海量数据的能力[2]。企业也能够从不同渠道中采集到更多信息进行对比处理，减少了由信息获得偶然性所带来的影响，充分保障了企业采集信息数据的真实完整性。除此之外，企业还能够通过加强对收集信息数据的深入加工处理，科学有效地挖掘出更多隐藏在数据背后的有价值数据信息，为企业做出最佳管理决策提供科学参考依据。

2 大数据技术下企业信息采集技术的实践应用

2.1 系统日志采集系统

在市场经济发展过程中，大多数企业的经济业务平台每天都会生成各式各样的日志数据，针对不同的日志信息，企业通过深入分析挖掘能够获取采集到一定价值的数据信息。企业高层领导要高度重视对内部系统日志信息的有效收集和采集工作，安排專业人员对日志数据进行科学地分析处理工作，帮助企业做出最佳的经营管理决策。基于大数据技术的系统日志采集系统是较为先进的，能够辅助企业高效收集日志数据，并提供在线和离线的数据实时分析。企业进行信息数据采集时，时常会运用到的开源日志收集系统主要包括Flume，Scribe等。Flume作为一种分布式、安全可靠的服务，能够帮助企业科学高效准确地采集到大量日志数据，具备极好的容错能力，有着基于流式数据流的简单灵活架构。Scribe作为Facebook开源的日志采集系统，实质是一个分布式共享队列，能够帮助企业实现从不同数据源上快速准确地收集到需求日志数据，同时，将数据传递到共享队列中[3]。Scribe能够支持长期存在的消息队列，为企业日志收集系统提供良好的容错能力，其消息队列同样具备较好的容错能力，能够将各项日志数据有效写入到本地磁盘中。

2.2 网络数据采集系统

企业可以通过大数据技术，利用网络数据采集系统完成对各项需求信息的采集工作。如利用网络公关API、网络爬虫等去从各个网站有效收集有价值的数据信息，提取大量半结构化和非结构化数据，将这些数据成功转换成结构化数据，并安全存储到本地文件数据库中。企业在利用网络爬虫采集信息数据时，时常运用到的网页爬虫系统主要包括Crawler4j，Apache Nutch以及Scrapy等框架。其中，Crawler4j和Scrapy作为一种爬虫框架，能够为企业开发技术人员提供便利的爬虫API接口，开发技术人员则要高度重视怎样有效实现爬虫API的接口。Crawler4j和Scrapy框架的应用能够提升开发技术人员开发效率，在短时间内实现对爬虫系统的开发目标，为企业在各个网络平台上采集到更多有效数据。而Apache Nutch作为一种高度可扩展和可伸缩性的分布式爬虫框架，其中，Apache是基于分布式完成对网页数据的抓取，由Hadoop支持，在提交MapReduce任务后去有效抓取网页数据，并将抓取到的各项网页数据安全保存到分布式系统基础架构的文件系统（Hadoop Distributed File System，HDFS）中。Nutch可以辅助企业展开分布式多任务的爬取数据，多个设备同时进行爬取任务，Nutch能够发挥出多个设备的计算资源和存储能力，全面提升系统爬取数据的能力。

2.3 数据库采集系统

部分企业仍然使用传统关系型数据库Oracle和MySQL等去完成对各项数据的存储工作，有些也应用NoSQL数据库。企业在日常经营管理过程中生成的各项业务数据，会以数据库一行记录形式被直接写入到对应的数据库中。企业可通过将数据库采集系统与业务后台服务器有效结合在一起，后台产生的业务数据被自动写入数据库中，基于处理分子系统完成对数据库采集系统的分析工作。

在大数据技术发展应用基础下，企业广泛采用的信息采集分析技术是Hive—美国Facebook公司设计开发的一款能够支持PB级别的可伸缩性数据仓库，建立在Hadoop上的开源数据仓库解决方案。企业利用Hive信息采集分析技术，有效使用类似SQL的声明性语言表示的查询，不同语言能够被编译为采用Hadoop执行的MapReduce作业[4]。同时，基于HiveQL技术使用辅助下，能够促使用户将自定义的map-reduce脚本插入到查询中。当HiveQL语句在被提交执行过程中：（1）Driver会把查询快速准确传递给编译器compiler，经过一系列的解析作业、类型检查以及语义分析，编译器运用安全存储在Metastore中的元数据对应生成一个逻辑任务。（2）基于简单的基于规则的优化器展开优化作业。（3）生成一组MapReduce任务以及HDFS Task的DAG优化后的Task，系统执行引擎会利用Hadoop的实际依赖性顺序执行不同的Task。Hive信息采集分析技术的应用能够提供各种简单的HiveQL语句，对企业数据库中的数据展开简要分析计算，为企业管理决策提供科学依据。

3 结语

在大数据技术应用发展下，现代企业要充分发挥出大数据信息采集信息技术的作用，结合自身实际发展情况和需求，有针对性地采用网络爬蟲、Hive以及系统日志采集等信息采集技术，科学有效搭建起科学完善的信息自动采集系统，为企业信息采集工作提供有力技术支持。

[参考文献]

[1]黄继鸿，赵新华，王强.信息采集技术研究与应用[J].航空科学技术，2014（6）：74-75.

[2]赵红艳.基于大数据技术的小微企业信息采集技术研究[J].科技展望，2015（30）：14-17.

[3]戚扬.Web数据挖掘信息采集技术研究及在网络新闻自动抓取中的应用[J].技术研究，2015（3）：54-56.

[4]HONGYAN Z.Study on the information security of the age of big data[J].International Conference on Computer Science and Software Engineering，2014（5）：60-61.