董 卉
(江苏第二师范学院 江苏 南京 210013)
随着信息技术和互联网的快速发展,大数据和人工智能已经成为当前社会变革和发展的重要驱动力。 人工智能大数据平台作为大数据和人工智能技术的重要应用场景,正在被越来越多的企业和机构所使用。 本文将从技术、搭建、应用和实施效果等方面进行介绍和探讨,旨在为人工智能大数据平台的应用提供一些思路和参考。
大数据是指数据量巨大、种类繁多、处理速度快的数据集合。 而人工智能是指模拟和延伸人类智能的科学和工程,其核心是机器学习、知识表示和推理、自然语言处理和机器视觉等技术[1]。 大数据和人工智能之间有着密切的关联,大数据是人工智能应用的重要数据来源,而人工智能又可以对大数据进行深度挖掘和分析,提高数据的价值和利用效率。
Hadoop 是一个开源的分布式计算框架,可以对大规模数据进行存储和处理,并支持多种不同类型的应用程序。 Hadoop 架构主要包括Hadoop 分布式文件系统(hadoop distributed file system, HDFS)、 MapReduce 和YARN(yet another resource negotiator)三个组件。
MapReduce 是一种分布式计算模型,可以将大规模数据分割成多个小任务并分配到不同的节点上进行处理,最后将结果合并返回给客户端。 MapReduce 主要包括两个阶段:Map 阶段和Reduce 阶段。 Map 阶段将输入数据分割成多个小块并分配到不同的节点上进行处理,输出中间结果;Reduce 阶段将Map 阶段的中间结果汇总并进行计算,最后生成最终的结果。
YARN 是Hadoop 的资源管理器,可以协调和管理集群资源,包括中央处理器、内存和存储等。 YARN 主要包括 ResourceManager 和 NodeManager 两 个 组 件。ResourceManager 作为主节点负责集群资源的管理和分配,NodeManager 作为从节点负责监控和管理本地节点的资源使用情况。
HDFS 是Hadoop 分布式文件系统,可以将大量数据分割成多个块并分别存储在多个服务器上,实现数据的高效存储和管理[2]。 HDFS 采用master/slave 架构, 其中NameNode 作为主节点负责管理文件系统的命名空间和客户端访问,DataNode 作为从节点负责存储数据块和响应客户端请求。 HDFS 的设计目标是适用于大规模数据集的存储和处理,具有高容错性、高可靠性和高效性等特点[3]。HDFS 将大文件划分成多个数据块,并通过多个DataNode进行分布式存储和备份,保证数据的安全性和可靠性。 同时,HDFS 还支持数据的快速检索和读写操作,适用于大数据量的批量处理和分析。
Hive 是基于Hadoop 的数据仓库工具,可以将结构化数据存储在Hadoop 上,并通过SQL 语言进行查询和分析。Hive 主要包括HiveQL、HiveServer2 和Hive Metastore 三个组件。 HiveQL 是Hive 的查询语言,类似于SQL 语言,支持基本的查询语句和聚合函数等操作。 HiveQL 可以将查询语句转化为MapReduce 任务,在Hadoop 集群上进行分布式计算和处理。 HiveServer2 是Hive 的服务组件,可以提供远程访问和查询功能。 HiveServer2 支持多种协议,包括数据库连接协议、开放数据库互连协议等,可以与各种客户端进行交互。 Hive Metastore 是Hive 的元数据管理组件,负责存储和管理Hive 表的元数据信息。 Hive Metastore 可以将元数据存储在本地文件系统或者数据库中,支持多种元数据存储方式。
Python 是一种高级编程语言,可以通过其丰富的库和工具来处理和分析大数据,支持多种机器学习和数据挖掘算法。 Python 的主要优点包括(1)易于学习:Python 语法简洁明了,易于理解和学习,适合初学者入门。 (2)丰富的库和工具:Python 拥有丰富的库和工具,包括NumPy、Pandas、Matplotlib、Scikit-learn 等,方便进行数据处理、分析和可视化。 (3)支持多种机器学习和数据挖掘算法:包括分类、聚类、回归、决策树等,可以应用于各种领域的数据分析和预测。 (4)可移植性:Python 可以在不同平台和操作系统上运行,具有良好的可移植性和兼容性。 (5)开源免费:Python 是一个开源的软件,可以免费使用和修改,适合各种规模的企业和机构使用。
Python 在人工智能大数据平台中可以用来进行数据预处理、特征提取、模型训练和结果评估等工作。 同时,Python 还可以与Hadoop、Spark 等大数据处理框架进行集成,实现大规模数据的分布式处理和计算。
在搭建人工智能大数据平台时,需要满足以下融合要求:
首先,隔离机制。 不同的业务系统可能会使用相同的硬件资源和软件环境,需要通过隔离机制来防止相互干扰和影响。 可以采用虚拟化技术、容器化技术等方法进行隔离。 其次,代码无缝对接。 不同的业务系统使用的编程语言和框架可能不同,需要实现代码无缝对接,以便进行数据交换和处理。 可以采用应用程序编程接口(application programming interface,API)、软件开发工具包(software development kit,SDK)等方式进行接口对接[4]。 最后,HDFS 衔接。 HDFS 是人工智能大数据平台的核心组件之一,需要与其他业务系统进行衔接。 可以通过Hive、Spark等工具进行数据读写和处理。
为了满足上述融合要求,可以使用虚拟化技术或容器化技术对不同业务系统进行隔离,确保资源的独立性和安全性。 提供统一的API 或SDK,使得不同编程语言和框架的代码可以无缝对接,并进行数据交换和处理。 使用Hive、Spark 等工具对HDFS 进行访问和处理,实现与其他业务系统的衔接[5]。
在搭建人工智能大数据平台时,需要选择适合的融合框架来实现不同业务系统的集成和交互。 以下是常用的几种融合框架:
第一,Apache Hadoop。 Hadoop 是一个开源的分布式计算框架,可以存储和处理大规模数据,并支持多种不同类型的应用程序。 Hadoop 包括HDFS、MapReduce 和YARN 三个组件,可以与其他业务系统进行集成和交互。第二,Apache Spark。 Spark 是一个快速、通用、可扩展的大数据处理框架,支持多种数据处理和机器学习算法。Spark 可以与Hadoop 集成,也可以作为独立的框架进行使用。 第三,Apache Flink。 Flink 是一个分布式流处理框架,支持高效的数据流处理和复杂的批处理任务。 Flink可以与Hadoop、Kafka 等系统进行集成,也可以作为独立的框架进行使用。 第四,TensorFlow。 TensorFlow 是一个开源的人工智能框架,可以进行深度学习和神经网络模型的训练和推理。 TensorFlow 可以与Hadoop、Spark 等系统进行集成,也可以作为独立的框架进行使用。 第五,Kubernetes。 Kubernetes 是一个开源的容器编排系统,可以管理容器化应用程序的部署、扩展和维护。 Kubernetes 可以与Hadoop、Spark 等系统进行集成,也可以作为独立的框架进行使用[6]。
在人工智能大数据平台的搭建中,加强数据共享管理可以更好地实现数据资源的共享和利用,提高数据的使用效率和价值。 常用的方法有:第一,数据分类管理。 根据数据的类型、来源和安全等级等因素进行分类管理,确保敏感数据得到保护,同时方便合法用户进行数据的访问和使用。 第二,权限控制。 通过权限控制机制,对不同用户或组织进行权限分配,确保只有合法用户才能访问和使用数据,避免数据泄露和滥用。 第三,数据共享协议。 制定数据共享协议,明确数据的共享范围、目的和方式等内容,避免数据被滥用或用于非法目的。 第四,数据安全保护。加强数据的安全保护措施,采用数据加密、备份等技术,确保数据的安全性和可靠性。 第五,数据监测和审查。 对数据进行监测和审查,及时发现和处理数据异常情况,保障数据的完整性和准确性。
为了更好地满足各专业系统用户的需求,可以通过调研获得各专业用户关注的关键业务流程和数据,并针对这些数据定制访问界面,突出展示关键信息,同时简化其他相关数据的呈现。 这样可以达到“呈现即关键,关键即呈现”的目的,提升用户使用体验和效率。 如图1 所示,是人工智能大数据平台的信息和通信监测模块。
图1 人工智能大数据平台通信监控模块图
在人工智能大数据平台中,加强运行监控管理也是非常重要的。 可以设置信息和通信监测模块,对网络设备进行全面监测和管理,包括资产账目数据、网络故障数据、设备操作数据、桌面管控数据等。 此外,还可以通过平台上的短信、声光等多种报警方式,及时向用户发出警报,解决由于人员巡视时间过长造成的意外警报无法及时发出的问题。
在人工智能大数据平台的搭建中,数据安全管理是非常重要的。 为了加强数据安全管理,可以采取技术和管理手段相结合的方法,实现对数据资源的有效保护。 常用的方法有技术手段和管理手段,技术手段包括采用数据加密、备份、恢复、防火墙、入侵检测等技术,保障数据的安全性和可靠性。 同时,还可以通过设置访问控制、身份认证等技术,确保只有合法用户可以访问和使用数据。 管理手段指的是通过制定安全策略、流程和规范,加强对数据安全管理的监督和管理。 例如,制定数据备份和恢复的流程,定期进行数据备份和恢复测试,避免数据丢失或损坏;制定数据访问控制的规范,明确数据的访问权限和使用规则,避免数据泄露和滥用。
为了提高各专业经营系统的效率和管理水平,可以采用横向和纵向对比的方法,发现相关经营系统存在的问题,并为企业的改革和发展提供依据。 在信息与通信领域中,安全指标是非常重要的。 例如,在电力系统和其他企业进行信息安全对比和评价时,“弱密码”事件的频度是一个重要的指标。 通过对台式设备系统和设备的安全程度进行监控和维护,可以避免弱口令等安全问题的发生。可以通过人工智能平台对弱口令进行实时监控,及时发现并解决弱口令事件,如图2 所示。
图2 通信监控模块弱口令视图
通过大数据分析技术,可以对弱口令告警模块进行详尽的数据收集和分析,通过对该平台的数据分析,发现2016 年共出现64 个弱密码事件[7]。 从这一点可以看出,弱密码事件的出现与台式机终端故障的处理之间有某种关系。 随后,研究人员对运维人员处理桌面终端问题的情况进行了调查,结果表明,弱口令问题的产生是由于运维人员操作存在问题造成的,占弱口令问题总数的71.86%,如图3 所示。
图3 弱口令问题分布图
同时,还可以依据有关规定,抽取台式机控制系统中的数据,重点对管理员和访客的密码强度问题进行深入研究,并对台式机控制系统中的报警信号进行分析。 这样可以加强专业指标管控,提高系统的安全性和可靠性,确保各专业经营系统的高效运行。
人工智能大数据平台是当前信息技术领域的重要发展方向,具有广泛的应用前景和深远的影响力。 在各个领域中,人工智能大数据平台都可以发挥重要作用,实现数据的实时监测、分析和优化,提高系统的效率和可靠性,降低成本,提高客户满意度。 研究人员应该积极探索和应用,同时也需要加强对人工智能大数据平台风险和问题的研究和管理,实现科技与社会的和谐发展。