大数据应用及新时期所面临的挑战研究

2020-12-11 13:27:18王兴宏
青岛大学学报(自然科学版) 2020年3期
关键词:挑战深度

王兴宏

(阜阳幼儿师范高等专科学校科学与健康系,阜阳236015)

由于许多新技术的突破,包括物联网[1-5],云计算[6-11]的激增,5G 网络的发展[12-19]以及智能设备[20]的普及,如今人们每天都以前所未有的速度从各种来源(例如卫生,政府,社交网络,营销,财务等)生成大量数据。另一方面,强大的系统和分布式应用程序正在支持新型的可并行连接的复杂系统(例如,智能电网系统[21]、医疗保健系统[22]、沃尔玛商业系统[23]及政府系统[24]等。在大数据革命之前,企业无法长时间存储所有存档,也无法有效地管理海量数据集。实际上,传统技术的存储容量有限,管理工具严格且价格昂贵,缺乏大数据环境所需的可伸缩性,灵活性等性能。实际上,大数据管理需要大量资源,新方法和强大技术。更准确地说,大数据需要清理,处理,分析,保护并提供对大规模演进数据集的细粒度访问。公司和行业越来越意识到,数据分析正日益成为提高竞争力,发现新见解以及提供个性化服务等的重要因素。由于可以从大数据中提取重要价值,因此很多国家都发起了关于大数据的重要研究项目。美国是抓住大数据机会的领导者之一。2012年3月,奥巴马政府启动了预算为2亿美元的大数据研究与开发计划。在日本,大数据开发已成为2012年7月国家技术战略的重要轴心[25]。联合国发表了一份题为《大数据促进发展:机遇与挑战》的报告,旨在概述有关大数据所面临的挑战及大数据如何为国际发展服务的主要问题。由于世界各地开展了众多不同的大数据项目,许多大数据模型、框架和新技术正不断被提出。同时,已经开发了新的解决方案以确保数据隐私和安全,与传统技术相比,此类解决方案提供了更大的灵活性,可扩展性和性能。另一方面,由于持续的技术进步,大多数硬件存储和处理解决方案的成本不断下降。鉴于大数据的重大利用价值和持续不断的技术突破,已经出现有许多关于大数据的在不同领域的应用,尽管如此,大数据的普及和广泛运用仍然面临极大的挑战,为此,本文总结了现今大数据的一些主要应用方面,就大数据所面临的主要挑战进行了分析,为大数据未来的应用指明了方向。

1 大数据定义

与传统数据不同,“大数据”一词指的是大型数据集,包括结构化、非结构化和半结构化数据。大数据性质复杂,需要强大的技术和先进的算法进行分析和处理。在大数据应用程序的情况下,传统的商业工具将不再有效。

大多数数据科学家和专家通过以下三个主要特征[26,27](称为3V)来定义大数据。

(1)数量(Volume):从数百万种设备和应用程序(智能手机,社交网络,传感器,日志等)连续不断生成大量数字数据。据估计,2012年每天产生约2.5 EB(艾字节,1艾字节等于2的60次方字节)。这个数量大约每40个月增加一倍。2013年,据国际数公司估计,全世界创建、复制和使用的总数字数据为4.4ZB(泽字节,1泽字节等于2的70次方字节),且每两年翻一倍。到2015年,数字数据增长到8ZB[28]。根据互联网数据中心(IDC)报告,2020年,数据量将达到40ZB[29]。按照两年翻一倍的指数增长速度,未来数据的产生将爆炸式增长。

(2)速度(Velocity):大数据要求数据生成速度快,能快速处理以提取有用的信息。例如,沃尔马(国际折扣零售连锁店)每小时从客户交易中生成超过2.5 PB(拍字节,1拍字节等于2的50次方字节)的数据。

(3)多样性(Variety):大数据应是从各种分布的来源生成的,格式多种多样(例如,视频,文档,注释,日志)。大型数据集由结构化和非结构化数据,公共或私有,本地或远程,共享或机密,完整或不完整等组成。

2015年,Gandomi等[30]指出可以通过添加更多的其他特征,来更好地定义大数据:设计目标、规范化、验证、价值、复杂性(基于数据关系在不断发展,组织和分析大数据变得非常困难)以及不变性(管理得当的情况下,收集和存储的大数据可以恒定不变)。

2 大数据应用

大数据发展迅速,现今已有很多关于大数据的应用被不断提出和实践,本节就大数据典型应用场景进行分析和讨论。

2.1 智能电网

实时管理国家电子耗电量并监控智能电网运行,这是通过智能电表,传感器,控制中心和其他基础设施之间的多个连接来实现的。大数据分析可帮助识别有风险的变压器,并检测所连接设备的异常行为。因此,网格实用程序可以选择最佳的处理方法或操作。生成的大数据的实时分析可以对事件场景进行建模,用于建立战略性的预防计划,以减少纠正成本。此外,能源预测分析有助于更好地管理电力需求负荷,计划资源,以达到最大化收益的目的[31]。

2.2 电子医疗

互联医疗平台已用于个性化医疗服务[32,33],医学数据取自不同的异构源:实验室的临床数据、从远程传感器上传的实时患者症状、医院运营情况、药品数据等。医学数据集的大数据分析价值深远[34-39],使个性化医疗服务成为可能。例如,医生可以监视在线患者的症状以调整处方,或者根据人群症状,疾病演变和其他参数调整公共卫生计划,这对优化医院运营和减少卫生费用支出方面做出了卓越的贡献[40]。

2.3 物联网

物联网是大数据应用的主要方面之一[41]。物联网数据对象种类繁多,其应用也在不断发展。如今,有各种支持物流企业的大数据应用程序。智慧城市也是物联网数据应用的热门研究领域[42]。例如,公司管理方面可以通过传感器,无线适配器和GPS跟踪车辆位置,挖掘和组合各种信息(包括过去的驾驶经验),此类大数据应用程序使公司不仅可以监督和管理员工,而且可以优化交货路线。

2.4 公共设施

供水、供热、燃气等公用基础设施公司在管道中放置传感器,用以监视复杂供水网络中的水流量。据媒体报道,班加罗尔供水和污水处理局正在实施实时监控系统检测泄漏、非法连接和远程控制阀门,以确保向城市的不同地区公平供水。这有助于减少对阀门操作员的需求,并及时识别和修复泄漏的水管。大数据在公共设施上的主要应用是实时收集有用的信息,并对可能出现的风险进行预测,改善人们的生活。

2.5 物流运输

大数据在企业物流方面有着很好的应用价值[43],许多公共道路运输企业正在使用RFID(射频识别)和GPS跟踪运输工具以探索有价值数据,用以改善当地的服务。例如,收集到的不同路线的公交车乘客人数数据,可以用来优化公交路线以及班次,此类实时系统可以为乘客提供更有价值的信息,如换乘路线以及换乘时间等。挖掘大数据还可以通过预测公共或专用网络的需求来帮助改善旅行业务。例如,在拥有全球最大铁路网络之一的印度,每天发出的预留座位总数约为25万,可以提前60天进行预约。对此类数据进行预测分析极其复杂,依赖于很多因素,如是否为周日、节日、夜行班次、起步站、中间站等。通过使用机器学习算法,可以对过去和新的大数据进行收集、挖掘和预测[44-50]。

2.6 政治服务和政府监控

大数据在政治服务领域也有很好的利用价值[51],例如,印度和美国等许多政府正在挖掘数据以监控政治趋势并分析民众情绪。此类应用结合了众多数据源:社交网络通信、个人采访以及选民组成等。这样的系统还能够检测国家问题以外的地方政府问题,政府可能会使用大数据分析来优化资源的分配,如可以将传感器放置在供水链的管道中,以监控大型网络中的水流量。

3 大数据应用在新时期面临的挑战

虽然大数据应用在新时期带来了许多新的机遇,但研究人员和数据处理专家在探索大数据集以及从此类信息挖掘中提取价值时面临着许多新的挑战,主要包括数据捕获、存储、搜索、共享、分析、管理和可视化等。此外,在大数据(尤其是在分布式数据驱动的大数据应用中)的分析和处理过程中存在安全和隐私问题。最后,尽管大数据的大小呈指数级增长,但当前处理和探索大数据集的技术能力仅处于相对较低的数据级别。本节将就其中较为主要的几个挑战进行分析和讨论。

3.1 大数据的管理

数据科学家在处理大数据时面临许多挑战。其一是如何在较少的硬件和软件需求的情况下,收集、集成和存储从分布式源生成的大量数据集。其二是大数据管理[52],良好的数据管理是大数据分析的基础,大数据管理的目标是确保可靠的数据易于访问、管理、正确存储和保护,高效的管理大数据通常可以提高大数据应用的易用性,减少大数据应用的使用成本。

3.2 大数据的清洗

为了获得可靠的分析结果,必须在使用资源之前验证源数据质量的可靠性。但是,数据源可能包含噪音,错误或不完整的数据。因此,大数据应用面临的另一个挑战是如何清除如此庞大的数据集,以及如何确定哪些数据可靠,哪些数据有用[53]。

3.3 大数据的聚合

大数据应用的另一个挑战是使外部数据源和分布式大数据平台(包括应用程序、存储库、传感器和网络等)内部基础架构同步。在大多数情况下,仅分析大数据应用内部生成的数据是不够的,为了提取更有意义的见解和知识并增加预测模型的强度,整合内部数据与外部数据源非常重要。外部数据可能包括有关市场波动的信息、天气预报和交通状况的信息、来自社交网络的数据及客户评论和公民反馈信息等。

3.4 大数据应用系统容量的不平衡

大数据应用面临的另一个挑战与计算机体系结构和容量有关。众所周知,遵循摩尔定律,CPU 的性能每18个月就会翻倍,而磁盘驱动器的性能也以相同的速度翻倍。但是,I/O(Input/Output,输入输出)性能增速缓慢[54]。这种不平衡的系统容量可能会减慢数据访问速度,并影响大数据应用程序的性能和可伸缩性。同时,系统访问网络资源速度慢于访问自身存储的速度,网络存储容量的增大也会降低系统性能。

3.5 大数据应用的可视化

可视化是指使用图形表示知识。以示意图方式提取信息对于数据分析非常有价值,但由于数据量的快速增长和数据之间复杂性的提高,在大多数大数据应用程序中进行可视化都有困难。现有的大数据可视化工具不能在功能、响应时间和可伸缩性方面均表现出理想的性能[55]。

3.6 大数据安全性

大数据分析中,安全性至关重要[56],并受到企业的广泛关注。在某些情况下,数据以极快的速度生成,及时识别恶意数据变得及其困难。现有的大多数安全技术都基于静态数据集,而实际应用中数据却在动态变化。为了确保应用的实时安全可靠性,传统的安全机制需结合大数据的新特性,例如数据模式和数据变化。对于复杂的大数据流的实时性要求,设计并实现一套安全性高且低时延的新安全机制,挑战性极大。

3.7 大数据实时性

大数据为各个行业带来了巨大的机遇和变革潜力,例如大数据分析使企业能够提取有价值的信息,并预测可能对业务产生正面或负面影响的运营模式。然而,大部分的大数据应用都需要实时分析,例如导航、社交网络、金融、生物医学、天文学、智能交通系统等。因此,需要先进的算法或有效的数据挖掘方法来实时监听各个领域的变化并预测未来的观察结果。虽然大数据分析技术多种多样,包括数据挖掘、统计分析以及机器学习等,但增加大数据对庞大的异构数据集的实时响应能力仍然具有挑战性。许多学者通过融合现有技术或者提出新技术来应对这一难题,推动了系统架构、硬件方向和软件方向的发展,但针对数据量庞大时如何保证响应的及时性和可靠性,仍有极大的挑战。

3.8 大数据深度学习方面的挑战

现如今,深度学习在机器学习和模式识别领域受到了广泛的关注,事实上,深度学习在诸如计算机视觉、语音识别和自然语言处理之类的预测分析应用中有很好的表现。传统的机器学习技术和特征工程算法在处理原始形式的自然数据的能力方面受到限制,而深度学习功能更强大,可以处理大型数据集的数据分析和学习问题,有助于自动从大量无监督和未分类的原始数据中提取复杂的数据表示形式。此外,由于深度学习基于分层学习并提取了不同级别的复杂数据抽象,因此适合简化大数据量的分析,对于语义索引、数据标记、信息检索以及诸如分类和预测之类的区分性任务,深度学习具有明显的优势,然而,这些优势远远不足于解决深度学习在大数据应用中面临的重大挑战,主要体现在以下方面:

(1)庞大的数据源:对于针对大数据的深度学习而言,数据训练绝非易事,由于深度学习算法的迭代计算很难并行化,创建高效且可扩展的并行算法以改善深度学习模型的数据训练速度,仍有非常大的挑战。

(2)数据复杂:大数据应用的输入输出数据种类繁多,数据维度高,这对深度学习提出了巨大挑战,因此,深度学习必须考虑系统复杂度和训练模型的复杂度。除此之外,如此大的数据量使得仅用单一中央处理器和存储器训练深度学习算法变得不可行。

(3)分类困难:大数据的来源繁多,数据分类面临数据不完整、缺少标签及标签繁杂等多方面的挑战。

(4)不稳定性:大数据应用中数据以极高的速度生成,数据会随时间或者其他因素变化,因此并不稳定,实时处理变得非常困难,

由于存在上述问题,深度学习解决方案仍需要进一步的发展,需要通过广泛的研究以优化分析结果。未来的研究工作应考虑如何改进深度学习算法,以解决实时数据分析、高维数据复杂性、模型可扩展性等问题。与此同时,还需要改善数据抽象的表述、分布式计算、语义索引、数据标记、信息检索等功能,以获得良好数据表示方法以及在更多领域的适用性。

4 结论

大数据作为当今热点研究领域之一,许多新的成果被不断提出,对人们的生活和工作产生了深远影响。本文对大数据的典型应用场景如智能电网、电子医疗、物联网、公共设施、物流运输等领域进行了研究和讨论,同时由于大数据本身具有结构复杂、数据量大、难以分析等独特性质,大数据应用在管理、聚合、清洗、可视化及安全性等方面正面临具大的挑战,未来大数据应用需针对这些挑战进行不断突破,同时,深度学习作为大数据未来的分析手段,大数据深度学习方面的挑战需受到更多的重视。

猜你喜欢
挑战深度
深度理解一元一次方程
我来挑战(二)
深度观察
深度观察
深度观察
深度观察
叽咕乐挑战
叽咕乐挑战
叽咕乐挑战
提升深度报道量与质
新闻传播(2015年10期)2015-07-18 11:05:40