沈建苗
如今,你经常可以听到人工智能和机器学习方面的话题。杂志文章和电视广告纷纷报道这些技术有望带来变革。不过我们需要注意,人工智能和机器学习对数据存储有着几乎永不满足的要求。它们将耗用庞大的存储容量,同时要求极高的吞吐量。
国际数据公司(IDC)的最新报告显示,存储收入持续上涨,这对于力求提高销售额的存储供应商们来说是个好消息。但由于分析引擎与数据存储库相竞争,期望以分析引擎渴望的速度获取信息,存储行业的产能有可能达到极限。
DataDirect Networks公司的产品营销高级主管劳拉·谢泼德(Laura Shepard)说:“采用机器学习会很快给底层的数据访问和管理基础设施带来负担。机器学习的原型和第一代机器学习基础设施通常建立在现有企业存储的基础上,或者搭建基础设施的团队决定用白盒服务器,同时结合开源、自主开发和商用的工具和应用软件来自行搭建。”
因此,即使是最成功的机器学习计划也经常会遇到规模方面的问题。一般而言,人工智能,可以整合的数据越多,得到的结果就越好。这促使机器学习项目越来越庞大。
出现这种情况后,我们看到第一代基础设施开始不堪重负,出现规模扩展方面的失败,比如无法让用户以所需的速度来访问数据,无法扩大所处理的数据量以改进结果,无法在管理起来简单或经济高效的存储环境下扩展数据存储。謝泼德表示,任何一个这样的失败都可能让整个项目偏离正常轨道,因为如果你无法增加输入,或无法更进一步增加网络的深度,也就无法扩展输出。
机会找上门
但一个人的挑战是另一个人的机会。随着人工智能和机器学习日益得到采用,它势必会吸引越来越多渴望解决许多相关问题的初创公司。
IT Brand Pulse公司的高级分析师弗兰克·贝里(Frank Berry)说:“管理数据中心基础设施向来是个主动的过程,我们要走在业务需求的前头。机器学习有望通过自动化来提升存储性能、提高可用性服务级别、提高效率(每个存储单元需要更少的管理员)。”
Zadara Storage公司的营销副总裁凯文·利布尔(Kevin Liebl)进一步阐述了这个主题。他认为,人工智能会大大提高数据存储的自我管理性(想想自动驾驶的数据中心,就像自动驾驶的汽车那样)。
利布尔说:“自动化将大大增加管理员可以管理的服务器数量,从如今同类中最多可管理VMware环境中的大约500台服务器,增加到将来每个管理员可能管理20000台服务器,到时候服务器完全由分析技术和自动化服务器管理软件来监控和管理,这将使存储和管理更容易、更省时、更高效。”
他补充道:“存储是自动驾驶的数据中心的核心,因为所有的自动化都需要记录各种活动,这些活动当然会生成数据。由于云计算、移动技术、物联网、社交媒体和分析技术大行其道,将来生成的数据只会更庞大。这就是为什么总的数据存储量会继续每两年翻一番。”
利布尔说:“人工智能对存储行业的最大需求可能就在于需要存储管理功能,好让系统得以处理数据洪流。”
人工智能和机器学习的兴起很可能会影响存储行业,就像个人计算机当初重塑企业IT那样。就像PC从个人生产力应用软件发展到大规模企业数据库和自动化项目一样,人工智能和机器学习可能会从消费类功能演变成推动全球企业发展的全面的数据驱动项目。
Cloudian公司的首席执行官迈克尔·楚(Michael Tso)表示:“在今后的20年内,许多公司会演变成人工智能辅助的组织。到时候,数据将支持合作,机器收集信息,学会帮助人们做出实时决策,以满足客户的要求。”
已经有这方面的例子了。亚马逊等购物网站上的推荐引擎已经在使用这项技术。与之相仿,广告投放系统会基于网站访问量,更精准地投放广告。Cloudian还使用了将广告与每个司机和汽车相匹配的数字广告牌。
楚说:“对于存储行业来说,这意味着许多公司需要保留大量的非结构化数据来‘训练机器。一旦机器能自我学习,它们将收集并生成新的大量数据,这些数据需要存储、智能化标记和分析。”
许多专家提到了自动驾驶汽车。值得一提的是,自动驾驶汽车使用大量的传感器来“读取”环境,然后与精确的地图数据进行比较。
最后,再决定如何转向、刹车和加速。这增加了存储的复杂性。来自摄像头和雷达等传感器的数据以每秒几十GB的速度进入。所有数据都要经过压缩和处理。
摄像头和雷达收集的汽车在路面上的数据与高清(HD)地图数据进行比较。这是获得准确车辆位置信息的一个重要部分。这些高清地图堆叠在包括额外信息(比如车道标记、路缘和标志)的标准地图数据的上面。所有这些会带来几十GB的额外存储量,再乘以一辆车需要执行的动作数量,以及路上行驶的车辆数量,数据就会大得吓人。
此外,每辆汽车都要记录一些驾驶数据,并保存数天或数月,这取决于OEM和监管部门的要求。这很重要,因为即使这些数据上传到云端,本地拷贝也几乎肯定要保存起来。
相关的数据量仅仅是个开始,每辆车会生成数据,确保车辆安全、畅通行驶的系统也会生成数据。
各种人工智能和机器学习系统将访问这些数据,才能将信息变成实用的智能。这意味着存储系统会不断演变,以便能够以所需的速度存储、移动和处理数据。
StorageIO Group的分析师格雷格·舒尔茨(Greg Schulz)表示:“人工智能还可能导致几乎感觉不到有什么价值的现有数据拥有隐藏或未知的价值,只不过还没有被利用起来。”
存储方面的改进
人工智能不仅仅是一条单行道。不仅存储需要解决如何能够存储更多的数据、更快地处理数据、更快地将数据馈送给分析引擎,存储与人工智能之间还存在相互影响,即人工智能和机器学习将如何回报、如何改进存储技术。
舒尔茨说:“存在这种场景,人工智能和其他支持算法的分析技术可以用来帮助管理数据、存储,以及管理相关的数据基础设施资源。这意味着不仅仅局限于基本的分析,以及传统的基于策略的系统或软件管理。”
他预计,人工智能和分析技术对于额外的CPU处理和内存会有更高的要求,另外还需要将数据转换为信息的工具。
相关链接
人工智能(Artificial Intelligence),是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术和应用系统的一门新的技术科学。 人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以与人类智能相似的方式做出反应的智能机器。该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。
人工智能是对人的意识、思维的信息过程的模拟。人工智能不是人的智能,但能像人那样思考,也可能超过人的智能。人工智能是包括十分广泛的科学,它由不同的领域组成,如机器学习,计算机视觉等。总之,人工智能研究的一个主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。但不同的时代、不同的人对这种“复杂工作”的理解是不同的。
IDC预测,到2018年,全球近1/3的行业领导者将被全面执行数字化转型战略的竞争对手颠覆。“人工智能+行业”有助于催生新的商业模式。如今,人工智能技术已经在医疗、工业、农业、金融、商业、教育、政府、公共安全等行业初露锋芒。不同行业在人工智能的接受程度上存在差异。金融、零售、医疗和智慧城市这4个领域的人工智能技术的应用更为成熟。
IDC认为,未来两年,人工智能的发展将呈现以下三大趋势:人工智能产业分工日趋细化;越来越多的开源平台的出现将助力人工智能技术的发展;无论是高科技产品还是传统产品,都将嵌入人工智能技术。
人类正开始全面迈入人工智能时代,在不久的将来,我们将看到整个社会和经济水平由于人工智能的推动而发生巨大的变化。人工智能在带来变革的同时,自身也在快速演变。