金 丽
(辽宁建筑职业学院,辽宁 辽阳 111000)
大数据及其面临的技术挑战分析
金 丽
(辽宁建筑职业学院,辽宁 辽阳 111000)
大数据正在改变人们生活的各个方面。从大数据中挖掘价值需要经历数据获取、信息提取和清理、数据集成、建模和分析、解释和部署等多个步骤。目前,许多关于大数据的讨论只关注一两个步骤,而忽略了其余部分。大数据研究面临的挑战很多,从数据的异构性、不一致性和不完备性、及时性、隐私性、可视化和协作性,到围绕大数据的工具生态系统。文章对大数据及其面临的技术挑战进行分析,以期能更好地挖掘大数据中蕴含的潜在价值。
大数据;数据分析;技术挑战
在广泛的应用领域,数据正以前所未有的规模被收集。前数据时代决策生成往往是基于猜测,或精心制作的现实模型;而在大数据时代,决策者可以利用数据驱动的数学模型。大数据分析几乎推动了社会的各个方面,包括移动服务、零售、制造业、金融服务、生命科学和物理科学[1]。大数据分析是一个迭代过程,每个过程都有各自的挑战,本研究考虑端到端的大数据生命周期,首先分析大数据发展的基本现状,再着重分析大数据分析的5个阶段,以及存在于每个阶段中的具体挑战。
科学研究领域已经被大数据彻底改变了。以前,天文学家的重要工作是从天空取得图像数据,“斯隆数字天空调查”收集并存储了大量的太空数据,而天文学家的任务是在数据库中找到有趣的事物或现象。在生物科学中的一项共识是将科学数据存入公共存储库,并建立公共数据库供其他科学家使用。此外,随着技术的进步,特别是随着下一代测序(Next Generation Sequencing,NGS),可用实验数据集的大小与数量将呈指数级增加,而这种增加的速度将远远大于摩尔定律提供的计算机性能的提高。甚至要想存储它们在现在看来都已经变得不切实际,而只能将生成的数据形成序列后实时处理成有效的结论数据再保存。
在科学研究之外,大数据也具有革命性的潜力。Google公司在Google文件系统、地图规约以及随后的开源系统Hadoop上所做的工作,极大地推动大数据技术的发展和应用,并集中体现在互联网公司中,如Facebook,LinkedIn,Microsoft,Quantcast,Twitter和Yahoo,它们已经成为从Web搜索到内容推荐和计算广告等应用的基础。其他有说服力的应用还有医疗大数据、城市规划、智能交通、环境建模、节能、智能材料、机器翻译自然语言之间、教育、计算社会科学、金融风险分析、国土安全和计算机安全等[2]。
截至2016年,企业和用户存储的新数据超过100 EB(1 EB=103 PB=106 TB=109 GB)字节。据麦肯锡最近的一份报告,全球个人定位数据的潜在价值估计为7 000亿美元,这可能导致产品开发和组装成本下降50%。麦肯锡预测,大数据在就业方面同样会产生巨大影响,美国需要140 000~190 000名具有深度分析经验的员工,而这一数字在中国超过100万。
虽然大数据的潜在好处是真实显著的,并且已经取得了一些初步的成功,但要充分发挥这一潜力,仍有许多技术上的挑战必须突破。当然,巨大的数据量是一个重大的挑战,也是最容易识别的。行业分析公司指出,不仅在数量上,在数据多样性和传输速度上都存在挑战。多样性指的是数据类型、表示和语义解释的异质性。速度包括数据传输速率和反应时间窗两个方面。另外,数据的准确性和可用性等问题也同时存在。
大数据的处理和分析是一个迭代的过程,我们称之为数据分析通道,总体可以分成5个阶段,每个处理阶段都存在一些特殊的和共性的挑战。许多研究人员只关注分析/建模这一步骤,期望能抽象出一个数学表达形式来获取并描述数据中蕴含的所有价值,但随着数据量的增大和数据耦合度的增加,模型的参数和维度将迅速增加,而且有材料证明数据分析通道的其他阶段发挥越来越重要的作用。对信息的获取来源于数据本身,因此,我们必须从数据是有价值的、并且可能以我们无法完全预料到的方式的角度来记录数据,以及如何从非完全、碎片式的数据中最大限度地获取价值。这对跟踪出处、处理不确定性和错误的要求就提高了[3]。当同种信息以重复和重叠的方式出现时,我们必须开发相应的统计技术来应对诸如数据集成和实体/关系抽取等挑战,这可能是有效利用多源数据的关键。随着大数据处理领域不断细分,诸如此类的问题逐渐呈现。
大数据不是凭空产生的,而是对某些潜在活动的记录。考虑我们对周围世界的感知,从老年人的心率到空气质量元素,以及网站上用户的活动记录或事件日志。传感器、仿真和科学实验都可以产生大量的数据。例如,一平方公里成建制的望远镜阵列每天产生高达数万TB字节的原始数据。
其中大部分原始数据是冗余的,即可以通过过滤压缩掉好几个数量级,而不影响我们提取出其中的价值。另外原始数据往往过于庞大,甚至不能先存储[4]。这便带来了一个挑战,如何定义和设计有效的“在线”滤波器?另外,由于传感器的测量误差,当一个传感器读数与其余的读数相差很大时,可能是传感器出现了故障,但也有可能是发现了新的现象,我们该如何取舍?
此外,大体量数据集的加载往往是一个挑战,特别是当与在线过滤和数据规约相结合时。此时,相对于载入全部数据,有效的增量摄取技术可能更合适。对于有些应用来说,这些可能还不够,必须设计有效的实时处理方法。
数据收集时采用的格式一般不能直接用于数据分析。相反,我们需要一个信息提取过程,从底层数据中提取所需的信息,并以结构化的形式表达出来,再进行有效的分析。正确而全面地完成信息的提取是一项持续的技术挑战。通常,这类提取方法不是通用的,而是高度依赖于应用。比如,用医疗图像提取方法来提取太空图片中的信息,结果与预期会有很大的偏差。在做信息提取时,需要声明并精确地指定信息提取任务,也就是对算法的提取结果有正向的反馈来训练算法,然后再用以处理新数据。
多数数据源都是不可靠的,其中原因包括传感器可能有故障、可能经过人类有偏见的处理过程、通过远程网络传输的数据可能会被污染等。深入理解误差源并对其进行建模是实施数据清理面临的第一层挑战。而现状是,这些误差大部分来自数据源和所依赖的应用程序[5]。
有效的大规模分析常常需要从多个源收集异构数据。例如,要全方位获得一个(病)人的健康数据,需要综合分析医疗健康记录、居住环境数据以及其他一些生活数据,如血糖仪、心率、加速度计等。不同来源的数据在数据结构和语义上具有异质性,而它们又同时具有满足分析需求的潜在价值,因此,设计数据转换和集成工具让这些异质性数据在某种意义上获得统一性就成了一项重要的挑战。
即使仅仅对于一个数据集的简单分析,通常也有许多不同的方法来存储同质信息,每个方案都包含某些权衡。例如,尽管生物信息学数据库结构如此巨大多样,其中数据信息背后的实体基本相似,如基因。数据库设计是一门艺术,由高薪专业人员在企业环境中精心执行。但我们必须保证相关专业人士,如该领域的科学家参与创造有效的数据存储,毕竟最终使用数据库的是这些专业人士,建造华丽而不实用的数据库是不可取的。
大数据的查询和挖掘方法与传统的小样本统计分析方法有本质的区别。大数据往往是嘈杂的、动态的、异构的、相互关联的、可信的。然而,即使是嘈杂的大数据可能比小样本更重要,统计结果已经显示,大数据频繁模式和关联分析的结果通常会取代直观结论,挖掘出隐藏的、更可靠的模式和知识。由此带来的直接挑战就是,如何通过适当的统计处理方法,从海量数据中分析出较好的结果。
决策者最终必须要对分析的结果提供一种解释,通常包括检查所有的假设和回溯分析。此外,还有许多可能的错误来源:计算机系统可能有缺陷、建立的模型不可避免地有假设、结果可能基于错误的数据。由于所有这些原因,负责任的用户盲目相信计算机系统,相反,用户会试图理解和验证计算机所产生的结果,而计算机系统必须为验证提供便利。由于大数据的复杂性,这尤其成了一种挑战。数据记录背后常常有重要的假设,分析验证必须要涉及多个步骤以及其背后的假设。简言之,仅仅提供结果是不够的,还必须向用户提供解释分析结果的能力,并使用不同的假设、参数或数据集重复分析,以更好地支撑决策过程和社会环境变化[6]。
我们已经进入了一个大数据时代,许多行业的决策越来越依赖一个数据驱动的决策模型,核心业务依赖于不断完善的大量数据分析。然而大数据的分析在其各个阶段都存在着一些挑战待解决,本文详述了数据分析的步骤以及在这些步骤中面临的关键技术挑战,积极地发展技术,应对这些挑战能更好地挖掘大数据中蕴含的潜在价值。
[1] 赵国栋,易欢欢,糜万军,等.大数据时代的历史机遇:产业变革与数据科学[M].北京:清华大学出版社,2013.
[2] 程学旗,靳小龙,杨婧,等.大数据技术进展与发展趋势[J].科技导报,2016(14):49-59.
[3] 施惠俊.基于云计算的海量语义信息并行推理方法研究[D].上海:上海交通大学,2012.
[4] 黄宜华.大数据机器学习系统研究进展机[J].大数据,2015(1):35-54.
[5] 徐宗本.数据分析与处理的共性基础与核心技术[C].兰州:第四届中国计算机学会(CCF)大数据学术会议,2016.
[6] 麦肯锡环球研究院.大数据:创新、竞争和生产力的下一个前沿[EB/OL].(2014-08-27)[2017-10-25].http://intl.ce.cn/specials/zxgjzh/201408/27/t20140827_3436534.shtml.
Analysis on the big data and the technical challenges faced
Jin Li
(Liaoning Jianzhu Vocational College, Liaoyang 111000, China)
The big data is changing all aspects of people’s lives. Mining valuable data from big data involves many steps, such as data acquisition, information extraction and cleaning, data integration, modeling and analysis, interpretation and deployment and so on. At present, many discussions about big data only focus on one or two steps, while ignoring the rest. There are many challenges in big data research, from data heterogeneity, inconsistency and incompleteness, timeliness, privacy, visualization and collaboration, to the tools ecosystem around big data. This paper analyzes the big data and the technical challenges faced, in order to better mining the potential value of big data.
big data; data analysis; technical challenges
金丽(1981— ),女,辽宁辽阳人,讲师,硕士;研究方向:计算机软件应用。