唐俊林
(贵州师范大学大数据与计算机科学学院贵州贵阳 550001)
大数据是指通过传统技术手段难以有效获取、存储、管理和分析能力的数据集。国际数据公司用四个维度的特征来定义大数据,即数据集的规模、数据流动的速度、数据类型的多少和数据价值的大小[1]来进行判别。
大数据概念的提出催生了大量新技术的提出与发展,目前,大数据涉及到的关键技术主要包括:大数据采集技术、大数据预处理技术、大数据存储与管理技术、大数据安全技术和大数据挖掘技术,其中,大数据挖掘技术是技术的最终需求,是大数据主要的目的,通过数据挖掘技术,可以对被监控对象进行预测、估计与健康管理。
基于大数据技术的广泛适用性,许多国家已经将其与人工智能技术一起提升到国家战略层面。中国、美国、英国,德国和日本等国家都相继提出了想过政策来支持对大数据技术的研究和应用。
目前,大数据技术发展迅猛,相关技术已经应用在能源、教育、科研、制造、金融、电子政务、企业经营管理、信息管理等领域,为这些领域赋能与变革[2]。
工业物联网顾名思义是指将工业生产中涉及的设备、已服役的产品等进行数据的采集与管理。其中数据的管理一般是远程的形式,包括设备的运行状态监控以及设备历史数据的处理。设备长时间运行所捕获到的大量数据正是工厂分析产能,获取设备故障率、产品合格率等信息的来源。大量的数据,即工业大数据需要借助大数据技术进行采集、存储、预处理、分析、挖掘等。这些数据一方面需要用专业的平台来存储、分析和展现,另一方面要通过数据驱动技术,实现对设备的故障预测、健康诊断和优化等。
潍柴公司利用工业大数据技术实现了工程机械的定位和远程监控服务,包括工作时长计算、故障预警等服务;上海隧道工程公司与北方重工公司通过与高校合作均实现了盾构机掘进过程中的故障预警;美的集团建立了空调生产车间的DigitalTwin,可以对设备状态实时监控。此外,工业大数据还可应用于对钢铁和风电等行业的设备监控和能耗分析等。
随着移动互联网的发展,人们在手机上的耗时越来越多,购物平台,资讯平台、音乐与视频平台等层出不穷。以购物为例,人们在挑选商品的时候,实则是为消费数据填空,在下次登录时该应用终端都会推送类似的事物。这就是大数据的作用,一旦采集到用户在购物、新闻、搜索、音视频等平台的使用数据,通过挖掘技术就可以得出用户的“画像”,可以推断出用户的性格,年龄,消费等级等信息。
大数据可以分析出的数据包括人口属性、资产情况、兴趣特征、消费特征、位置特征、常驻城市等。
大数据的分析和挖掘技术的运用可以在一定程度上帮助医疗行业提高生产力,改进护理水平,增强竞争力。表现在:
(1)利用大数据技术可以将各种疾病进行分类总结,形成专家库,从而提高医务人员的效率,降低病人的看病成本和身体损害;
(2)利用大数据还可以实现医生对病人的远程监控,从而减少病人的住院,省时省地,实现医疗资源的最优化配置。
生态系统涉及到的数据囊括了大气、海洋、土壤、植被等生态数据;数据构成上多样复杂,庞大,分析起来不便,借助大数据技术进行存储和分析就可以满足需求[3]。
以人们感受颇多的天气预报为例,目前气象观测己经由过去相对的标准、预测范围笼统发展到如今海量的非常规观测,观测精度和定义指标也日益提高[4]。黄刚等分析了大气科学数据的特点,构建了一套新的大气科学数据的分析和可视化系统,并提出数据处理算法与数据分析系统结合的可行方案[5]。
大数据在教育中的应用主要体现在适应性教学、教学规律发现以及校园信息化管理三个方面。
Learnsprout系统能够对备战高考的学术进行评价,对存在问题的学生进行早期干预,以辅助学术发现问题及时更改,取得了很好的效果[5]。
目前,深度学习已经图像分类、语音识别和自然语言理解中得到了广泛应用,并已初步市场化。随着计算机硬件计算能力的提升以及人们对事物精确程度的要求,大数据技术的应用越来越向多样化数据融合的方向发展,中国综合分析达到更精准的效果。
数据的采集是极为繁重的一件事,不同行业公司都有自己专属的一些数据,这些数据的分享必将加速大数据的应用。目前开放平台和开源平台受到了百度、腾讯、阿里和科大讯飞等公司的推崇,而且这种趋势似乎可能会持续下去。开源平台趋势也将改进大数据处理的方式。
边缘计算可以减少企业的网络数据流量,提高性能,节省云计算成本。此外,边缘计算还可以加快分析过程,使决策者能够比以前更快地采取行动。也是大数据技术发展的一个趋势。
本文首先对大数据技术的概念与关键技术进行了阐述,并以案例的形式对大数据在工业、用户画像、医疗、教育、生态环境等方面的应用进行了阐述。最后通过对关键技术的分析得出了大数据技术由单一分析转向多样融合分析,由数据封闭转向开源、共享以及由云计算转向边缘计算的趋势。