不存在没有价值的数据

2018-03-29 09:30
第一财经 2018年10期
关键词:海量结构化数据挖掘

C=CBNweekly M=Doug Merritt

企业越发看重对商业数据的分析,开始接受以云、大数据得到分析即服务的模式,但企业面对众多数据时不知道自己想要什么,或者自己想要的能否从海量数据中获得。因为缺乏挖掘数据价值的能力,相当多的数据即便被生产、收集,还是白白浪费掉了。在Splunk总裁兼CEO Doug Merritt看来,如何利用这些数据,从中提取价值,才是企业要关心的问题。

C:数据行业面临最紧要的问题是什么?

M:一家IT公司有着众多数据,它们来自服务器、防火墙、网络以及移动App等产生的各种机器数据,但它们要么是非结构化的、要么结构化程度非常低。非结构数据的数量在极度膨胀,且种类越来越多,随着IoT物联网的发展,又增加了许多新的来源。这个行业遇到的一个挑战是,需要在海量数据中提取结构以及意义。最被关心的是,如何从数据中获取价值,获取深度分析,获取行动力以及智能。现在有很多数据集,却没有产生价值。很多公司没办法理解海量数据。在全球范围内,用户对于私有云和公有云有着明确区分。75%的数据在自己的防火墙内,是第三方看不见的,其余25%是分享的。大部分人还是不愿意分享他们主要的数据。大家都想把控所有的数据,如何以一种经济上可以承受的方式,建立合理的流程来存储所有数据是另一个挑战。

C:那么如何在海量数据中获得价值呢?

M:没有意义和价值的数据是不存在的。我们会从别人觉得没有用的垃圾数据中寻找价值。举例来说,很多人认为日志文件(记录在软硬件运行时发生的事件的文件)是一种没有用的数据,倘若我们能从中提取意义,就可以解决很多有意思的问题。比如按日志文件回溯,解决IT运营系统中宕机时间的问题,让IT系统保持稳定和良好的性能。对企业而言,想要成功,需要的不止是平台,而是解决方案。所以我们的出发点要非常窄。譬如解决生产中的问题,就一定要实时地上传数据,这样才能及时作出判断。

C:如何理解你所说的“以一种经济上可以承受的方 式”?

M:一般来说,就是有效地计算存储数据,以提升存储、处理数据的能力。无论结构化数据还是非结构化数据,随着时间不断增长,其价值也随之改变,因此有热数据、温数据和冷数据之分。热数据对企业非常重要,可以帮助决策、获取洞见,其价值主要是在7天以内,发现安全或生产线上的问题。7天之后,数据会慢慢“冷却”,主要用于分析,不再立即应用在运营上。我们会把变温变冷的数据,转移到下一个数据层级,往后面走的层级,对于性能要求没有那么高,数据存储成本也会更低。也就是说不要贪心,而是要把数据做价值区分,这对所有的行业都适用。

C:商业数据分析会产生无数细分领域的公司,还是有一个包罗万象的巨无霸公司?

M:会是一个生态系统。遵循这样一个策略,即帮助公司解決具体的问题,提供解决方案,比如个人识别信息,可能有一些公司专门做这样的应用,同时数据平台的扩展性会越来越好,而且使用便利。以我们的平台为例,就已经有1500多个解决方案,对接全球各家公司。

C:在数据挖掘领域,人工智能、深度学习会有哪些作用?

M:数据领域正在真正走向机器学习、人工智能以及深度学习这3个非常重要的领域。已经有一些可视化的机器学习工具包投入使用,用户通过拖拽、点击就能够完成数据操作。机器学习更是嵌入数据挖掘工具本身,让这些应用可以有更高的有效性。比如,用一款数据安全产品甄别不好的用户行为,就可以通过机器学习来做。可以通过寻找规律来甄别安全威胁是来自于内部,还是来自于外部,这些都可以基于机器学习来完成。(采访:高松)

猜你喜欢
海量结构化数据挖掘
一种傅里叶域海量数据高速谱聚类方法
促进知识结构化的主题式复习初探
结构化面试方法在研究生复试中的应用
海量快递垃圾正在“围城”——“绿色快递”势在必行
基于并行计算的大数据挖掘在电网中的应用
一个图形所蕴含的“海量”巧题
一种基于Hadoop的大数据挖掘云服务及应用
基于图模型的通用半结构化数据检索
基于软信息的结构化转换
基于GPGPU的离散数据挖掘研究