管窥“暗数据”可视化的应用前景与隐忧*

2016-06-17 02:26邓小茹陈颖瑜
高校图书馆工作 2016年3期
关键词:可视化价值研究

●邓小茹 陈颖瑜

(广州医科大学 广州 510182)



管窥“暗数据”可视化的应用前景与隐忧*

●邓小茹陈颖瑜

(广州医科大学广州510182)

[摘要]文章通过对互联网上出现的新名词“暗数据”的引入,介绍其产生背景及在国内外的研究现状,并分别从数量与比例、质量和技术可行性3个方面进行探讨和提出构思观点,进一步剖析暗数据的可视化及价值释放,也对暗数据点亮后随之引发的法务或其他风险,提出了个人的建议与看法。参考文献10。

[关键词]暗数据可视化潜在价值合理开发法务风险

1引言

伴随着大数据和云时代的来临,呈现在我们面前的是数之不尽而又挥之不去的非结构化数据和半结构化数据。为了更好地利用无尽的信息资源,人们开发了包括云计算在内的不少新技术,对数据进行专业的标引加工和分析处理,笔者对此不一一赘述。显然,这是为了通过进一步的深加工,洞察并揭示数据背后所带来的潜在价值,实现信息的现实增值。反之,数据则会处于黑暗的非揭示状态,正如物体的亮面与暗面一样并存着。因而,伴随着大数据的进一步细分,按照其利用率和揭示深度,学术界引入了一个新名词——“暗数据”(Dark data)。

目前,对于“暗数据”这个崭新的名字,学术界尚处于研究的萌芽状态,因此,其概念和范围等界定尚在热议当中。国内普遍认可的是美国权威的IT研究与顾问咨询公司Gartner公司对“暗数据”的定义:“企业在开展正常业务活动期间采集、处理和存储,但通常无法用于其它目的(如分析、商业关系和直接获利)的信息。”[1]笔者认为,可以将它看作是大数据的子集,凡是存储(无论是否感知其存在)但目前尚未开发使用的数据,我们都把它归类为“暗数据”。也可以理解为,无论我们是否觉察,或许已经拥有这些数据有些时日了,只不过到现在,它得到了一个新颖的术语称谓罢了。

2研究现状

近期,国内外的众多学者纷纷探讨大数据的利用率和揭示深度,为今后逐步掀开“暗数据”的神秘盖头拉开了序幕。在理论探讨方面,我国著名学者吴建中先生2015年2月22日在他个人的新浪博客中,论述了他对暗数据的理解并作出了简要的前景分析,他明确指出:国际知名的开放出版机构生物医学中心(BioMed Central,简称BMC)与全球最大搜索引擎谷歌(Google),分别于2008年或其后,各自致力于药物开发或科技领域的暗数据研究;从2012年开始,美国众多企业都在信息发布或微信等媒体上透露将关注暗数据信息[2]。

网络辞典“水滴学堂”,率先尝试对“暗数据”的定义、特征和应用场景给予了简单的揭示,它认为:“‘暗数据’是深藏于海量数据之中、在商业应用上可能发挥重大作用的关键隐含数据。”[3]它更强调“暗数据”的作用和影响力。并且,它与吴建中先生不谋而合,都不约而同地把“暗数据”比喻成宇宙中的暗物质,比起已知事物,它的存在数量更大,但是至今的潜在价值尚不明确,对其本身知之甚少,只能预测对未来产生一定推动或阻碍的可能性,也能为用户提供更多、更广泛的机遇。

而在实践研究方面,务实的IT业界内,目前只有为数不多的企业,包括惠普公司(HP),美国慷孚系统公司(CommVault System, Inc)等,正致力于研究和推广点亮“暗数据”的信息治理策略研究和智能归档解决方案[4-5]。

笔者通过查找中国知网(CNKI)中心站的期刊全文数据库,维普资讯的期刊全文数据库,以及万方数据平台的期刊全文数据库进行文献调研,使用“暗数据”或“dark data”作为检索入口词,不限定检索年限,对所有检索入口均进行了检索。截止到2015年6月30日,均未发现以暗数据作为主要研究对象的相关研究文献。

3出路初探

在大数据中,暗数据所占的比例有多高呢?一个全球性的组织——合规管理监督委员会(Compliance, Governance and Oversight Counsel, 简称CGOC)在2013年进行的一项调查研究结果显示:“在企业存储的数据中,69%的数据对企业毫无价值。”[6]而且,根据预测,伴随着大数据量的不断攀升,暗数据所占的比例有可能进一步上升。吴建中先生在其个人读书博客中,则明确表示:“据有关统计,在企业创造的数据中,其可用的平均为10%,而90%左右为暗数据。”[7]这就意味着,开发者需要投入一定的经费资金来存储、管理和保护这些在比例上占据着主导地位的暗数据,可目前还没有得到合理开发,也暂未产生任何现实价值,甚至可能还隐藏着各类未知风险的高比例信息资源,详见图1。

图1 大数据中各类型数据及其比例分布图

从另一方面考虑,在不知道其内涵价值的情况下,传统的保守方法是直接销毁暗数据[8]。笔者认为,这是比较冒险的。我们应该看到,暗数据本身具备一定的潜在价值及转化潜力。日常零散的事务性数据,可能对价值分析没有太大的影响和冲击,但是,当它们汇集为一定规模的数据集合时,尤其是目前暗数据所占据的主导地位,对其进行分析与揭示,对于用户的潜在使用习惯和需求分析可能会带来有帮助的暗示或对业务决策的指引。可见,暗数据并不是单纯给存储、维护和管理造成高成本,而不会创造价值的无用品。确定其准确性、时效性、真实价值及其高低,是目前实现暗数据可视化面临的主要挑战。

可见,暗数据无论是对于开发者,还是对于使用者,都是一把“双刃剑”。但是,从现实的角度出发,双方都达成了高度统一的美好目标,就是适度点亮“暗数据”,让它为我们释放出所期望的利用价值。这是我们长期共同关注和热切期待解决的问题。有鉴于此,笔者分别从数量与比例、质量和技术可行性3个方面,提出一些粗浅的观点与构想,详见表1。

表1 实现“暗数据”可视化的几点构想

4关注隐忧

对每个不同的用户而言,具备的潜在利用价值越高,而所需承担的连带风险越低,这是相当理想的转化状态。相应地,这种类型的暗数据资源的再开发成本也相对较低。不过,现实中,相当一部分暗数据的可视化之路并不是理想中的那样一路坦途。

4.1潜在价值难于估算

如前所述,全面地分析调用暗数据,在技术层面和成本核算上,也不太实际。人们面临的现实问题就是,不确定暗数据的潜在价值,也就很难估算对其进行激活的投入额度高低,因而,容易造成信息固化的恶性循环,这也是再次陷入难于点亮“暗数据”,释放其真实价值困境的又一次真实写照。

4.2连带法务或其他风险

风险与价值往往是并存的。若在暗数据的可视化过程当中,涉及到机构或个人的知识产权、专利保护、商业机密、信息泄密,甚至是涉及国家安全和军事机密的信息,可能会引发法律法规或是政治军事等敏感问题。因而,对于“暗数据”的可视化与见光化,大部分的资源开发者都采取了相对慎重,甚至是保守的态度,尽可能规避由此而引发的一系列不必要的麻烦与纠纷。笔者认为,这也是“暗数据”与“大数据”同步产生,但却迟迟未被呈现在世人面前,并缺乏广泛热议的主要原因之一。

5展望

人们对大数据的高度关注,也引发了对其主体部分——“暗数据”的进一步研究和探讨。或许这并不是一个新兴事物,在得到人们垂青的之前,就已经默默地存在并发挥着它应有的影响和作用,正如宇宙的暗物质一样。在人们需要越来越多可靠数据作支撑的信息时代,暗数据是否隐含着人们所期待的预期价值,如何合理、高效的进行点亮,释放出来的真实价值高低如何,怎样更好地规避连带产生的法务或其他风险,隐私性暗数据如何实现永久性或特定时效性的安全保护等等……这一系列问题折射出,它给人们带来越来越多对信息的洞察挖掘潜力和决策判断潜力的高度寄望。

伴随着大数据的爆炸性激增,暗数据能否迎来它被广泛关注和深度研究的“春天”?人们的愿景往往都是美好的,或许,正如吴建中先生所言:“谁抓住了这一机遇,谁就抓住了打开通向未来之门的钥匙。”[9]这就需要在今后一步一个脚印,不断攻破各种技术难关,克服重重的研究障碍,期望未来与美国权威的IT研究与顾问咨询公司Gartner公司高级副总裁兼全球研究负责人Peter Sondergaard先生所预测的一样:“展望未来,大数据超越了我们所能看到的。你需要了解如何处理混合数据,这意味着结构化和非结构化的数据混合,并且需要了解如何照亮‘暗数据’。暗数据是指收集的数据,尽管有价值但尚未使用过。未来领先的组织将因其预测算法的质量而独树一帜。这是CIO的挑战,也是机会。”[10]

参考文献

[1]Gartner IT Glossary. Dark Data [EB/OL]. http://www.gartner.com/it-glossary/dark-data. [2015-02-21].

[2][7][9]吴建中. 暗数据[EB/OL]. http://blog.sina.com.cn/s/blog_53586b810102vgky.html. [2015-03-21].

[3]水滴学堂. 【词条】暗数据(Dark Data)[EB/OL]. http://shuidixuetang.com/article/15678. [2015-03-21].

[4]HP Technology. HP Technology at Work: 您拥有暗数据[EB/OL]. http://www8.hp.com/h30458/cn/zh/smb/1392833.html.[2015-03-21].

[5][6]郭涛. 点亮“暗数据”的五种方式[EB/OL]. http://www.ciw.com.cn/h/2562/404273-17604.html. [2015-03-21].

[8]Leo Li. 大数据还是小数据?我们有选择吗?(二)[EB/OL]. https://community.emc.com/docs/DOC-40571. [2015-03-21].

[10]The Economic Times. 4.4 million IT jobs creation globally to support big data by 2015: Gartner[EB/OL]. http://articles.economictimes.indiatimes.com/2012-10-23/news/34680272_1_big-data-global-economy-gartner. [2015-03-21].

(宋小华编发)

Discussion about the Application and Potential Concerns of Dark Data Visualization

Deng Xiaoru Chen Yingyu

(Guangzhou Medical University, Guangzhou, Guangdong 510182, China)

AbstractBased on the introduction of a new conception"dark data" from internet, the authors described its civil and foreign research status along with its concern. Furthermore, analyzed its visualization and the released value respectively from the number and proportion, the quality and technical feasibility and made some advice and opinions for the legal risk or other risks of dark data. 10 refs.

KeywordsDark data. Visualization. Potential value. Rational development. Legal risk.

[中图法分类号]G250.7

[文献标识码]A

[文章编号]1003-7845(2016)03-0003-03

[作者简介]邓小茹,陈颖瑜,副研究馆员,现在广州医科大学图书馆工作。

[收稿日期]2015-09-06

*本文系广东省文化厅、广东图书馆学会2012年联合资助项目“医药高校移动图书馆建设研究”(GDTK1219)研究成果之一。

【大数据与微应用专栏】

猜你喜欢
可视化价值研究
基于CiteSpace的足三里穴研究可视化分析
FMS与YBT相关性的实证研究
思维可视化
辽代千人邑研究述论
基于CGAL和OpenGL的海底地形三维可视化
视错觉在平面设计中的应用与研究
“融评”:党媒评论的可视化创新
EMA伺服控制系统研究
一粒米的价值
“给”的价值