克苏鲁式数据结构模型理论

2021-06-03 14:35
科技创新与应用 2021年15期
关键词:苏鲁数据结构参与者

薛 岩

(中国电力工程顾问集团华东电力设计院有限公司,上海 200000)

在“数字中国”“新基建”等理念的指导下,数据应用的广度和深度都显著增强。与此同时,5G 网络的应用,进一步保障了信息传递的时效性。在此次防疫工作中,“健康码”作为“数据”与“物联网”相结合的典型代表,体现了数据分析的辅助决策作用。

人们对数据信息关注的最终目的,是要突破技术上的局限性,在时间和空间上创造价值。在实践过程中,作者发现,想要快速有效地找寻精准信息,实属不易。鉴于此种情况,本文通过分析既有数据理论及其局限性,提出“克苏鲁式数据结构模型”理论,归纳其构成特征,以求对数据信息的利用更为高效。

1 既有数据理论模型及其局限性

自“大数据”[1]一词问世以来,其作者花费大量的篇幅阐述“大数据”的特征,简言之,即为“混杂”且“相关”的“全体数据”。继而,国际商业机器公司(International Business Machines Corporation,IBM)提出了受到业界认可的大数据“5V”特点。除此之外,其他关于数据的理论也层出不穷。以往大部分理论使用的模型,其数据来源明确、数据结构清晰且分类工整,但是,此类理想化的数据模型在实际生产生活中难以复制。人们如今所处的环境信息模式逐步演化为全方位覆盖型,其直接后果为:参与者需要花费大量时间精力,才可能获取对自身有利的些许信息。

2 克苏鲁[2]式数据结构模型及其特征

2.1 克苏鲁式数据结构模型

作者在此将庞大数据信息中模糊繁冗,且具有自身主观能动性的数据构成定义为“克苏鲁式数据结构模型(Cthulhu Data Structure Model,简称CDSM)”。克苏鲁式数据结构模型的构成相较于既有(理想化的)数据理论模型而言,可称之为“非典型”数据模型。作者之所以将该类数据结构模型命名为“克苏鲁式”,主要从以下几方面考虑其与数据的共通性:

(1)克苏鲁式数据结构模型源于目前人们对其形象普适的认可度。

(2)克苏鲁其象征意义为“水”,在几乎所有宗教文化中,“水”代表了能量,兼具创造与毁灭的特性。该特性如同数据一般——庞大、隐秘,载舟亦覆舟,参与者通常感到被其无形的力量包围,却又混沌其中,寻而不得。

(3)人们不能准确说明其为何物,却又(在其传递过程中)受其无形的控制,被其左右,而该力量又起着主导或辅助决策的作用,使参与者陷入一种“集体无意识”状态[3]。

(4)其触手形象的粘滞感,与数据间交错缠绕的关系相吻合。

(5)在错综复杂的数据信息中,每类信息却又如同触手般有着相对独立的分类,触手伸出的过程可看做是目标逐渐明确的过程,即取舍的过程。

(6)如同触手具有再生功能一样,数据同样具有再生、更新与迭代的能力。

(7)可根据环境及时作出调整,以适应不同的需求。具有强大的自适应能力,可发挥其主观能动的特性。

(8)具有分布式模块化母题[4]的单元模式,其母题可通过并行或次生单元无限发展与循环。

上述分析内容阐述了克苏鲁式数据结构模型理论的依据,概括了其主要特征,相较于既有数据模型理论而言,虽然在许多方面存在相似性,但CDSM 仍不乏自身特征属性,例如,该模型对数据的分类并不纯粹,自创建之初,其数据便具有生长、选择性取舍等特点。

2.2 克苏鲁式数据结构模型的构成特点

2.2.1 单体数据的非独立性和数据族群的关联性

此处“数据独立”的概念与信息技术(Information Technology,IT)行业术语中数据库构建的“独立”[5]概念有所不同。它既肯定单体数据自身的价值,也强调单体数据之间的关联、联动的特性;此外,单体数据以及由大量单体数据构成的数据族群之间的关系,也会由于量变而产生质变。单体数据在数据族群中充当着重要的角色。

2.2.2 数据与其载体间的虚实转换特性

数据非实体,它需要通过一定的载体才能呈现给数据信息的参与者。数据相对于其载体而言,为“虚”,这与中国传统的哲学思想不谋而合。在特定条件下,数据与其载体之间可以相互转换。例如,现阶段的建筑信息模型(Building Information Modeling,BIM)中,呈现给参与者的三维数字化模型为依附于其上的数据属性信息的载体;而为建筑实体而言,该模型又转化为数据。这一过程便是数据(虚)与载体(实)相互转化的过程,是虚拟与现实的结合。数据与载体的虚实转换,如图1 所示。

图1 数据与载体的虚实转换

2.2.3 数据的相对准确性

数据在产生、传递与使用过程中受人为因素影响较大。参与者又受限于自身素质、使用工具及现有技术条件等方面的影响,不可避免会产生误差与错误。此外,数据也同时受载体稳定性的影响,容易损坏或丢失。但是,数据本身并不存在错误一说。

2.2.4 数据的增减、更新迭代与规则的确定性

在生产实践中,鲜有事物存在毕其功于一役的情况,在面对与数据信息相关的内容时,更是如此。数据不断的更新迭代,甚至会出现新的类型及其族群。在此过程中,涉及数据信息的增减与修改,一旦数据出现变动,在反馈不及时的情况下,则可能形成混乱的局面。为避免上述情况的发生,在这一体系中,规则的制定就显得尤为重要。故在规则既定的情况下,数据主动或被动产生的变化,实为良性的螺旋上升前进的过程。

2.2.5 数据传递的多向性

数据的可传递性即为数据的流通性,很大程度上依赖于参与者对数据的分类与标记[6]。标记,主要是考虑数据在流通过程中对其可追踪的要求。参与者对流通数据的“实时性”“吞吐量”[7]提出了较高的要求,且其侧重点在于“分析流过系统的数据”[8],数据的价值便在于流通。一个阶段的完成,数据使命并未结束,而应高效地将已有数据运行至下游阶段。此外,数据在传递的过程中具有多向性,并不仅是自上而下的单一方向。

2.2.6 数据需求的多样性与数据取舍的目的性

在目前的实施阶段中,对于数据信息的选择、归类仍处于一个摸索阶段,在面对庞大的数据信息时,参与者在“大象无形”的状态下,甚至会发出“物联网没有数据”的感慨。正如全球都在“抖音(TikTok)”进行时,有多少内容是受众方真正需要的,而不是在大量的信息中迷失。为保证上述数据流通的顺利进行,其关键便是找寻与筛选“优质数据”,往往需要反复多轮地进行数据筛选,从而最终完成对数据的取舍工作。

以下便对数据取舍构成进行简要剖析:

(1)数据的选择。此过程在既定规则下对数据信息进行“类”的划分。该过程表现为不同“触手”的生长过程:在目标未确定时,混沌的状态蕴含各种可能。有目的、有差别地将所接受信息进行宏观的“类”的甄别筛选,分类与目标逐步清晰明朗。该过程为针对数据取舍进行的第一轮选择。

(2)数据的分离与剥离。较上一过程而言,该阶段对于数据的筛选更为谨慎,为第二轮选择。在数据整理的过程中,“删除”[9]是理想化的操作状态。但在实践过程中,往往通过“分离”与“剥离”对数据进行取舍,分离比剥离更为便宜。“分离”适用于数据对象之间关联性本就不大的情况。分离后,数据间牵扯的可能性较小,甚至可以达到相对独立的状态。但对于数据的“剥离”,则常常让操作者陷入难以取舍的境地,究其原因,主要有以下几点:

a.在实施剥离的过程中,针对数据取舍的规则尚未完全明确,受人为主观因素影响大,根据参与者的不同而产生偏差。

b.数据的剥离过程会产生一种粘滞感,数据间常常彼此相容,羁绊不清,这是由于数据本身属性(关联性)决定的。

数据取舍的实质就是对既有数据信息进行精简,是减法过程。相对于加法而言,减法的逻辑思维方式与过程,更为严谨与审慎。

(3)数据取舍目的与评判标准。作者认为,在目前的数据整理工作中,受多方(技术水平、人力、财力等)因素的限制,参与者首先要定义数据与数据族群的用途,并在整个过程中不断完善与调整,使目标逐步清晰明确。只有在这一思路的指导下,数据的甄别筛选工作才能更为有效的实施。

2.2.7 数据结构的模块化母题

数据结构的母题,为数据处理过程提供模块支持,如“太极”生出的“两仪”,或计算机二进制代码“0”“1”一般,可生出无限可能。与其将数据进行模块化母题的解构理解为分类的过程,不如说这是一个思路整理、数据分类的过程。这一过程中,将CDSM 进行类的分割与项的比较,在横向与纵向方面均有动作。将既有数据在多个维度进行分布式的划分[10-12],在数据整理,或进行数据并行搜索时,均可为使用者提供便利。

3 克苏鲁式数据结构模型

根据上述克苏鲁式数据结构的特征,归纳总结建立如图2 所示的结构模型。

图2 克苏鲁式数据结构模型

从其结构模型图中可以看出,数据及数据族群是整个模型的核心,确定目标以进行数据分类,将已归类数据进行处理,在此过程中往往伴随数据的更迭等内容,这一过程完成后,便可将处理好的数据应用于后续阶段。

4 结束语

在面对庞大数据信息时,采用克苏鲁式数据结构模型,为数据整理提供了一种新的思维方式与思考方法。参与者有意对数据信息进行多次逐轮的取舍,最终将分类条理、精简明确的数据信息流转[13]应用于后续工作中,提高生产效率。加之目前倡导的“数字孪生(Digital Twin)”[14]等概念,使得虚拟与现实的界限更为模糊。在这种情况下,CDSM 不失为一种有效的方法。

猜你喜欢
苏鲁数据结构参与者
移动群智感知中基于群组的参与者招募机制
休闲跑步参与者心理和行为相关性的研究进展
门限秘密分享中高效添加新参与者方案
新疆博州:成群北山羊雪中觅食嬉戏
不发糖的克苏鲁
数据结构线上线下混合教学模式探讨
为什么会有“数据结构”?
独特的暗黑体系 你可能并不了解的克苏鲁神话
高职高专数据结构教学改革探讨
海外侨领愿做“金丝带”“参与者”和“连心桥”