刘军华
(西安财经大学 统计学院,陕西 西安 710100)
快速发展的大数据正呈现出模块化粗线条的范式特征及学科雏形,其作为科学演变的基础形态和主要工具已经获得认可,而实践模式、底层逻辑、科学视角是三个不同的观察维度,前两方面的进展显著,但现阶段大数据仅具有某些场景下的特定价值,不具备一般时空的稳定性与普遍性,应用评价也依赖实践验证而非理论确认,其发展总体处于初期的技术创新应用阶段[1]。虽然部分研究认为大数据发展不需要理论的认知观点[2],而缺乏理论基础的大数据只具有离散的技术工具性价值,在大数据演变趋向复杂的态势下,技术与理论的协同成为系统性科学价值聚变的重要因素,理论滞后技术不仅是其现状的客观存在,也由此成为不可忽视的科学缺陷。
理论缺陷是大数据发展初期的阶段性产物和标志,其对大数据总体发展过程的宏观影响及科学内涵演变的具体价值值得关注,由此理论需求、内涵影响、目标分析成为研究大数据科学演变的现实前提。
技术、思维、理论、思想是认识发展的不同阶段与高度,在经历初期的野蛮生长后,技术的有效性、实践的丰富性、数据思维的普遍性是大数据10年发展的显性成果,虽然有限的发展过程表明大数据技术所产生的商业价值是显著的,但不能因此混淆技术与科学的差异,更不能以技术的有效性替代科学的普遍性,在技术与科学之间,理论不可缺少。而在大数据发展转型中,作为必要载体和范式条件,理论已经成为大数据从技术自发走向科学自觉的基础需求;另一方面大数据现有的内涵构成与驱动能力尚不足以承载其步入即将开启的信息社会,而理论作为科学内涵的关键单元与发展成果的典型标志,其重要的结构性组成与功能性价值亦成为大数据科学发展的本质需求。从发展转型的基础需要到科学的本质需求,理论进化已经成为当前环境下大数据发展的现实选择。
在大数据泛化的态势下,大数据理论进化目标主要包括,首先是对近10年渐进式演变积累的数据思维、技术工具、认知能力、经验模式等成果梳理总结为典型方法与稳定范式,在此基础上进一步将其凝结上升到学科理论,为大数据科学提供底层基础架构和学科样本;其次在中国大数据产业加速发展态势下,对其广泛丰富应用的技术效用和实践价值的理论确认与科学解释成为其主要任务;最后对大数据科学框架以及理论来源、科学内涵分析和学科演变趋势的探索;以上这些构成现阶段大数据理论进化的主要目标与任务,而基于理论构建、完善、成熟的长期性、系统性、复杂性,理论进化也成为大数据科学突破的痛点和难点。
在5G、物联网(LOT)、人工智能(AI)等因素多重驱动下,数据的生产技术与效率快速提升,大数据发展正向深度社会化、专业化推进,实践需求下的阶段性过程总结与理论探索成为大数据技术迭代和科学深化的重要方式,而对大数据理论进化演变的信息基础、方式、内涵、动能分析成为研究框架的主要内容。
大数据是企业、组织或者个人活动的社会行为数据化结果,但在数据生成方面由于个人动机与组织行为目的性以及人性弱点、市场因素、舆论导向等方面的动态博弈可能导致数据属性的改变具有某种随机性。而物联网发展,大量“僵尸号”与人为和机器操纵用户账号的信息生态下,“杂音”与“噪声”成为其不可避免的非主流存在,这些成为大数据信息属性的机理来源。
大数据作为社会博弈的信息化工具与载体,其价值确立的前提是多维、客观的数据存在与形态,而实践中数据层面的信息缺陷无法回避,成为大数据属性分析的重要因素,例如“网民不够用了”的大数据乱象绝非只是个别现象而更可能成为一种长期现状。需要关注的是在大数据产业发展与数据资产化背景下演变趋势的市场性,如果忽略这些属性后面深层逻辑必然步入由此导致的数据陷阱,这样的大数据可能造成误判、误导[3]。因此,生态性动态逻辑不仅增加了数据分布复杂程度,更加剧了数据处理的难度和研究结果的某种不确定性。这种生态特征可能成为某些企业或者机构逆向操纵大数据的温床,沦为网络黑产的幕后逻辑。因此在大数据成为社会基础架构的情势下,数据随机性是其理论进化的信息基础,数据分布中随机与确定性的信息均衡状态是界定数据性质的关键因素之一,随机和确定对大数据应用与研究都可能产生某种程度的干扰和偏离,而信息过速加剧外部社会博弈产生的过度随机与不确定性是大数据理论进化复杂的主要因素。
大数据应用从碎片化、个案式、技术工具起步,在数据化趋势下正向纵深、系统化演变,其价值递增的前提在于数据融合,融合过程主要从行业性的垂直大数据开始,实践则必须建构于生态性系统之上的业务闭环模式,这只是大数据深度发展的关键一步,更重要的是在此基础上业态创新从场景式向全景化转变,而在此驱动下大数据应用丰富拓展基础上,数据交汇下的学科融合与方法博弈成为大数据理论进化的主要方式。从无人驾驶到智慧城市,多种全景式应用下的系统决策与提升技术效率和效益成为新需求,而此驱动下的相关学科方法深度融合复杂博弈才能适应新的社会场景[4]。从技术案例应用开始到实践复用性确认进而从工具性应用向方法模式化转变再到理论指引下的科学发展是大数据实践演变的基本过程。从场景化应用到行业性垂直生态下闭环模式再到全景式系统数据平台综合应用是大数据创新推进的必然逻辑,而此过程下的数据、学科融合与思维、方法博弈成为大数据理论进化的主要方式。
大数据在于将数据信息转换成文字语言,基于数据形态实现科学认知,其最终目的在于获取有价值的信息情报与知识发现。相关性认知逻辑在大数据时代似乎具备明显优势,但复杂的系统决策需要更清晰的因果链接来提供足够的确定性,而确定性来源于数据性质、方法逻辑和研究模式的持续性与稳定性或相似性。大数据形态与性质的复杂不仅使其具备奇异的信息特质,提升认知能力的同时也让其过程复杂化。而认知探索从线性向非线性拓展中高维数据也造成噪声积累以及伪相关衍生环境下,微观线性因果与宏观非线性相关的认知逻辑博弈以及局部大数据与总体小数据的多维博弈,成为主要形态[5],其博弈范畴不仅涉及数据层面的信息博弈,还包括处理过程中技术、算法以及研究层面的方法博弈,所有这些构成理论进化中的博弈主体与类型。
作为全新的认知禀赋,大数据基于特殊属性给出某种定量性分析和信息表达,这对于认知探索是显著的能力与优势,而量化研究中不论统计学还是大数据,数据的性质与质量是决定范式是否成立与有效的基础,因此,对数据性质与信息状态的全面认知是大数据研究的前提,基于此属性下的随机与确定性的信息博弈成为理论进化的基础形态,而随机与确定性的博弈类型和均衡水平呈现的状态分布则是大数据价值科学构成的关键,其与数据社会分布中的外部孤岛化常态与内部缺陷性生态共同成为推动大数据演变的内在机理和外部条件,而多种博弈形成红利中的创新机会和外溢风险构成其理论进化研究的主要科学内涵。
大数据的发展过程经历了从概念炒作到价值质疑和技术引领的转变,概念式的浅表商业应用已经无法适应目前的数据环境,社会需求也逐渐从普遍的可视化信息辅助向专业的数据驱动和复杂数据决策演变,随着数据产品的规模化与成熟化发展,实践方式从技术性向系统性转变。从技术案例到服务项目再到数据产品,社会性数据需求已经不限于可视化下的间接信息供给而是成熟数据产品以及稳定的数据决策能力和效率,应用模式从早期技术工具向通用性社会基础设施演变,而在垂直行业大数据、自数据生态化下的丰富场景应用将成为主要的实践领域和应用热点。
基于信息化后发优势和数据规模、市场空间因素,中国大数据经过10年的积淀,获得一定发展优势,但在基础理论、核心技术方面与国际前沿仍有相当差距。从演变过程观察,其能力与价值从商业抽象化向科学具体化转变正在加速,单一技术推动下的模式变革只是大数据发展的初期阶段所能获取的科学外壳,而推动大数据从商业化简单应用向专业性社会化发展,不论产业升级还是基础设施以及业务创新都需要科学内涵下的技术理论协同支持,应建构在核心技术和成熟理论之上。
从新技术、新产业到新设施,大数据正在推动社会快速发展,而从技术支撑向科学赋能转变中催生的强劲内涵需求成为大数据理论进化的根本动力,此过程中核心技术、专业人才、基础研究等方面高质量发展的科学供给需求成为大数据理论进化的主要动能来源。
在万物互联全景智慧的社会图景构建中,需求导向下的应用创新升级对推动科学发展的影响是系统而复杂的,基于学科分布现状与个体分析其理论进化中融合博弈下的机会、风险以及结果趋向的洞察与选择成为基本形态,而统计学因其典型性成为研究大数据理论进化的重要因素,其在基于数据形态损益衍生维度和后果下的融合博弈过程中为二者发展提供了某种空间和机会,同时由于认知逻辑创新性与科学稳定性需求之间的差异与矛盾也衍生了需要关注和规避的问题与风险,而基于机会与风险研究对全面认知大数据理论进化及其科学内涵具有特殊意义。
基于融合博弈下的学科演变不仅是大数据理论进化的自然形态也是其学科框架的基础,此趋势下的丰富场景应用成为理论发展的主要空间,而大数据理论化的关键则取决于融合趋势下博弈的强度和结果,涉及学科分布及态势演变。任何一门科学都是在现有学科基础上与新技术交汇中建构特定的专业领域,从概念到技术,从应用到产业,从专业到学科,大数据在不同维度共同演进,理论性元素的集结与丰富,促使其学科独立趋势增强。
大数据学科演变呈现出从单学科向多学科、跨学科到“超学科”发展态势,其目标在于为实现不同来源、类型、性质的数据多维对话提供方法工具、理论基础。大数据的来源学科包括数学、计算机、统计学、信息学等,在实践过程中数学处于深度基础,信息学位于应用前端,从大数据的学科现状和态势观察,其核心学科主要包括计算机科学、统计学和第三应用学科,由于大数据技术的主要来源在于计算机科学范畴,因此计算机是大数据演变的重要支撑学科,其主要的角色内涵在于提供技术工具,如软件编程、数据建模的数据处理等。第三应用学科是大数据实践的主要方向和领域,如医学、天文学、金融、生物科学等,这些决定了大数据实践空间的广度和深度。统计学作为大数据方法论的关键学科,是大数据演变发展的主要思想来源和理论依托[6]。而学科形态是最直接的理论标签,大数据的学科现状正如“数据科学与大数据技术”专业名称那样处于技术与科学并行时期,无论从实践形态、学科分布还是学科性质分析所有这些都处于计算机与统计学两个高度相关一级学科结构下,在工学和理学性质下延伸已成为大数据理论发展的纵深主分布,在复合学科下向其它应用学科边缘拓展成为其横向次分布,这不仅是对大数据相关学科演变过程与现状的总结,也成为其后续理论发展的基础架构[7]。
1.普遍机会
美国科学院院士C.R.Rao的经典论断“在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学”。而在从深度信息化走向虚拟智慧世界的进程中,所有的一切都是数据。统计学在数据方法上的技术性滞后并不意味着必然被取代,统计思想的不可替代性与大数据趋势不可抗拒是数据化生态下同一种性质的存在。在学科是理论进化的基础维度和重要载体,大数据作为主流研究范式和统计学作为传统方法工具的情况下,在广泛的创新实践中,二者碰撞后的融合博弈催生新的认知空间,第三方应用学科因此获得系统性成长,这些都是大数据下助推科学发展的普遍机会。
2.特有机会
相对于系统性的普遍机会,统计学与大数据融合博弈中共同的特有机会分布更具科学意义。随着统计学大数据博弈的常态化与深入二者博弈的动机在于现阶段统计学与大数据方法的科学性差异,显然统计学方法的科学性是确定的,但在数据处理技术上明显滞后,而大数据方法,虽然在数据技术方面具备显著优势,但方法的科学稳定性却饱受质疑。而两者实践中的交叉性冲突与结构性需求在增加了博弈强度的同时也提供了彼此成长的空间。首先,由于存在学科渊源关系,统计学因大数据而改变,在提升数据技术、拓展统计理论方法应用空间,提供新的社会测度工具和统计框架的同时,作为其直系学科,统计学必然在大数据理论进化中扮演特殊角色并获取优先发展的进化机会;其次,统计思想的支撑,成为大数据快速成长的基础,进而逐渐丰富其科学内涵。从历史与科学共有的维度观察二者融合博弈的目标在于取长补短而非数据裹挟与学科碾压,可能的趋势在于一定范围内相互补充和验证以弥补复杂研究的认知缺陷,构建良性博弈循环融合发展共同进化;其三,在方向选择上,说大数据的主要方向在于统计学无法解决的研究领域,才是大数据探索的重点;最后,在后信息化时代的科学发展方面,统计学作为底层的科学架构,大数据提供基础燃料,二者的深度融合必然推动人工智能发展。所有这些是二者共同的特有机会。
大数据时代统计学困境在于数据获取与处理方面局限性传统因素,而大数据面临的却是数据日趋复杂性问题,还有基于数据处理差异衍生的研究结果不确定的科学性评估。统计学的短板是数据采集与处理技术问题,大数据的突出问题则是数据处理后对研究过程中的方法选择与结果可靠性确认;统计学的科学性来源在于数据检查机制保证其方法的有效性,大数据的不确定在于数据性质及其有效性核查的复杂性;统计学缺陷是数据来源与准确性影响研究水平问题,大数据除此外还可能面临研究结果不确定性甚至系统性数据偏差导致的无效与错误。不同的数据选择导致不同的研究结果,泛滥的数据不仅增加处理成本和技术难度也有可能造成研究过程中的过度识别等复杂后果[3]。而基于数据复杂性衍生的方法选择问题及其结果的确认与评估成为大数据研究中的主要风险类型。
1.方法风险
目前的数据环境下,不论统计学还是大数据方法研究,样本量增加是一个明显的共有趋势,从统计学小样本到大样本再到大数据所谓的全样本演变过程,标志着量化研究数据环境的变迁。这一趋势是对统计学抽样中认为样本量增加到足够大时能排除数据噪声潜在假设的增强[8]。但这种趋势在提升认知强度的同时也增加了研究层面的方法风险,主要在于其方法有效性的科学前提是能够规避和处理样本误差和样本偏差式数据现象的技术难题[9],这是统计学积累的宝贵经验。而此种风险的存在也正是大数据时代数据分析日趋复杂化的缘由,这包含两个方面,一方面大数据体量的增大与高维在可能弥补甚至矫正统计学中幸存者偏差(Survivorship bias)的同时,高维复杂的众多数据却也可能导致辛普森悖论(Simpson's Paradox),而不加选择的大数据面临辛普森悖论的几率更高[10];另一方面,基于多种原因很多研究和应用中采用了更多的数据和更复杂的算法模型,结果基于其自身的属性特征以及研究范式对数据数量的需求,但过多的数据与非必要性复杂化分析叠加可能过度拟合,也让有关研究过程沦为数据游戏[11]。而这两种因素的演变则让大数据研究在获取更多机会的同时也面临类似的方法风险。
2.认知风险
随着数据信息、方法因素在大数据中的演化,统计学小数据时代的样本聚集与样本偏差的数据形态在大数据范畴下更为复杂,这是大数据不容回避的问题,而能否识别与排除类似误区是另外一个重要问题。需要关注的是目标数据的分布状态,即数据形态和研究对象的同分布与非同分布性质成为决定研究方向与质量及其价值的重要因素[12]。由此导致相同方法不同结果成为大数据研究常态,而生态性动态逻辑数据环境下正如微软研究者Kate Crawford认为那样,大数据信息分布层面的系统偏差可能让其研究结果构建一个颇具诱惑力的假象,最终成为认知陷阱的潜在来源,如何洞察和规避在这方面大数据还有很多东西需要探索与积累[9]。大数据的崛起在于提供了新的认知方式,但得到的结果究竟是表象还是真相则需要甄别,而假象、误区甚至陷阱也可能是结果之一,在这些选项中只有洞察真相才是唯一的目标,因此大数据研究过程中克服数据偏见和预防数据陷阱,即识别与规避认知风险是其重要一环。
中国大数据的发展过程是从技术与商业机会的发掘中获取市场价值,对机会的攫取多于风险的关注,而未来则需要在理论进化方面重视其风险问题。大数据经过10年积淀后,初期的资源性原始认知不足技术的双面性不仅在提升生产力效率的同时也衍生了信息焦虑以及更多的社会风险,科学认知中需要对其社会发展的赋能和阴影投射、传播与反馈同等重视。在对大数据理论进化框架的基础、方式、内涵、动能的审视以及学科等相关要素的融合、博弈、嬗变中寻找方向和机会是科学发展的常态。而现有实践中更多的是关注或者强调其商业价值与工具有效性,忽略了其广泛科学性与非传统安全性,但是在数据、算法、算力三种的分合演变中,算力的快速增长是显著的,数据的复杂性却令人担忧,三者聚合效应导致大数据复杂不确定性超越传统认知的现状下,风险与机会成为大数据不可分割的内涵主体,而对此观点的确认则成为后信息化时代大数据认知的新常态。
从数字化、信息化、全互联、虚拟到智慧的演进中,安全作为其脆弱的关键要素,不仅是技术服务的基础也成为价值构建的短板。而在对大数据从科学发展的催化到产业链条的延伸中,安全因素风险化趋势正在增强,其在创新发展同时也重塑社会价值链运行机制,这一切都基于机会和风险二位一体运行模式[13]。在共享与隐私两极化趋势下,与此相关的数据授权不当使用和黑客因素是大数据的重要风险来源;大数据是在2008年金融危机后才快速发展的。因此某种意义上大数据本身就是危机数据化的产物,而范式缺陷导致的认知错误与结果不确定性只是科学范围内的可识与可控性问题,与此不同而更需要关注的是大数据研究前沿科学风险外溢。由于相关伦理、法律、监管的滞后,基于社会复杂性投射大数据实践创新面临超越现有管理体系、触碰禁区以及失控等问题,对此方面的管理滞后甚至缺位势必导致新的风险空间,数据非常规跨界融合的加剧也产生无法量化的非典型新生风险。而大数据在动态算法所建构某种实践逻辑下的数据化态势,这种态势的社会化扩散与病毒式传播必然积聚各种现实危机,由此导致数据驱动下的认知混乱甚至迷失以及风险蔓延至社会安全与政治等多个方面。2018年3月19日,Facebook剑桥分析(Cambridge Analytica)门事件爆发,其从信息平台获取数据、分析加工后向第三方开放或向特定目标精准信息投送是目前大数据研究应用实践的基本流程,其数据效应后果涉及到2016美国大选、英国脱欧等重大国际政治事件[14]。剑桥分析标志着大数据外溢风险正在从金融等经济行业向政治领域社会化深度演变。它意味着大数据前沿创新的风险已经超越科学边界进入敏感政治领域,由此引发的社会后果不仅复杂而且危险。在两年以后因为偶然因素才有整个事件的曝光,而对此类风险目前尚无法评估,因此大数据复杂演变趋势下,风险认知成为其科学发展的重要前提。
大数据风险演变、集聚爆发的严峻与复杂让风险管理进入大数据研究前沿领域并成为其理论内涵的重要组成,而对机会的发现、攫取和风险的识别与管控成为大数据的逻辑。在世界范围内,从内涵认知到思维能力,大数据风险管理实践总体滞后。对传统风险的管理防控,如果说数据技术、方法方面的完善与研究范式成熟是大数据理论进化的基本问题,而在技术发展超越现有监管体制规则的状况下,敏感领域大数据研究与重点平台管控及应用空间边界管理成为主体的话,那么基于此种生态下的商业、金融、舆情、社交等领域大数据逆向应用引发的非传统风险则成为大数据理论研究需要特别关注的重点问题。前一问题可以通过科学过程方法完善、范式成熟的累积逐步解决与规避,后一问题的复杂性已经超越科学范畴,则需要数据化系统思维下的超前预警管理与防控先导介入,而只有加强大数据国家战略安排以及相关专业人才培养与前沿理论、核心技术、政策与管理工具预先储备才能防患于未然。
10年来,中国大数据得到了巨大发展,但实践层面的技术依赖与商业势能下的市场化过度以及大众认知上技术迷雾影响可能让其偏离科学的自然进程。回溯中国大数据发展过程可以发现,技术基础多来自全球化内溢效应下的趋势收益,或者说大数据实践是建立在特定外部核心技术之上,虽然存在其发展过程中历史选择的短期必要性,却也给后续发展造成显著的长期不稳定性,受此影响中国大数据实践多停留在技术应用层面,而忽视发展内在逻辑及其后面的宏观演变态势,关键技术缺失和受制的科学短板成为国家社会发展的重大缺陷[15]。
而大数据技术与大数据科学是完全不同的概念,技术发展是单一领域实践经验的积累,科学则是对事物的系统性总结,与其对应的是全面研究和专业训练。如果技术的发展缺乏理论的规划与指引,技术就只能停留在简单应用层级,像目前的泡沫应用不仅迷惑大众甚至误导发展方向,而且深度的科学创新被延缓;而现状基础上从技术自发性应用到科学自觉式系统发展之间的漫长进化过程中理论是不可缺少的关键,如果满足和留恋技术性商业价值,忽视大数据理论进化,不仅导致中国大数据总体发展过程与结构失衡、内涵缺失、错失科学重大机遇,还有可能让其长期处于全球大数据产业链的底端,沦为信息社会原始的数据生产者和技术试验场[16]。以上两方面的原因很复杂,但是此种发展惯性与路径依赖需要警惕。
理论层面的大数据评估存在传统价值下的经验偏见、学科背景缺陷、客观性不足等现状问题。而作为主体的基础研究与理论前沿是大数据科学的关键构成,在实践超前与理论滞后的不对等状态下,不仅造成科学认知上的混乱,而且可能加剧实践中的技术“拿来主义”。正如统计学的理论基础是概率论,大数据发展同样需要专属理论的支撑和引导[4],而大数据理论进化对统计学的数据认知、处理技术、方法体系方面进行拓展与延伸的同时,也在学科范畴重新审视样本和总体等相关概念的定义与内涵,并在此基础上检视统计学经典方法的应用框架和适用前景,转变传统功能和发掘新的应用空间成为统计学的迫切任务[17],但是从深层本质而言大数据考验的不是统计学方法论,而是计算机技术和算法对大数据信息形态的适应性[18]。因此就大数据演变而言最为重要的是算法,而从信息基础、研究方法、认知方式、决策效率的实践过程梳理及基础理论研究中也必须关注算法问题,与之相关的开源与“拿来使用”是一种普遍做法,而开源只是商业需求下技术生态的基本环境,但开源的低门槛决定了其技术能力有限和发展稳健性的脆弱,而大数据的科学支撑则来源于独立的底层框架与特有的基础算法。在从统计计算到机器学习,再到深度学习的人工智能初级阶段在跨越数据统计思维与机械经验认知的演变过程中,无论统计学还是大数据,算法所涉及的不仅仅是技术迭代问题,更重要的是深度理论进化问题,二者协同、融合、聚变后的内涵突破成为未来大数据科学的关键。
实践层面经历首个10年,中国大数据在完成必要的积累和社会准备后,无论产业界还是高校和研究机构,大数据内涵与性质的转型升级已经成为刚需,过往“重技术轻理论”的自发性实践方能导致特有现状缺陷与历史后果,而改变发展惯性和路径依赖成为反思大数据发展与科学再平衡的基础。在国家体制与市场竞争成为主要动能来源下,基于大数据对科学生态的系统性影响,加强对大数据理论进化过程的国家干预,在政策导向上抑制实践中过剩的短期行为并平衡其过度的市场逐利性,在数据生态环境保持发展动能充沛与持续性,同时以体制因素优化大数据实践总体结构与形态分布向良性化演变,从历史与战略层面设计和规划大数据推进逻辑与国家路径,实现大数据理论的突破性进展,以此奠定国际大数据发展的中国位置。
需求驱动技术升级,市场催化应用创新,进而倒逼理论发展,推动整体进化是中国大数据10年演变的经验逻辑[19]。目前真正拥有数据能力和特权的只是少数巨头,而众多产业和行业是基于巨头技术溢出效应间接获取数据资源信息红利而非科学赋能,这是大数据价值变现的实践过程,而非科学发展的普遍模式。毫无疑问大数据是后信息化时代技术、产业、科学革命的介入点,正在为信息社会变革开启历史窗口,而目前大数据展现的价值也仅是冰山一角,透过统计学视角可以看到大数据科学化进程依然处于幼年期或者初始阶段[4]。让大数据成为强大的科学力量而非泛化的商业标签,从新兴的技术趋势与现象到严密的科学范式,再到理论完备的科学,大数据的自我进化也许才刚刚开始。而从技术到科学的大数据跨越中,基于现状下的理论进化不仅是一种发展方向更是一种科学化方式。
虽然大数据作为信息化系统演变的历史产物,其对科学发展的影响具备某种颠覆性质,但现实中的统计学焦虑和学术上的争议以及高等教育学科呼唤和新专业面世只是理论进化过程中不同的科学反应,其对传统学科的拓展与新学科的诞生具有强烈催化功能。信息化的飞跃让大数据可能拥有多维的科学空间,面对纷繁复杂的现状,对大数据的未来既无需夸张其技术与信息能力,也没必要质疑甚至否定其科学价值。要防止其异化发展,但是对大数据在理论进化过程中发现且获取良性的科学机会与认知洞悉其潜在风险的思辨同等重要。而对机会下的现有技术局限以及风险内涵的复杂性都要有充分的认识,理性的甄别确认与识别管理是现实的科学态度。在大数据科学演变中,基于人工智能与统计学、大数据的渊源关系,理论层面大数据的科学进展不仅会清晰统计学的未来空间,而且在某种程度上决定人工智能(AI)21世纪的路线图。