周子晴/上海大学文化遗产与信息管理学院
2012年,联合国发布的白皮书《大数据促发展:挑战与机遇》郑重宣告:“大数据时代已然降临,社会各个行业和各个领域将因大数据的介入而发生深刻改变。”[1]面对大数据的冲击,整个社会都发生颠覆性变革,数据成为国际社会的抢夺点和现代化生存的逻辑起点。2013年,维克托·迈尔-舍恩伯格(Viktor Mayer-Schonberger)和肯尼思·库克耶(Kenneth Cukier)在其著作《大数据时代》中,首次将“数据化”(datafication)作为一个有特定内涵的专业术语引入大众的视野。“所以我们姑且称其为‘数据化’吧——这是指一种把现象转变为可制表分析的量化形式的过程,数据化和数字化大相径庭”[2]。数据化旨在挖掘数字信息更复杂、更高级、更直观的存在形态和数据内涵价值。同样舍恩伯格也首次提出大数据技术催生了“数据化生存”这一论断,“明天,我们的下一代,一群被‘大数据观念’陶冶长大的家伙,会发自肺腑地认为‘量化一切’并从中学习对于社会是至关重要的”[3]。正如南京大学唐正东教授所言,“当今世界已经处在一个数据化生存的语境中,数据的中介使个体联系在一起,也使主客体世界延伸”[4]。因此与时俱进转变思维、提前布局寻求突破,方是明智之举。
截至2022年4月1日,笔者以主题为检索字段、以“档案AND数据化”为检索式,获得高度相关文献51篇,对其研读梳理,发现相关研究主要聚焦以下几点:一是对档案数据化的概念、内涵、特征和意义、建设困境和路径的阐释;二是比较档案数字化和档案数据化的侧重点,探讨二者演进关系,提出档案领域从数字化档案向数据化档案的转向;三是探索特定档案如人事档案、高校档案、非遗档案的数据化建设路径。档案数据化进程既有高歌猛进的一面,也呈现出档案部门一家之言、没有在大数据时代背景下考量档案数据化生存问题的态势。本文将铺叙从数字化生存到数据化生存的环境嬗变和时代背景,爬梳大数据时代档案数据化生存困境,力图寻求档案数据化生存的出路和突围之径。
2020年4月发布的《中共中央 国务院关于构建更加完善的要素市场化配置体制机制的意见》要求“加快培育市场要素,提升社会数据资源价值”[5]。档案部门应以资源优势为竞争内驱力,成为当今数据驱动型社会的积极参与者和建设者。因此,透析当代数据化生存的时代背景,厘清档案数据化生存的理论内涵就显得尤为重要。
一方面,信息方式的非结构化发展催生了数据化生存。随着人类对物质世界认知的纵深发展,物理学家对夸克等微小微粒的探索持续推进,微观物质世界的神秘面纱被逐步揭开。而人类对外部环境的认知也从信息层面发展到数据层面,更接近了“信息”的本质[6]。信息处理和传播方式经历了从附着在纸张上的图文形式到模拟信号的模拟时代,再到以0、1的计算机识别处理符号的数字时代,最后再向万物万联、时空关系被打破、数量庞大且不规则的非结构化和半结构化的数据时代演化。5G测试点遍地开花,2019年成为5G元年,视频流这一信息表达方式渐成主流,成为孕育数据化生存的沃土。
另一方面,计算机技术、云计算技术、电子媒介技术等现代化技术的发展和演进催生大数据时代的到来。计算机的出现带来了数字测量和存储设备,带来了计量和记录的革命,也使得通过数学分析挖掘数据的更大价值变成了可能,大大提高了数据化的效率[7]。以云计算为基础的信息存储、分享和挖掘手段,可以降低多变的终端数据存储、分析和计算的成本、误差以及时间,为其提供处理数据的手段和方法。大数据将一切数据化并储存起来以便随时进行量化分析,电子媒介技术为其提供技术支持。通过电子媒介,过去作为“人的延伸”的技术都会转变成“信息系统”,“将人类的意识迁移到电脑中去”,“给人的各种感觉编制程序,使之更接近于人的意识”[8]。互联网的普及和移动终端及第五代信息技术的快速发展,全面提升了互联网应用平台对个人数据的采集和处理能力,数据化生存时代悄然而至。
“数字化”和“数据化”议题密不可分,它们是不同的信息方式,前者是信息社会的技术前提,后者是信息社会的信息基础,二者缺一不可。数字化是把模拟数据变成计算机可读的、以0和1表现出来的数据,以比特的形式存在,和数据化有本质上的不同[9]。数据化关注的是信息内涵的剖析、信息内在价值的挖掘、信息发展规律的把控以及信息决策的预判,数据化是对数字化的拓展与深化以及更高形态,二者无法相互替代。
大数据技术、人工智能技术的发展极大地推动了社会“深度数据化”的进程。一般而言,数据化是近代自然科学的基本特征,但这里的“数据化”不再局限于科学意义上的数据化,特指人类行为和社会活动的数据化,即将社会行为转换成在线量化的数据,从而能够对它进行实时跟踪和预测分析[10]。我们也可将这种数据化称为社会数据化,其目的在于将人类行为和社会活动计算机数据化,通过数据挖掘和处理,创造新的价值,即将数据转换成新的价值形式[11]。关于数据化生存和档案数据化生存,目前学界尚无统一明晰的定义。因此基于以上理论基础,笔者将“档案数据化生存”定义为“以档案价值挖掘、满足档案受众需求和决策预判为宗旨,以数据思维为意识形态引领,将丰富多样的档案形态转换成数据态并对其进行操控、跟踪、关联性分析和处理以及风险管理的全过程”。
尼克·库尔德里(Nick Couldry)和尤利西斯·A.梅西亚斯(Ulises A. Mejias)在《连接的成本:数据是如何殖民人类生活并使其为资本主义所用的》一书中,重新定义了数字时代的数据殖民主义:“随着当前对数据的收集、处理和提取价值的普遍化,形成的一种新的促进经济增长的分配和掠夺世界资源的方式。”[12]利用数据技术对用户开展精准画像、控制社会舆论导向甚至操纵政治选举或外交决策已屡见不鲜,“2021年脸书封杀澳大利亚政府”事件、“哈萨克斯坦因天然气涨价问题出现大规模骚乱”事件、“英国脱欧”事件等背后暗含的资本逻辑和数据管控、体现的数据殖民本质给我们敲响了警钟,大多数国家由于无力反抗已在无形中沦为数据殖民地。档案部门作为不可或缺的数据管控者和数据治理参与者,数据主权安全风险成为大数据时代的重要议题。档案数据生成、采集与存储过程中面临过度采集利用、泄露或被窃取的风险,档案数据跨境管理和流动存在诸多风险,本国数据流失、情报泄露等隐患逐渐凸显,档案数据监管问题未有定论。此外如何推进档案数据治理、助力档案部门融入国家数据治理体系、建立新的国际秩序等,也需要探索。
习近平总书记指出:“数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力。”[13]互联网技术日新月异,数字经济时代悄然而至,数据的资产性特征日益凸显,数据逐步成为企业之间、企业和政府之间以及新一轮国际竞争中争夺的战略性资源和核心,与之相伴的数据资本化运作、数据资源被抢占等问题不断冲击现有的信息格局,大数据时代新的数字鸿沟由此产生。此外,政府与公民、企业与消费者之间因数据不对称而导致的隐性不公等问题日益严峻。大数据时代的数据革命、数据思维和数据文明,与人们的生存发展逻辑关联性较强。我国档案学发展过程本身就是一部技术变革史,然而在此轮与企业、政府和公民的数据博弈中,档案部门似乎并未占据制高点,技术匮乏带来的内驱力不足的问题亟待解决。一方面,档案馆原有的档案资源数字化程度还不够高,而各地的大数据中心建设正如火如荼,无数据可管或将成为未来档案部门数据化生存的最大威胁和挑战;另一方面,档案部门的技术、人员和资金支持等相较于其他数据掌控者稍显落后。
21世纪是大数据的时代,更是数据可视化的时代。这不仅因为各领域的专家学者都能利用数据可视化开展学术研究,也因为信息技术作为一种普遍的技能为大多数公众所掌握甚至精通,数据可视化越来越“亲民”[14]。数据可视化作为技术实现和艺术表达的综合结果,对数据进行分析、视觉呈现、传播、预测,辅助决策和记录居民日常生活。在媒介融合语境下,大众早已进入了“读图时代”,这标志着图像主因型文化取代了传统的语言主因型文化[15]。现如今短视频作为数据的最新呈现方式,抖音、快手、小红书等短视频社交媒体平台异军突起,重新形塑人类社会的交往方式和运行秩序。档案资源开发利用是档案工作重要环节,目前存在开发利用力度不强、覆盖面较窄、数据化成果匮乏等问题。青岛市档案局承担了国家档案局科技项目“大数据背景下档案信息资源挖掘策略与方法研究”,形成“数字图像+档案目录数据库”,成为推动档案数字化进程的重要举措,但档案的数据化开发、档案数据的图像、视频等可视化表达等仍处于起步阶段,且极具影响力的成果较为匮乏。
近年来,随着计算机和信息技术的发展,大数据挖掘正深刻地改变人类的生活。大量数据流与日益提升的算法分析和技术能力相结合,使人们能够利用基于机器学习的算法来解决复杂问题[16]。智能算法在一定程度上能克服人类决策的主观性,但也带来了算法时代数据化生存的深度疑虑:谁有能力和权力控制数据?谁在实际控制着数据?控制了数据意味着什么?这些问题背后隐藏着算法传播的兴趣偏向和浑然不觉的符号暴力,更复杂、更隐蔽的歧视带来了档案数据化生存的传播新困境。一方面,凯茜·奥尼尔在《数学毁灭武器:大数据增加不平等和威胁民主》中警告,算法存在着不透明、可扩展且不公平的特点,可能会把我们引入歧途,如强化针对穷人的歧视、强化种族主义和扩大不平等[17],而这与档案维护社会公平正义、消除种族歧视和各种不平等现象的初衷与使命相悖。另一方面,随着算法与资源分配深度融合,算法歧视进一步恶化了分配不公的情况。如商业算法运作中普遍推行“动态差异化定价”即杀熟等消费歧视,以及信息茧房等信息歧视,都让档案的网络化传播之路荆棘丛生。档案主动推送机制不成熟且起步较晚,当今平台为吸引用户以实现流量变现而打造的传播环境对于档案部门这类起步晚的新用户十分不利,因此档案较难实现个性化精准投送和互联网大范围传播。
在《大数据时代》一书中,舍恩伯格断言应树立大数据思维,指出“一旦思维转变过来,数据就能被巧妙地用来激发新产品和新型服务”。数据、技术和思维是大数据价值链的主要构成要素。大数据思维是其中的一个要素,可以直接创造价值,“所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案”[18]。对于档案工作者来说,树立大数据思维包括三个层次:第一层次需要认识到利用大数据技术可以解决许多档案问题,如实现档案的跨时空传播和共享,提供高质量、深层次的档案数据资源、数据服务和知识服务。此外,还需要充分认识档案数据化的必要性和重要性。第二层次意在认识大数据如何解决档案问题,如在思维方法上,传统思维方式以因果关系分析为主,大数据思维方式则转向相关关系分析,通过分析受众需求的关联性,实现档案从被动服务向主动推送的转变。第三层次需要树立关于档案大数据的反思和批判思维,实现从感性认知向理性分析的思维转变,剖析大数据背景下档案数字化建设误区,强调档案数字化不能代替档案数据化,并且避免档案大数据被过度炒作。档案数字化建设应以著录标引等标准化和规范化工作为基础,以推动档案数据化,进而创新档案服务模式[19]。因此档案工作者树立数据思维和创新思维,能打破原有的思维僵局,彰显想象力经济时代的大智慧。
数字人文是一种将数据化思维及其工具、方法作用到传统人文学科中的一门新兴学科,其将量化思维与实证传统相结合,弥补了传统人文学科实证研究中对于量化分析的观照不足[20]。随着数字转型升级和新技术环境变迁,档案管理对象由数字态转向数据态[21],档案部门也逐渐发觉二者在资源、目标上的高度契合,档案与数字人文的跨界融合日益纵深,数字人文为档案的数据化呈现和人文开发提供新视角,数字人文技术为档案数据层的挖掘与关联、档案知识服务提供新方法。现如今我们每个人都不可避免地生活在技术社会中,科技迅猛发展带来的“内卷”、害怕被时代抛弃而产生的焦虑心理等带来了许多问题,人们的生活被技术社会所肢解。档案部门开展数字人文项目能弥合科学与人文的裂痕,利用科技传播人文关怀和人文理疗,甚至带来美学体验。欧洲“时光机”项目、浙江台州高迁古村落数字记忆项目等,都是数字人文项目的经典案例,都提供了很好的经验。但可以发现,数字人文的困境和痛点也已显现,我国数字人文研究因文本与语言的特殊性,要求基础技术、数据库和专业软件的研发必须匹配中文语境,由此导致了技术开发困境[22]。除此之外,对数据的过度信任和依赖、对算法的过度崇拜,会遮盖数字人文研究的人文属性。因此档案部门应坚守人文治疗的初心和使命,在技术社会中发现自身特性。
当前人工智能蓬勃发展,已广泛应用于医疗、企业、教育、城市建设等领域,并取得成效。人工智能的广泛应用必将为档案管理带来深远而全面的变革,利用“大数据+AI”或将为新一轮智慧档案馆建设提供新的着力点。第一,对人工智能技术、大数据技术等进行深入研究,如机器学习、大数据关联分析、大数据分类等技术,并将其与智慧档案馆建设深度融合,为档案利用时的精准查找、用户画像、档案数字化、档案智能编研等提供技术支持。第二,助力智慧档案馆运营,人工智能为数字档案的信息安全和纸质档案安全提供监控和保障,为智慧档案馆的能级提升和大数据竞争等提供决策依据。第三,推进智慧档案队伍建设,人工智能助力提升档案从业人员的科技素养和信息素养,完善档案用户对档案服务质量的评价与反馈体系。第四,打造面向用户的服务型智慧平台,以用户的数据需求为索引,以用户的检索轨迹为依据,通过打造AI在线客服、AI对话型服务机器人等,为用户提供多感官、多层次的档案服务,打造一个人文关怀、沉浸式多感官体验、情感观照和记忆重现的综合性公共空间。需要把握好人工智能的价值审度、伦理调试以及赋权限度,坚持以人为本的思想,遵循人工智能的伦理。
信息的推广和传播从模拟时代向全媒体时代迈进。自媒体平台的兴起引发了传播方式的重大变革,实现了信息的供需适配,在提升信息匹配效率的同时,也带来了算法和规则下新的信息“黑箱”和数据资本化视域下的信息霸凌,档案信息的传播与扩散也深受其害。因此,一方面,档案的数据化转型必将借势5G时代,利用“视频流”这一档案数据化生存的重要突破口,尤其是短视频,在抖音、快手、小红书、知乎、哔哩哔哩等社交媒体网络上传播内容简短但受人青睐的视频,响应平台活动和话题,吸引大量用户参与讨论,达到引流的目的。此外还需推进用户精准化管理,通过分析其社会地位、兴趣偏好、行为表征、社群特征或行为结构,提供相应的档案数据个性化推送服务。另一方面,数据化时代“算法+规则”的平台运营机理的精神内核就是数据相关性,要想实现算法逃逸,需要将目光重新聚焦在“为什么”等问题上。
大数据技术、人工智能和第五代信息技术的迅猛发展,使得信息产业原有边界模糊甚至消失。大数据时代将驱动一场新的信息生态革命,信息技术不仅会改变档案数据生产和分发的流程及模式,也将触发档案部门运行机制的改革和产业结构的优化升级。档案数据化生存是时代发展的必然结果,档案部门更应顺势而为。