李 鹤 伊
(北京大学 艺术学院,北京100000)
在《探索历史大数据——历史学家的宏观视角》一书中,学者肖恩·格雷厄姆、伊恩·米利根、斯科特·魏因加特认为“DH”的表述不同程度上同时适用于两个领域,即“数字人文”(Digital Humanities)和“数字历史”(Digital History)[1](P34)。在《数字人文:改变知识创新与分享的游戏规则》中,学者安妮·伯迪克、约翰·德鲁克、彼得·伦恩费尔德、托德·普雷斯纳、杰弗里·施纳普提出:“亚里士多德认为我们读史以认识世界了解过往之事,我们读诗以想象世界激发孕育出新世界。数字人文学者同时具有史学家和诗人的特质,我们既积极研究过往的世界,也积极思考尚未诞生的新世界,然而数字人文学者利用新的工具技术和设计策略,采用将诗人和史学家的传统创作实践方式彻底改变的新认识方式来思考过去和未来。”[2](P77)可见,数字人文与历史研究有着无法割舍的联结,作为变革世界认知方式的跨学科领域,数字技术及工具打破了学界对人文、艺术及社会科学知识的传统理解模式,贡献了全球性的、超越历史和媒介的新型学术模型和组织形式。历史学家置身于数字化转向的局面已经无可避免地依赖数字化工具进行研究,依托大数据获取史料已经超出了人工无法企及的地位。2012年底Ithaka S+R 公司对历史学家的调研报告就已指出,数字化转向下的新兴研究实践和交流机制已经被广泛采纳,这为研究既带来了机遇,也带来了挑战。
“数字人文”作为快速发展的跨学科研究方法,目前学界对其词源定义纷繁多样,并无统一口径(1)数字人文的百种定义可访问詹森·赫普勒(Jason Heppler)创办的网站 “What is Digital Humanities”或《数字人文宣言2.0》,包含50个对数字人文的理解与表述。,其涉及范围可以指涉从媒介研究到电子艺术,从数据挖掘到技术教育,从学术编辑到无政府博客,同时还囊括代码迷、数字艺术家、专业领域书呆子、超人类主义者、游戏理论家、自由文化倡导者、档案保管员、图书管理员、自主创新式教育者等[4](P75)。计算领域对数字人文有较系统化的讨论和纷繁的定义,而人文领域学者认识数字人文相对较晚。人文学中运用计算机的开端始于1949年,1949至1970年间“人文计算”作为数字人文发展的前身,直到2004年出版的《数字人文指南》标志着“数字人文”作为概念在学术界的开端[5](Pxxiii),再到2005年数字人文国际联盟成立后,数字人文作为一个研究领域获得国际学术界的普遍认可[6]。2005年至2009年是数字文人领域的确定期,研究主要围绕语言学和文学等人文学科展开,2009至2019是数字人文的成熟期,着重跨学科领域的合作深化[7]。从计算机科学领域逐步演进使得电子版逐步代替了纸质版文字,计算机语言的功用导致传统语言的弱化。荷尔·波茨坦认为由于“人文计算”到“数字人文”有着“散漫的转换”[8], 使得人文学者担心新技术会彻底颠覆人文学科领域,所以部分学者对数字人文方法介入人文研究一直持有保留态度。
“数字历史”可以追溯至20世纪50年代和60年代,随着定量和计算史学的发展,历史学家积极探究历史的边界问题,以跨越个体及时空的视角对历史的不同时段进行探究。1970至1990年代,数学及统计学的广泛应用推动着历史研究的数字化转向。数字人文与数字历史的关系并没有明确答案,有些认为数字人文比数字历史更为宽泛且二者相互重叠。我们似乎更容易在学界普遍关注重点数字人文期刊《人文学科中的数字学术》与《数字人文季刊》以及数字人文国际联盟论文集、《数字人文的争论》中接触到大量科技工作者、技术主义者、社会科学家对“数字人文”进行的定义和阐释的学术成果,这样相对掩盖了人文学者在数字人文研究中的话语影响力。因此,这里选取了人文历史学科下相对具有代表性的数字史学研究项目,并阐释历史项目研究者对数字人文以及数字历史的理解与认知。凯莉·奥尼尔创建了俄罗斯历史研究数字人文项目“帝国主义计划”(2)凯莉·奥尼尔(Kelly O'Neill),哈佛大学戴维斯俄罗斯和欧亚研究中心,俄罗斯历史、空间史学家。,她认为数字人文以创新的方式生产知识并解释人类的经验。现今通过表格、定量数据和制图材料,将数字材料纳入研究方法之后能够在空间上促使史学研究者提出新的问题,即诠释历史在“何处”发生的问题。将地理信息科学的方法应用于历史,并建立交互平台来创建“地图故事”,从定位事物、地点和人物入手,以了解地理位置如何塑造个人、社会和国家。苏珊·普雷斯顿·比利尔同样提到数字人文是以一整套新技术的角度重新思考世界的方法,人文学者的突破关键是转型过程的一部分。(3)苏珊·普雷斯顿·比利尔(Suzanne Preston Blier),哈佛大学艾伦·怀特希尔(Allen Whitehill Clowes)美术史和非洲与非裔美国人研究教授。有关比利尔在该领域的贡献于2013年春季哈佛大学研究生院刊物Colloquy文章《面对非洲艺术》中发表。她领导的电子地理空间数据库Africamap成为扩展到Worldmap的站点,并将不同学科的学者纳入研究体系。包弼德认为数字人文涉及规模巨大的信息和数据,依托计算分析和社会网络分析,可以发现人与人之间的联系,以及在历史上某一时刻形成的各种群体。(4)包弼德(Peter K. Bol),历史学家和汉学家,哈佛大学东亚语言与文明教授,哈佛大学地理分析中心的创始主任,负责中国历史地理信息系统(CHGIS)和中国传记数据库(CBDB)项目。在2020数字人文视角下的中国历史研究会议上提出《从轶事到数据:传记数据的网络和空间分布》。然而,有学者曾质疑“数字人文”,后殖民文化学家艾达琳·寇尔提出“数字人文无法拯救你”的命题[9],她斥责数字人文主义者将计算置于文化之上,此举只会让人文学科变得更加无关紧要,成为 “STEM的女仆”,然而寇尔最终还是认可了数字人文主义者被要求更像媒体研究、科学、技术和社会研究或某种文化研究变体的学者,而不是被工程师、科学家和数学家所掩盖的事实。面对计算史上的第三次浪潮(5)计算史上的第一次浪潮源自人文计算,第二次浪潮围绕文本分析(H-net,Usenet和GIS),第三次浪潮经历数据储存能力重大革新,开源工具软件的兴起是其核心。,历史学家逐步从思考定量方法的利弊采取了“语言学转向”,计算机科学家们也试图寻求与人文社会学科相连的共同点并在网络上建构跨学科共享文件的语言。数字历史学者面对计算大潮已然无法“躲进小楼成一统”,跨学科数字历史研究模式早已成为变革世界知识生产的新方法。
作为历史的电影史[10](P3),且电影作为一种协调、综合、多元轨迹的媒体——产制出大量千变万化的文本,需要多重的理解架构[11],数字人文与文化分析就是实现多重理解架构的新工具。当前中国电影史学者仍处于重写电影史的阶段中,致力于规避以论带史和过度陷入史料不能自拔的陷阱,数字人文为重写中国电影史提供了新型路径与研究方法。然而,并非所有电影史学者必须启用数字人文的研究方法,但是运用数字研究方法的电影史学者必定是电影史、电影研究的重要组成部分。数字人文影人年谱的构建为重写电影史贡献基础性价值,以代表性中国影人为研究对象和切入点,依托大数据开源获取、文本分析可视化、地理信息系统分析与数字地图绘制、主题建模、网络分析、知识关联、数据库建构等方式进行研究,对厘清电影本体与电影史的认知,理解不同时期社会、文化、消费、电影接受的观念以及创新呈现中国电影史的叙事视角和空间建构奠定坚实的基础。同时,以影人搭建的数据库力图在世界范围内开源联动,为中国电影史论研究的突破、跨国的中国电影史书写以及人文艺术学科整体的未来发展提供丰富的理解架构和突破传统的研究资源。
2004年起,列夫·马诺维奇的研究对象从“新媒体”变为 “更多媒体”下的“文化分析”。他创建了文化分析实验室并将计算机解析全球人类“大规模文化”的使命贯穿了他之后的研究路径。文化分析是指使用计算和设计方法(包括数据可视化、媒体和交互设计、统计和机器学习)来探索和分析文化的规模,是人文学科中使用计算机视觉最重要的成果。需要注意的是,文化分析不是用算法取代文化研究,而是通过新的接口和技术来观察大量的文化数据集以增强人类的能力。传统的文化分析方法已经无法覆盖人类的文化知识生产的高速率,数亿文化生产者创造、想象出具有价值的产品和事件以及文化“更多信息”(网站、帖子、出版物、数据集)需要提出适合全球数字文化规模、速度、多样性和连通性的新理论。
马诺维奇在《文化分析、计算机视觉、人类感官和艺术的语言》中谈到了文化分析与数字人文的关系。其中,文化分析与数字人文方法都属于21世纪下半叶出现的利用大量文化和社会数据的研究范式,其他范式还包括计算社会科学、社会计算、数字人类学、数字历史、城市科学、城市信息科学和文化经济学,二者都依托机器学习、计算处理对艺术史、电影和媒体研究、游戏研究、考古学等领域有着广泛的应用。马诺维奇对《人文学科中的数字学术》一文中 “数字人文重文字,轻可视化,模拟性差”的观点提出了质疑,认为这种观点令人惊讶,因为计算机科学家早在20世纪50年代末就对图像分析方法进行了开发[12](P7)。在计算机视觉和多媒体计算领域,研究者多年来持续发布新的算法以自动检测历史图像内容、艺术风格、早期摄影技术、电视和视频的类型,并将其应用于逐渐庞大的历史数据集。马诺维奇主导的文化分析实验室也一直使用数字人文和文化分析可视化结合的方法分析文化历史和视觉媒体,如纽约现代艺术博物馆收藏的20000张照片、奥地利电影博物馆收藏的纪录电影先驱吉加·维尔托夫的电影、100万幅DeviantArt上的艺术作品以及其他数据集[13]。总体来看,文化分析和数字人文都无法脱离计算机的共性且都受到了人文计算的影响,图像分析方法影响了文化分析可视化与数字人文方法,二者可以从不同角度介入到电影史及其他艺术史的研究中。数字人文的大部分计算工作都集中在文学文本、历史文本记录和空间数据上,与此相比,文化分析更突出静态和动态图像以及交互式媒体等其他类型的媒体。
以“人及社群”为线索展开的数字人文个案项目在艺术史、文学史等研究领域比电影史研究领域起步相对较早。2013年,约翰娜-德鲁克在 “数字艺术史”(使用计算技术的分析技术)和“数字化艺术史”(建立在使用在线资源上的艺术史)之间做了一个显著区分[14],她认为,前者是“数字艺术史的适当领域”,因为它以新颖的方式揭示艺术史文物的特征并拓展传统的观察和分析方法而产生创新的考察面比数字化艺术史研究更为深广。2015年《国际数字艺术史期刊》成立,学界出现了对人与人、人与社群之间如何产生联结这一话题感兴趣的研究者。譬如重建弗朗西斯·培根的人物形象和最杰出人物之间的现代社会关系网络,他们掌握了从《牛津国民传记词典》中提取人名和推断关系的自然语言处理工具和统计图学习技术,运用传记文献中推断历史社会网络的统计方法[15]。2020年,第一本关于数字艺术史的卷集《劳特里奇数字人文艺术史》出版[16],着重论述数字人文是如何与艺术史、艺术理论、艺术创作者产生联系的。作者对数字人文和艺术史研究之间的交叉点进行了广泛的调查,不仅关注为艺术作品及艺术家的历史而开发的新技术,而且还思考这些工具的使用带来的学科挑战,并追问计算方法能够在何种程度上对艺术史的研究产生影响。同时,也对这种研究方式的概念性偏见进行了反思。国内艺术史以“人及社群”研究的个案项目以董其昌的数字人文项目为经典案例,研究尝试引入机器学习、CNN (深度模型卷积网络)和图像关联AI引擎等方法,实现了以高清藏品图像数据等为基点,可视化了董其昌的个体人文脉络,梳理鉴藏、交游、教育、传承等多个人文脉络,以可视化的形态为董其昌的研究设计了一个“主体-表达-时代”的综合维度。其次,参照CIDOC CRM等国际元数据标准,基于Linked Data设计明清文人书画本体, 实现博物馆的实物性特征所带来的源于图像本体的排比和深度分析,并将逐步形成绘画元素标准样本国际平台,为研究范式转变、传播边界拓展、内涵显性化以及知识创造提供一种新的思路[17]。此外,文学领域中,学者基于计算机算法与模型,挖掘文学史上的重要人物史料数据后进行空间研究、人际网络及关系阐释、知识图谱构建以及对该人物著述的深度翻译、词典和机器学习。例如冉从敬等学者的《数字人文视角下的莎士比亚学术传播研究》、杨玲的《远读、文学实验室与数字人文:弗朗哥莫莱蒂的文学研究路径》等,将文学史、艺术史的作者、艺术家作为“人”的意义加以凸显,是数字人文应用于人文学科的重要目标,通过词频分析、远读、遥读等手段将定量的研究与定性的研究对接,对电影研究中影人年谱及影人社群网络的时空构建具有启发性意义。
2018年出现了第一本采用数字人文方法量化可视单个导演作品的英语专著《数字人文与电影研究——视觉化吉加·维尔托夫电影》[18],不过,量化电影的分析方法和文化数据化作为电影研究可视化的方法之一可以追溯至上世纪。自1971年尤里·洛特曼在《艺术文本的结构》一书中提出针对文本的符号学分析后,大量研究者使用对艺术形象中的元素、结构以及其产生的意义、审美价值进行探究。电影研究者也发现计算机进行的文本分析能够触及自然语言中无法达到的精度,并能够定性描述图像的特征,亦可处理没有明显视觉元素的部分[19](P30)。以此为标志,依托计算机展开影像的量化分析、电影计量学、电影档案学纷至沓来,电影文本量化分析学者偏向针对单个文本以及某一作者的系列文本进行规模较小的分析。在西方,1974年巴里·索尔特运用统计学来探究电影风格[20]。1987年罗杰·史密瑟在提出计算机的引入应使处理电影档案馆的藏品信息共享更容易,并认识到这种数据交换依赖于对共同标准和格式的接受这一问题[21]。20世纪后半期,无论是对电影的算法研究还是将电影作为证据的电影史研究被笼罩在后结构主义之下,坚持认为电影是一种不同形式的证据,需要对其进行解码的特殊训练,以对其制作时期的精神或时代精神进行无意识的物质见证[22](P6)。这种依靠算法的定量的研究延伸至当今,杰森-萨拉文对文化模式进行了数据可视化,电影《泰坦尼克号》的画面被简化为单一的代表性颜色,这些颜色的小正方形被放置在一个矩形网格中,从而使电影中可见的视觉节奏成为可能[23]。在亚洲,日本学者大泽胜久提出数字化的电影研究在对长期保存大量信息的动态图像的数字数据方面需要提出相应策略,与动态图片一起使用的感光材料与数字技术结合作为创新性研究方法可以弥补数字技术在长期保存方面的不足[24]。韩国学者姜璲桓认为电影不再是基于赛璐珞胶片的艺术形式,而是变成了“文件”和“信息”。他从剧本的文本分析、视觉形象量化研究、叙事模式的研究三个方面将定量方法引入电影研究[25]。国内近年来也开始对量化电影研究进行尝试,杨世真探究了计量电影学的理论、方法与应用[26],陈刚通过Cinemetrics工具对于费穆导演的电影结构进行了可视化的研究实践等[27]。以上计量电影学的可视化分析与定量研究突出电影文本、电影风格、节奏、镜头的量化,尤其偏重“算法”“数据”对电影史研究的影响,依据这些数据延续了实用后现代主义的方式来理解文本的思想,“即所有的叙事形式,包括传统的历史,都被部署了相等的情节、猜测和选择过程”[28]。
然而,这种研究方式引起了历史学家以及罗伯特·艾伦、杰弗瑞·克莱诺奇、理查德·马尔比、亚瑟·奈特等电影史、媒介史学者的反思,他们认为以电影研究为基础的电影史是不够的,电影作为大众娱乐的媒介必须具有以超越电影文本的生产和实践的方式来构想。聚焦于文本的电影分析窄化且抑制了电影史的空间意义,且会在电影与历史两个学科之间造成不可跨越的隔阂。于是,21世纪初的前十年,电影史研究的国际趋势从电影的内容转移到其循环和消费并将电影作为一个社会和文化交流的场所来研究,2007年,学者们在根特举办的具有突破性意义的电影研究论坛“他们眼中的光芒:关于电影文化、电影展览和电影观看的全球视角”中明确了“新电影史”的研究范式将转换视角至电影的消费流通以及电影作为社会与文化交流的属性。电影史研究者借助GIS系统着重关注历史、地理、文化研究、经济学、社会学和人类学的关联,对电影史进行空间分析,试图深入电影发行和展览的商业活动等公共生活、电影的法律和政治话语以及特定电影观众的社会和文化历史中搭建空间网络及关系以发现新的历史。此时可视化的电影研究不仅包括计量电影学等依托算法和数据的文本分析,亦走向了电影史学的空间研究,转向了更为深广的文化和社会的历史视角。21世纪初,在谷歌检索“GIS与电影研究”只能查到与好莱坞电影中第二次世界大战的士兵形象相关的网站[29],之后随着GIS在社会学女性研究、历史学的广泛应用,电影学者愈发认识到数字方法与社会、文化、空间、消费等层面的重要联结,电影史研究的空间转向必然与文化地理学进行跨学科交叉。以著名电影史空间研究项目HOMER为例,它包括了四个数据库案例:(1)电影院和观众研究项目(CAARP)研究电影放映、公司和场地的信息,对1928年引入声音后南澳大利亚的电影发行模式、1949-1980年的移民电影院线路和观众、新南威尔士州农村观众的文化体验进行探索。(2)电影文本背景数据库提供了荷兰电影文化的基本要素:电影、影院、影人和电影公司。我们不仅可以找到关于人物、事件、地点和时间信息,还可以分析这些信息的模式和网络。(3)早期伦敦电影商业数据库是对1894-1914年伦敦电影企业的开源数据库,记录了第一次世界大战前伦敦的电影院和电影企业。(4)威廉斯堡剧院数据库是一个在线档案数据库,记录了美国弗吉尼亚州威廉斯堡20世纪的电影观看和日常文化生活的证据,这个大西洋中部的小镇同时也是美国的一个标志性地点。四个项目的共性在于使用定量信息,通过数据库、空间分析和地理可视化等手段,提出了一系列关于电影人、电影院与社会群体关系的假设,并期望这些假设通过其他定性手段得到验证,从而发现新的电影史。无论是文化分析方式对图像、视觉媒体的规模性呈现,还是数字人文方法对计量电影、历史空间的探寻,都注重可视化的呈现方式,即研究的视角由二维呈现为三维。与算法、人工智能的结合可以充分对历史上的电影库进行检索、挖掘,尽可能地覆盖各国家、各民族地区电影资料,提取出的是指数级增量电影文本、胶片、图像、记忆以推动具有变革性意义的电影研究。电影等文化艺术不一定是被书写的,而是被看的,是“可视”的。文化分析与数字人文下的可视化皆为中国电影史研究提供创新性的研究路径。
数据收集、数据存储、数据清洗与资料库的构建是数字人文研究的基础与起点[6],可视化影人年谱和数据库的建设是数字人文下的中国电影史研究不可忽视的基础性工作,因为“影人年谱是一种在创新电影史观的基础上吁求中国史学传统的电影研究方式,试图在最大限度‘还原’社会历史面貌和‘体认’影人生命轨迹的过程中,为中国的电影研究和电影史研究提供必要的知识积累和价值导向,并为‘重述’中国电影史以及构建中国电影学派奠定不可或缺的学术基础”[30],省略这一步骤则会出现研究的断层或史料获取的片面性。大部分早期影人年谱的书写和出版物整理只能聚焦在纸质版上,碎片化信息导致无法在两岸三地电影史学建构中形成网络。计算机技术介入下的史料挖掘与数字化以机器学习、自然语言处理、可视化与GIS、关联数据、网络分析、数据管理、文本挖掘从根本上打破了传统电影史影人研究空间的局限性,提高了史料的获取效率和获取范围。
可视化影人年谱搭建的一条实践路径是早期影人史料的数据化和文本分析。与社科领域相对成熟化的数据库进行比较,中国电影史学研究者可以获取的电子化基础性史料数量远远不够,且需要以严谨的态度甄别史料的来源,于是将电影史文字书写转换成数字时代的通用计算机语言属于数字人文电影研究者、图书馆、影史档案馆的工作方向。在某些情况下,该过程可以依靠自动化输入,例如设定限定词,爬梳《国文天地》数据库、大成老旧刊数据库、爱如生数据库、全国报刊索引数据库等后筛选有效的影人资料,而在其他情况下(如珍稀影人日记、残缺磨损的手稿等),则必须手动完成输入。无论以哪种方式,任务都是艰巨的。文字史料转化成数据后只有经过分析解读才具有存在意义,所以使用文本分析的方法才能激活庞大且静态的影人史料,这里引用一个直观的文本分析与历史研究结合的案例用以说明。某位西方历史学家认真阅读一摞影印版的18世纪伦敦的庭审记录,边看边抄录案文。过程中她开始注意到用于描述年轻女性囚犯的语言似乎存在一些有趣的规律,于是她求助于Old Bailey Online法律在线数据库并展开搜索。很快她就获得了一个包含1000份有关女性囚犯的庭审诉讼资料。她下载完整的副本,并将其加载到文本分析工具Voyant Tools中, 没过多久,她得到了文本中的关键词和关键词搭配,并使用频率(词语计数)区分了语境中的关键词,以及随时间变化的图表。这佐证了她自己的猜测,之后,她使用处理文本的java工具包Mallet开始寻找文本中潜在的语义结构,经算法多次探索,最终表明每篇文本的大部分内容都涉及23个常见主题[1](P iii)。同样道理,影史研究者可以在经过OCR的数据库中根据涉及影人、城市的不同词频深入不同主题之中,并辨析影人与主题间的关系。可使用国际上文本分析的基本文本挖掘工具词云、Markus、AntConc、斯坦福开发的Voyant Tools、Overview 等,依托词语计数、N元频率、语境关键词技术语料库等推进影人史料的可视化研究工作。目前,《基于社会网络分析的蔡楚生创作研究》已对蔡楚生及其人物网络关系进行可视化词云研究,试图挖掘出地理空间、人物、事件及影响力的内在关联,是数字人文影人年谱工作在国内的初步尝试。
另一个可视化路径是依托地理信息系统对影人及社群进行空间分析。地理信息系统(GIS)是一种综合的基于计算机和网络的技术,允许用户创建、管理、绘制、分析、建模和探索空间信息。GIS的电影空间史平台可以支持小型、中型和大型研究,能够允许多用户多终端同时访问并使用不同规模的证据来共同研究一个主题,集最局部的微观数据和广泛规模的统计数据为整体的综合研究模式。以GIS建立影人年谱为例,用户可以选择不同软件平台,但使用平台的方式具有共性。第一步,对影人和群体进行地理定位。地理定位既是一门艺术,也是一门科学,其内容包含批判地查证史料来源并明确其中包含的各种信息,评估史料的可拓展性,确定该来源的信息与其他来源中包含的信息相关的方式,将源信息重组为数据,决定选用文档,实现从源到电子表格的转换。此过程适用于所有历史来源:档案文件、历史地图、绘画、叙事文本、统计表。以上步骤通常需要重复执行,不一定按必要顺序执行。然而,对于历史学者而言,相对特殊且艰难的环节在于要处理地图系统中找不到且在历史地图上出现过、证明过的地方。研究者根据史料了解到的影人出现过的具体位置与在地理信息系统上定位该信息具有很大区别,后者需要高精度和准确性。例如我们能否实现将20世纪三四十年代的上海城市以及影人所在或出现过的城市区域、街道的丰富性和可变性降低到一组坐标上?当前的数字地图与史料中提供的地图是否会不符?如果目前的地理定位系统精度无法达到文字史料提供的城市、乡村的位置会发生什么?研究者可能在处理当前不存在的地理位置,因为随着历史的变迁,城市在不断发展,河道随着时间推移而变化,行政边界也在不断变化,影人的空间位置与历史迭代出现实质性的差异,所以技术层面上不断对地图进行数字化和地理配准可能是确定位置的最佳方法。同时,研究者需要时常反思:当我不知道一场放映或影人确切出现在哪里时,我怎么能确定该城市、街道或影院等空间就是我之后需要关注的重要的地理位置呢?这会不会产生预判性的错误和偏差?种种问题迫使研究者仔细思考如何概念化定义场所及其重要性,以及影人的生活、行为和观念如何与我们定义的场所产生有意义的空间连结。目前国外研究者在处理类似问题时使用现有的地名词典来定义其坐标,辅助手动构建空间数据。对遗弃城市、废墟城市及消失的地理位置进行重新的地理编码,或回到大量的文献资料中找到原始地图并进行数据化,挖掘出没有地理标识符的文档。第二步,在确定好处理的内容以及在何处定位后则可以开始进行影人年谱的可视化空间分析。空间分析的目的是研究影人的行动、行为与地理之间的关系。它实现的前提在于研究者通过第一步知道“哪里”更为重要,如果不了解影人随政治因素、社会环境、文化所变更的地理背景,就无法整合理解该影人牵动出的电影史问题。影人的空间分析意味着以多种不同方式工作:计数、测量、计算,将信息分层、重建网络、识别模式等。尽管空间分析的步骤会复杂冗长,但它的存在是为了帮助研究者在影史研究中梳理出更加聚类、分散、连通性和相关性的命题。空间分析突破了传统的电影研究中聚焦文本、意识形态、类型研究等视角,以跨学科的思路强调了地理学在影史研究中的重要性,通过可视化的映射关系,各地、各影人信息之间的相关性会更多地激发史学研究者开始思考 “为什么”的问题。第三步,辨析影人关系。影人关系往往是按照一种可识别的逻辑运作的,即地点(一种由地理标识符或地名描述的事物)。有些关系是垂直的,按行政地理学的逻辑进行影人分类,例如多影人集中出现在上海、天津或北京等地,某地区包括某个村庄等。有些关系是主题性的,例如可以专门研究关于20世纪40年代中后期由内地赴港的“南下影人”的空间轨迹和互动关系 [31]。有些是按时间顺序的。例如,活跃在孤岛期的影人、十七年后的影人或改革开放后的影人等。以上地点的分类阐明利于了解影史空间信息之间的影人关系。第四步:依托协同合作产生新发现。数字人文时代,史学研究者逐渐会从基于个体著述的时代转入基于“项目”协同创作的时代[32]。一个成熟的数字人文研究项目需要在资金、专业、资源方面协同合作,例如俄罗斯“帝国主义计划”项目中,需要地理分析中心、历史学院、地图中心、俄罗斯国家图书馆以及哈佛大学等合作者包括GIS 服务部门、数字学术孵化中心、地理分析中心下设的地图空间技术中心、图书馆的社会科学与视觉化部门、数字制图部门等部门的协同合作。以此为鉴,可视化影人年谱也需由传统的独立作者撰写模式转变成以多方合作为基础的“项目”推进模式。可视化影人年谱的数据库搭建需要多方机构的协同合作与良性互动,形成数字人文研究活动的关系网络,各节点可以同时对某一项目在不同地点对资料进行访问、获取、增删修改、应用。图书馆、电影资料馆、档案馆、博物馆在数字人文影人年谱和中国电影数据库建构中发挥重要作用,这些机构与数字人文紧密联结,不仅能够提供史料挖掘所需的基础文本词条与元数据,还能在检索、分类、开源获取、数据关联、资源共享与传播、数据加工与维护多方面完善电影史研究的空缺。与此同时,数字人文影人年谱的数据化对图书馆、电影资料馆、档案馆、博物馆等机构自身服务效率的提高与资源整合具有利好之处,机构配合研究人员的需求不断吸纳更多史料并补充进数据库,进一步提高馆藏、检索、组织、管理能力。所以为了提高机构与数字影人年谱的互动效率,研究者应主动去图书馆、电影资料馆、档案馆、博物馆提出对某方面资源的需求和补充,积极与馆内科研人员提出查缺补漏的请求。
为从根本上改变当下中国电影知识图谱的固态化、浅表化和孤岛化状况,为改善中国影人数据资源的离散化和断片式特征[33],研究者需要摆脱对有偏见的档案或典籍材料的依赖,在计算机的算法和传统的电影史研究中寻求平衡点,探寻适合不同研究者个体的数字工具和路径方法,开放包容地面对知识与历史的多面阐释。在应用数字技术、算法与人工智能的背景下,坚守以人文主义为核心和灵魂,在电影本体论和历史、社会、文化的层面实现数字与人文的对接。