和历史人物来场时空对话

2016-08-01 08:37姚芳沁

第一财经 2016年27期

姚芳沁

Pinchas Gutter坐在屏幕中央，双手放在膝盖上，双眼直视着你，就像在等你开口说话一样。人们对着麦克风向他发问，他能准确理解你的问题并做出相应回答，就好像他在另外一个地方和你实时开着视频会议。

但远在美国的Gutter并不知道正在英国谢菲尔德千禧年画廊发生的这一切。这位二战时期的犹太生还者，是美国南卡罗莱纳大学Shoah Foundation基金会（USC Shoah Foundation）开发的新型互动式口述历史项目的第一名受访对象。

USC Shoah Foundation是由好莱坞导演斯皮尔伯格创立的。1994年，也就是他完成了二战电影《辛德勒的名单》之后的第二年，斯皮尔伯格产生了一个想法：用视频拍摄的方式记录下那些在大屠杀中生还者的口述经历，这样，他们的故事就永远不会被人们遗忘。

目前，这个基金会已收集了5.33万条口述视频，除了二战时期犹太难民在集中营的故事，他们还关注了1937年的南京大屠杀以及1994年的卢旺达大屠杀。

USC Shoah Foundation一直在寻找一种能优化博物馆和课堂环境下人们分享历史的体验技术。随着虚拟现实和增强现实技术的完善，以及人工智能和虚拟助手技术的演进，这种更令人兴奋的记录口述历史的方式出现了—全息影像的大屠杀生还者能够与未来的人实时互动，开展跨越时空的对话。

“我本人就希望能和那些经历过大屠杀事件的人们对话，听他们回答我的问题，而不是任由他们逐渐被遗忘在历史数据里。通过记录他们的回答，我们可以为未来的人创造一个活生生的历史资源。”这个口述历史项目的主管Stephen D. Smith对《第一财经周刊》说。

美国南卡罗莱纳大学素以创意技术闻名，该大学曾经为众多好莱坞大片的特效镜头设计出一系列机器设备。比如“光舞台”（light stage），在一个被1.4万个LED灯包裹起来的球形空间里，演员坐在正中央，其面部各个细节都会被这个设备捕捉下来，这些数据最终可以渲染成与真人演员一样的虚拟形象，并完成真人演员无法完成的表演。

现在，一个类似“光舞台”的设备用于对大屠杀生还者的视频拍摄中。USC Shoah Foundation最近刚完成了对一名奥斯维辛集中营幸存者Eva Kor的采访。

二战开始时，Kor只有8岁，今年已经83岁的她坐在舞台的正中央，50台3D摄像机呈半圆形环绕在她周围。Kor仔细听着工作人员的指示，保证身体处于同一位置，这样，经过数字渲染之后的她的影像就能保持连贯性。拍摄现场和正式的电影片场一样，甚至还有场记板。Smith对着话筒发问：“你的父母是如何向你描述希特勒的，以及他是如何占领你的家园的？”Kor深吸了一口气，开始详细讲述匈牙利的士兵是如何来到她家的农场的……

为了保证未来与她开展时空对话的观众用不同的方式提问，Kor都能给出正确的回答，她必须对同样的问题提供不同方式的回答。如此，系统就能对她的回答正确地归类，并对一些关键字做语义理解。超过2000个采访问题是通过调研集合起来的，其中很多都是关于她在被困的日子里每日生活的种种细节。Kor会讲起她小时候的回忆，她在被关进奥斯维辛集中营之前的家庭生活，包括她母亲做的饭，她在学校被同学欺负，以及她的双胞胎姐姐最爱的宠物。录制了一小时之后，Kor需要休息一下。

每一个受访者平均需要接受每天5至6个小时，连续7天的拍摄强度，其中包括1000个问题以及2000个回答，总共20个小时的采访数据被拍摄记录下来。

为了让口述者感觉就像真的坐在你面前与你对谈那样，眼神交流很重要。USC Shoah Foundation的团队在录制时会在口述者面前放一面镜子，当他在讲述的时候，可以直接看到镜子另一头提出问题的人，而对话时的眼神交流就会被记录下来。

但真正让这些虚拟人物变得活灵活现的是，他们能和你实时地对话互动。Smith希望能超越传统的自述式的口述形式，因而决定加入自然语言处理技术。当人们问口述者问题的时候，自然语言认知技术—类似苹果的语音助手Siri—能将自然语言转换成文字，系统使用一套算法找出能回答这个问题的最适合的视频。即便有一天这些生还者们离开人世，他们依旧可以与未来的人们互动，讲述他们的故事。

USC Shoah Foundation使用的是Google的自动语音识别软件，这是他们目前能找到的最好的语音识别软件系统，因为它拥有日常对话最大的词汇量，并且对语音表述的场合背景也有识别能力。

“但很多采访对象会常常使用到一些二战时期使用的老波兰语来表述，在今天的日常用语中并不常见。”Smith说。由于Google的这套软件并不开源，他们无法开发定制软件，所有的语音记录会储存在Google的云端，与Google搜索产品其他的语音记录放在一起。只有那些出现频率最高的词汇才会被系统识别，因而采访对象提到的一些冷僻词汇，在刚开始的时候USC Shoah Foundation的工作人员必须每天对着系统输入上千遍才会被识别，“不过我们发现这个系统学习新词的速度还是很快的，每天的进步都很大。”

尽管USC Shoah Foundation从每一个受访者那里会收集大量的回答，但依旧有可能出现人们提出的问题在之前的采访录制过程中并没有覆盖的情况。

“如果没有直接对应的答案，系统会找到一个尽可能接近的答案，比方说，你问有关他兄弟姐妹的情况，他会给你一个有关他的家庭的笼统回答。如果实在没有对应，他会回答说‘我不能回答这个问题或是建议你换个问题，这些在录制时都有准备。”Smith说。

口述历史项目从2012年开始开发，于2015年在美国伊利诺伊州大屠杀博物馆展出，Gutter的口述是第一个完成的项目。大多参观者都表示，这个新技术帮助他们更深地了解了Gutter的经历，“人们可以更自由地向Gutter发问，因为不用担心这个问题会冒犯到他，这样他们能展开更有深度的对话。”Smith说。

Gutter一开始对这个项目还有些恐惧，“难道要我变得长生不老吗？”过去他常常去学校讲座，与学生们交流他的经历，当意识到新技术能让未来的学生和现在这些学生一样和他面对面地对话，于是，他很快就答应参与这个项目。

这种互动式口述历史的形式也很受学校的欢迎，这比一般的历史课本更能激发学生的好奇心，因而也能留下更深刻的印象。

在拍摄视频的数字捕捉工作室里，有2/3的空间背景是巨幅绿屏，这样，口述对象在日后可以根据需要被生成于电脑设计的任何背景下。所有拍摄数据的视频输出还可以呈现在多种平台上，包括2D、HD、3D，甚至是虚拟现实装置（VR）。而通过全息影像技术，让口述者跳出屏幕的框架，直接坐在人群中，也不是什么难事。200台视频投影机从不同角度可以将一个360度立体的真人投射在人们的眼前。

现在已经有10多位大屠杀幸存者参与了这种新型口述的录制，这些视频正在后期编辑阶段，会在2017年在全球的博物馆和学校推广。

但在此之前，Smith还需要解决一个问题：不同的语言，也就是说，这个项目还要加入实时翻译技术，比如当人们用中文提问的时候，口述者也能用中文回答—尽管他在录制采访的时候讲的是英文。Smith相信，他们很快就能做到这点。