Voyant：分析文本中的“大数据”

2018-11-16 12:25陈铭徐丽芳

出版参考 2018年10期

陈铭徐丽芳

摘要：随着信息技术的发展和数字人文浪潮的来袭，常用于社会科学与自然科学的定量研究方法被带到人文学科研究中，使数据统计和分析成为文本研究中被普遍接受的必备手段。作为网络文本阅读和分析平台，Voyant旨在将基于大数据的“大分析”与传统细读文本的“小阅读”相结合，实现数字人文知识的生产、传播和教学功能。同时，随着学界对“远阅读”合理性和可行性的探讨，Voyant也面临着这种阅读方式带来的难题。

关键词：Voyant 文本分析远阅读大数据数字人文

试想一下，如果手头上有字符数超过4000万的文献资料，我们能用什么办法最快了解全部文献并进行有序整理？传统的文本研究方法需要大量人员开展合作阅读（Collaborative Reading），对这些文献进行阅读理解并整合。这是一种直接的“近阅读”（Close Reading），但是它能够处理的文本量非常有限，而且整合得出的内容缺乏客观性。2000年，针对传统文本阅读方式的不足，意大利学者弗兰克·莫莱蒂（Franco Moretti）首次提出了“远阅读”（Distant Reading）理论。因为依靠人力只能阅读现存文本中极其微小的一部分，因而远远不能揭示人文学科的全貌。以维多利亚时代的小说研究为例，只凭学者人工阅读是无法全面了解当时小说这一文学体裁的全部相关状况，因为仅仅19世纪的英格兰就出版了多达6万本小说。

这一理念在十年后发展为使用机器处理大量文本，进行计算、聚类和分析，多个研究中心和学术机构着手建立文本分析平台和门户网站。Voyant就是一个基于网络的文本阅读和分析平台，旨在帮助数字人文学科的学者、学生以及普通大众阅读和整理文本。它是由麦吉尔大学的数字人文学者斯凡特·辛克莱尔（Stéfan Sinclair）和阿尔伯特大学的人文计算学学者杰弗里·罗克韦尔（Geoffrey Rockwell）开发而成，于2003年初发行，并于2016年4月发布Voyant 2.0版本，适用于英语、阿拉伯语、法语和意大利语等10种语言。Voyant平台提供的Voyant Tools前身是早期的文本分析软件HyperPo、Taporware和TACT，支持用户上传和使用多种工具分析海量文本。目前，Voyant拥有庞大的国际用户群，仅在2016年10月其主服务器的页面浏览量就已高达81686次，主服务器的工具被调用1173252次。毫无疑问，在信息体量不断增长的数字时代，Voyant提供了更有效的文本筛选和分析方式，帮助用户处理体量庞大的语料库。

一、产品形态：多功能文本分析环境

计算机技术在科学领域的广泛应用创新了现代科学研究方式，将常用于社会科学与自然科学的定量研究方法带到原先以定性研究为主的人文学科中，使数据统计成为文本研究中被普遍接受的必备手段。Voyant允许用户从各种格式的数字化文本中提取定量数据，包括纯文本、HTML和XML等格式，并通过轻量级文本分析（Lightweight Text Analytics）来增强用户的阅读能力。所谓轻量级，指的是用一些相对简单的形式表示文本分析的结果，让用户能通过自身视觉感知的并行化处理能力轻松地获取信息。Voyant采用基于词频统计的程序对文本进行自动聚类，归纳出人工难以总结出的模式特征，并用词频表、词频分布图和上下文关键词索引（Key Word In Context，KWIC）等方式显示分析结果。以莎士比亚37部剧集为例，该语料库中共有895737个单词，包括实词和虚词。实词能单独充当句子成分，传达文本的重要内容特征，一般包括名词和动词等。Voyant将实词和虚词进行区分，根据实词使用情况进行单词类型划分。以图2中的《爱的徒劳》（love's labor's lost）为例，它包含2万多个单词，其中3767种实词共占比16%。在用户需要获得具有实质内容的关键词时，提供“过滤器”选项筛掉虚词，即to、that、this这一类本质上的语法辅助词汇。通过测量不同文本的“语言指纹”信息，帮助用户识别不同作品之间的语言差异和风格特征。

除了基于文本内容统计和抽取词语，Voyant还擅长借助视觉符号形式来表达文本中复杂的或难以通过文字和表格传达的规律，为用户提供与视觉信息快速交互的功能。在莎士比亚37部剧集语料库中，Voyant按照词频统计算法生成相关词云图（见图2）。King（国王）、Lord（上帝）、Love（爱）等关键词在词云中被突出显示，大略反映了莎士比亚创作时期的某种时代风貌，即当时仍深受王室和宗教的影响。除了词云功能，Voyant还有“Micosearch”和“TextualArc”等功能帮助用户将复杂的文本数据转化为可用且可辨别的图形。Micosearch通过热点分布的条状图形表示整个语料库中某个单词的频率和重复情况，以及在文本的特定章节该单词被使用的频率。此外，受到交互设计师W.布拉德福·佩利（W. Bradford Paley）开发的TextArc文本可视化分析软件的启发，Voyant增加了TextualArc功能选项，可针对单一文本进行交互式可视化分析，将信息以文本原始的线性顺序呈现。简言之，Voyant这一多功能分析平台让用户更好地探索复杂的词汇语义关系网络，帮助用户快速获取文本大数据中所蕴含的关键信息。

二、技术优势：“大分析”与“小阅读”交融

量化文本和基于词频的统计不是文本研究的全部内容，Voyant也不是为了给用户提供自动聚类的速食信息而存在。它旨在介入深度学术分析环节，而不是机械地切割文本。传统研究模式下的阅读一般是线性的、带有研究目的，研究者充分尊重文本顺序和逻辑，关注单一文本中所包含的信息，可这样的阅读方式覆盖的文本量相对于文献整体而言极其有限。而基于计算机技术的文本分析方式可以对海量文本进行挖掘，如當前极具代表性的Google Ngram大规模图书词频统计工具。它“阅读”海量书籍并生成一个易于使用的、低门槛的智能语料库，用户可以在上面查到某个单词在19世纪以来800多万册书中出现的频率（见图4）。但是和统计自身固定图书语料库词频的Ngram不同，Voyant可以灵活接受用户提供的语料库并加以统计。此外，为了更加贴近信息时代的用户需求，Voyant一直在扩充语料库计算能力。相较于之前只能处理几兆（MB）字节的HyperPo和Taporware，现在的Voyant可以处理几十兆甚至更大的语料库并进行微观分析。

正如学者金雯和李绳在《“大数据”分析与文学研究》一文中所表明的观点，人脑和电脑在解释文本时可以互补短长，互为体用。Voyant的海量文本分析功能和用户个人的“小阅读”存在许多可以调和与合作的空间。例如，文学研究者在解释文学形式的变化时，很难仅凭有限的阅读量证明自己的观点；但是，其可以通过Voyant获得有力的数据支持。换言之，用户通过“小阅读”得到的思维结果为Voyant对文本的大数据分析提供重要导向，或者直接得到后者的数据。此外，Voyant可以追踪一些人脑难以注意的封闭词类和标点符号，帮助用户对文体和不同文本之间的相似度进行判断。斯坦福研究者发现，美国小说中“the”的出现频率比在英国小说中大约低一个百分点，这或可成为小说文本国别区分的判断依据之一。学者肯顿·兰布西（Kenton Rambsy）利用Voyant对佐拉·尼尔·赫斯顿（Zora Neale Hurston）和理查德·赖特（Richard Wright）创作的10篇短篇小说进行文本分析，通过测量语言密度探究非裔美国作者短篇小说的文体特征，发现赫斯顿相较于赖特在创作中更倾向通过描述特定对象和细节特征来塑造人物。Voyant将计算机和人脑在不同层面上触摸到的关于文本的“事实”相结合，以实现“大分析”和“小阅读”的交融。如今，越来越多的人文学者乐于使用Voyant之类的电脑算法工具为传统的人文研究方法提供必要的补充。

三、发展方向：研究基础设施和专业教育工具

作为一个文本分析平台，Voyant一直专注于在人文科学领域推广数据思维、数据技术和数据方法。随着纸质资料的数字化和数字原生型人文数据的增加，现代人文科学正朝着可计算的方向发展。卢森堡大学的马克斯·肯曼（Max Kemman）在完成“电子邮件共和国”（A Republic of Emails）项目时，通过维基解密（Wikileaks）获取了30000封希拉里的電子邮件，并借助Voyant在“远阅读”和“近阅读”之间来回切换，发掘出一些有价值的研究路径。例如通过“CC”（Carbon Copy，抄送）链接图可以发现杰克·沙利文（Jacob Sullivan）和彻列尔·米尔斯（Cheryll Milss）这两位希拉里集团中的核心顾问经常出现在其电子邮件的抄送名单中（见图5）。除了学者个人的小型研究，Voyant还被多个国际数字人文项目视为文本处理基础设施的一部分。Huma-Num是法国一个关于数字人文研究的大型研究基础设施项目（Très Grande Infrastructure de Recherche，T.G.I.R），为人文和社会科学研究中数字数据的长期存储、处理、显示、传播和保存提供一整套服务。Voyant是Huma-Num项目主要的文本处理工具，为用户提供阅读和分析数字文本的在线环境。此外，Voyant还为德国数字人文项目DARIAH-DE和加拿大写作研究合作实验室（Canadian Writing Research Collaboratory，CWRC）开展学术研究提供基础设施服务。

在数字人文研究中应用新型工具和网络平台不仅是为了提供专业技术解决方案，也有助于推动文本分析技术在与人文学科教育中创新型路径的探索。Voyant现已在数字人文教育中占据一席之地，在多家高校图书馆网页上被列为教学资源，其中包括宾夕法尼亚大学、杜克大学和加利福尼亚大学洛杉矶分校。在美国埃默里大学的本科生课堂上，学生被要求学习如何借助Voyant平台开展原创性数字人文研究，以及“远阅读”大量文学资料。除此之外，Voyant还出现在许多高校课程的教学大纲中。圣母大学的计算机文学史课程指导研究生使用Voyant平台学习人文领域的量化工作，乔治梅森大学在数字人文理论与实践课堂上借助Voyant帮助学生理解数字媒体和技术对历史理论研究的影响。利用文本分析技术和方法改进数字人文学科的教育已经成为Voyant的一项重要功能。同时，这些教育活动也在帮助Voyant理解和界定数字人文学科。

四、结语

如今，虽然已经有许多人文学者采纳数据统计作为文本研究的必要手段，但“远阅读”仍是一个备受争议的理论。一方面，远距离阅读在发现问题的同时并不能给出合理解释。例如，Voyant汇总和分析海量文本时多是在探索文本之间的相关性，忽视了传统文本研究一直重视的因果性分析；将科学研究范式套用到文本研究后得出的研究成果缺乏可靠的理论支撑。另一方面，对于许多读者和文学学者而言，“远阅读”将人文世界变成了没有“美感”的科学领域：人文领域本身的魅力被有用的数据和信息取代，读者对文本信息进行深度理解的意愿被分散和降低。

过分“展示”数据和“聚合”事实并不能让人文学科取得实质性进展，因此学者须进一步探讨远距离阅读的合理性和可行性。同时，文本分析技术和工具也面临着“远阅读”带来的难题：在技术实现方面，如何做到把文本数据分析和学者的文学阐释结合起来，介入到更深层次的学术分析环节，让数据分析服务于研究理念。毫无疑问，文本分析技术是要创新传统人文研究方法，而非取而代之。未来在运用“远阅读”相关的文本分析技术和工具时，究竟要调试到怎样一个“距离”（distance）来配合文本研究才算恰到好处？这是每个像Voyant这样的平台都要思考的问题。

参考文献：

1.王涛.18世纪德语历史文献的数据挖掘——以主题模型为例[J].学海，2017（1）：206-216.

2.Lauren F.Klein. Exploratory Thematic Analysis for Digitized Archival Collections[J].Art & Humanities，2015（30）：130-141.

3.胡悦融，等.数字人文背景下“远距离可视化阅读”探析[J].图书馆论坛，2017（2）：1-9.

4.金雯，李绳.“大数据”分析与文学研究[J].中国图书评论，2014（4）：69-75.

5.Kathryn Schulz. What is Distant Reading[EB/OL].[2018-05-22]. https：//www.nytimes.com/2011/06/26/books/review/the-mechanic-muse-what-is-distant-reading.html.

6.王晓光.“数字人文”的产生、发展与前沿.方法创新与哲学社会科学发展[M].武汉：武汉大学出版社，2010：11.

7.S.J.Nicke， G.Franzini.On Close and Distant Reading in Digital Humanities： A Survey and Future Challenges[C].The Eurographics Association 2015.

8.Rachel Serlen.The Distant Future？ Reading Franco Moretti[EB/OL].[2018-05-21].https：//onlinelibrary.wiley.com/doi/full/10.1111/j.1741-4113.2009.00669.x.

（作者单位系武汉大学信息管理学院、武汉大学数字出版研究所）