大数据文本分析与文学研究

2017-12-01 02:55苏明静
小品文选刊 2017年24期
关键词:远距离文学文本

苏明静

(南京师范大学 江苏 南京 210000)

大数据文本分析与文学研究

苏明静

(南京师范大学 江苏 南京 210000)

随着电子扫描、跨库检索技术的发展、可共享数据库的建立以及大数据分析工具的广泛应用,越来越多的文学研究者尝试使用大数据文本分析进行文学研究。虽说这种使用数字技术进行文学研究的远距离阅读方法相比传统文学研究方法有一定的优势。但无论是从物理的硬件条件、远距离阅读实施的过程和结果还是从研究者本身来看,它都有着许多难以忽视的缺点和弊端。所以,虽说远距离阅读来势汹汹,但它却并不优于传统的文本细读,它只是文学研究的一种新方法,是对文学研究方法的补充,可以为传统文学研究理论成果提供支持。

大数据;文本分析;文学研究;远距离阅读

1 大数据与大数据分析

大数据是在高端技术以及高科技和新型集成技术基础上的大规模、多样化和复杂化的数据集。理念中,大数据应包括结构化、半结构化和非结构化数据,但实际上大数据主要是由非结构化数据构成的:大数据是指那些需要特殊的技术、分析工具和算法将其变得有价值的具有高容量、高速度和多样性等特点的信息集合。[1]大数据分析是大数据时代的关键任务;是大数据理念与方法的核心;是指对海量类型多样、增长快速、内容真实的数据进行分析,并从中找出可以帮助决策的隐藏模式、未知的相关关系以及其他有用信息的过程。[2]

2 大数据文本分析与文学研究

使用大数据文本分析进行文学研究,实际上就是将计算机分析技术从自然科学领域和社会学科领域延伸到人文学科领域。而运用计算机技术研究人文学科领域的问题这个想法实际上并不新颖,早在1980年,罗伯托·布萨就提出了将计算技术运用于人文领域的设想,并通过《托马斯著作索引》展示了其发展前景。

2.1 大数据文本分析

文本分析是对文本的表示及其特征项的选取,通过将从文本中抽取出的特征词进行量化来表示文本信息。它是文本挖掘、信息检索领域的一个基本研究问题。文本大数据分析技术旨在通过大数据技术对海量的无结构的文本字符串中包含的词、语法、语义等信息进行表示、理解和抽取,挖掘和分析出其中存在的事实以及隐含的立场、观点和价值,进而推断出文本生成者的意图和目的。[3]

2.2 大数据文本分析在文学研究中的运用

随着电子扫描技术的发展、可跨国可共享数据库的建立以及大数据分析工具的广泛应用,使用大数据文本分析进行文学研究成为可能。将大数据文本分析方法运用于文学研究中,就产生了一种新的文学研究法——“远距离阅读”。这个文学概念是由美国斯坦福大学教授弗朗哥·莫莱蒂于2000年提出的,并于2010年付诸于实践。2010年,莫莱蒂同马修·乔克斯一同成立了斯坦福文学研究室,并建立了一个包含3500余本十九世纪英国、美国和爱尔兰小说的数据库,利用大数据文本分析的方法进行文学研究。莫莱蒂认为:要真正地理解文学,应该在一定时间内面对成千上万的文本而不能仅局限于反复地阅读某几部作品。小部分的经典作品并不能提供文学的全貌,文学事实的呈现更在于“未被阅读的大多数”。[4]

使用电脑技术进行文学研究的大数据文本分析方法属于“数字人文”的范畴。数字人文,既是一门学科又是一种方法论,基于方法论,数字人文可以归纳为利用知识产生、分散、收集等手段对人文学科进行补充,即在已存在的客体知识与我们推测的概念模型之间建模。其中的客体知识是客观的,即没有认识主体的知识,不以主体的主观意志为转移,是一种真实存在的研究对象。使用大数据文本分析方法进行文学研究的理论基础就在于这种知识客观性的认识。[5]

那么,如何使用大数据文本分析进行文学研究呢,以莫莱蒂使用电脑技术进行文学研究的方法为例,首先,确定研究问题和研究目标;第二步,划定数据库范围和内容,获取足够多的数据;第三步,选择关键词,即有代表性和区分性的词汇;第四步,确定关键词出现的频率,并对其进行计量;最后,进行文学解读。总的来说,这就是一个词频检索和计算的过程。

3 大数据文本分析的局限性

现今大数据成为了一股不可阻挡的洪流,渗透了人们生活的方方面面,文学研究也不可避免的受到了影响。国内外很多学者都开始尝试着使用大数据分析进行文学研究,并且取得了一定成果。由此可见,使用大数据分析进行文学研究是有一定的优越性存在的。有部分学者甚至认为使用大数据文本分析进行文学研究的方法即“远距离阅读”是文学研究的大趋势且在一定意义上优于传统的文学研究方法即“文本细读”。

虽然使用大数据文本分析进行文学研究有一定的优势,比如在处理大量文本时。通过将文本转换成数据,并进行计量分析,可以发现共性问题且得出文学普遍规律。但是远距离阅读也有很多不可忽视的缺点和弊端。从物理的硬件条件来看,数据库中收集的电子文本数量不足,并未将所有文本都收录进数据库,且这些电子化的图书大多为英文图书。很多国家没有系统化地进行书籍电子化的技术条件。更别提普通学者在使用这些数据时还会受到版权等限制。一般来说,文本产生的年代离现在越远,留存下来的文本就越少,大量的文献遗留在了漫漫历史长河之中。使用大数据文本分析法研究的出发点之一就是——小部分的经典作品并不能展现文学全貌,为避免局限于经典作品之中,通过将研究对象扩大到成千上万的文本,达到真正理解文学的目的。[4]但实际上,能通过时间的考验留存下来的文本大多是“经典的”,在这个意义上其实并不存在“未被阅读的大多数”。另外,远距离阅读还受到技术上的局限。首先,大数据分析技术还不成熟。大数据分析软件少,功能不强,难以对大量数据进行复杂分析。且处理数据的算法单一,算法的缺陷较大,并不适合所有的文学研究。其次,电子扫描、书籍数字化等技术的发展不完善使得捕获数据的质量无法得到保障,从而影响到分析结果的精确性。改善这些问题需要大量资金,这对于发展中国家和地区来说尤为困难。技术上的问题使得远距离阅读变得高成本,在极大的程度上阻碍了远距离阅读的发展和推广。

从远距离阅读实施的过程和结果来看。

首先,虽说远距离阅读可能产生规律性的结论,但是却失去了单个文本的独特性和文本细读的乐趣与体验。其次,在远距离阅读关键词的选取上存在着极强的主观性,而关键词选取的偏差可能会影响分析结果。除此之外,远距离阅读在进行情感分析和价值判断上存在着不可忽视的缺陷性。另外,在利用电脑技术进行大数据宏观分析时,会随之产生一个问题:“与对小数据集的分析相比,大数据分析往往比较浅;在许多大数据项目中,并没有发生大数据分析,仅是对数据的提取、转换和加载等预处理过程。”[6]

最后,从研究者本身来看。从事文学研究的学者,普遍缺乏对计算机技术的了解和掌握。大部分文学研究者需要先学习相关的检索、制表等知识,再进行远距离阅读,这无疑限制了文学研究者选择运用大数据文本分析进行文学研究。

而文本细读却有着远距离阅读无法匹及的优点。得益于人类的认知过程,与机器相比,人类在文本理解上有着显著的优势,如:高精度、高效率、自学习和低能耗等。多层次抽象知识和背景知识是人类认知过程的明显特征。利用文本的多层次抽象性,人类可以在不同的应用场景中的不同语义粒度中使用文本。基于背景知识,人们可以理解新文本或是不定语义的文本。[7]

4 结论

由此可见,虽说远距离阅读来势汹汹,但若说它优于传统的文本细读并成为势不可挡的大趋势还为时尚早。我们应正确看待远距离阅读及远距离阅读与文本细读即传统文学研究之间的关系。利用计算机进行人文学科领域的研究,实际上是为研究中存在的问题提供了一种新的研究方法和实证支持。远距离阅读只是文学研究的一种新方法,是对文学研究方法的补充,可以为传统文学研究理论成果提供支持,而并不能取代传统的文本细读。

[1] Mauro A D,Greco M,Grimaldi M.A formal definition of Big Data based on its essential features[J].Library Review,2016,65(3):122-135.

[2] 官思发,孟玺,李宗洁,等.大数据分析研究现状、问题与对策[J].情报杂志,2015(5):98-104.

[3] 窦志成.文本大数据分析技术的机遇与挑战[J].金融电子化,2015(11):59-61.

[4] 周才庶.统计文艺学:大数据时代文学研究的新范式[J].文艺理论研究,2016(5):99-107.

[5] 陈晓辉.大数据时代的文学研究方法——基于弗兰克·莫莱蒂文学定量分析法的考察[J].文艺理论研究,2016(2):70-77.

[6] Piatetsky G.Interview:Michael Berthold,KNIME Founder,on Research,Creativity,Big Data,and Privacy,Part 2.12 August 2014.Kdnuggets.http://www.kdnuggets.com/2014/08/interview-michael-berthold-knime-research-big-data-privacy-part2.html,16 June 2017.

[7] Wei X,Zhang J,Zeng D D,et al.A multi-level text representation model within background knowledge based on human cognitive process for big data analysis[J].Cluster Computing,2016,19(3):1-13.

苏明静(1993-),女,汉族,山东人,硕士研究生,南京师范大学,研二,英语语言文学,英美文学。

G434

A

1672-5832(2017)12-0252-02

猜你喜欢
远距离文学文本
文本联读学概括 细致观察促写作
基于降低远距离输电过程中无功功率的设计方案论述
我们需要文学
俄罗斯
作为“文本链”的元电影
搭文本之桥 铺生活之路 引习作之流
“太虚幻境”的文学溯源
捐献
我与文学三十年
走进文本 走近大师 走出文本 走向生活