ChatGPT 对数字人文研究的影响刍议

2023-10-02 14:59:36李少建中国人民大学信息资源管理学院中国人民大学数字人文研究院
浙江档案 2023年7期
关键词:人文数字文本

李少建/中国人民大学信息资源管理学院 中国人民大学数字人文研究院

1 引言

ChatGPT是由OpenAI开发的一种基于深度学习的自然语言处理模型,它使用了一个名为Transformer的神经网络架构,该架构利用了自注意力机制,能够很好地处理自然语言的语义和上下文关系。经过训练,ChatGPT能够生成自然流畅的文本,并在各种应用中展现出惊人的效果,已被广泛应用于各种场景,如自动化写作、机器翻译、智能客服等,是一个具有巨大潜力的自然语言处理模型。数字人文(Digital Humanities,DH),源于人文计算(Humanities Computing),是在计算机技术、网络技术、多媒体技术等新兴技术支撑下开展人文研究而形成的新型跨学科研究领域[1]。在数字人文研究中,研究者通常需要处理大量的文本数据,包括文学作品、历史文献、社交媒体数据等。这些文本数据的分析和解释需要一定的语言理解和生成能力,而ChatGPT恰好在这方面展现出了强大的应用价值。ChatGPT可以用于文本生成、摘要、文本分类、机器翻译等多种任务,这些任务都是数字人文研究中常见的步骤与过程。ChatGPT作为一种强大的语言模型,为数字人文研究提供了新的思路和方法,同样它也给数字人文研究带来了挑战。

2 研究回顾

ChatGPT作为GPT技术在对话生成任务上的应用,其发展伴随着自然语言处理技术的发展而不断完善和优化。ChatGPT采用了Transformer模型、思维链、基于人类反馈的强化学习等技术,并且从GPT-1到GPT-4,其模型的规模呈现指数级增大,训练数据也愈发丰富,同时其性能和表现也在每一次升级中得到了显著的改进,不断扩充其在各种应用场景的巨大潜力。自2023年1月至5月底,中国知网上的期刊论文中已发表530余篇ChatGPT的相关论文,报纸文章560余篇,可见相关话题的热度之高。相关论文涉及面很广,但多以探讨ChatGPT对各行业带来的影响为主,如郭潇雅、孔祥勇[2-3]等论及医疗行业,徐敬宏、沈卫星[4-5]等论及出版行业,刘妍、吴青[6-7]等论及教育行业,曾雄、李燕[8-9]等论及金融行业,舒洪水、文婷[10-11]等论及法律行业。信息资源管理领域的相关热议有蔡迎春、赵瑞雪[12-13]等讨论了ChatGPT对图书馆的影响。曹树金、尹克寒[14-15]等讨论了ChatGPT对情报学的影响。周文欢[16]讨论了ChatGPT在档案文本摘要,档案分类等方面的作用。陆伟[17]等人论述了ChatGPT为代表的大模型对信息资源管理的影响。叶鹰等人[18]阐述了GPT类技术对数字人文在语料库建设,文本分析,文本生成,跨语言处理方面的技术支持以及在创意写作与生成艺术,语言学研究,文化遗产保护,语义网络构建等方面的拓展影响。但该文是从宏观视角阐述了GPT类技术对数字人文重塑,而本文旨在从微观视角入手,以朱本军,聂华[19]对全球“数字人文”项目实践的梳理和归纳总结得出的4个数字人文研究的主要内容入手,分析ChatGPT为数字人文研究带来的影响。

3 ChatGPT为数字人文研究提供的机遇

3.1 人文数据库或数据集建设

ChatGPT的出现对人文数据库或数据集的建设方面产生了积极影响。首先,它为人文数据库和数据集的建设提供了新的工具和技术,使数字人文研究得以更加深入和全面地开展。将非数字的人文资料加工转化为数字内容,对非结构化的数字文本内容按照某种使用目的进行规范化标注著录的数据集建设,这两项工作是数字人文研究的前期基础,是数字人文研究内容的重要来源之一。其次,GPT-4作为一个大型多模态模型,可以支持对多模态数据载体的处理,如对非结构化、半结构化文本进行结构化处理,从而为研究内容的数据化,以及数据集的建设提供便利。在数字人文研究领域中,许多项目和研究需要处理大量文本数据,例如历史文献、数据集、语料库等等,同时不少数字人文项目涉及多模态,ChatGPT可以作为一种有效的工具来处理这些数据,并且可以通过对这些数据的学习来生成新的文本内容。再次,ChatGPT可以利用其强大的自然语言理解和生成能力,为非结构化数字文本内容提供高质量的摘要、标题、关键词等元数据信息。同时也可以根据不同的研究主题和需求,为非结构化数字文本内容进行智能分类和聚类,形成不同领域或子领域的数据集。通过ChatGPT建设的高质量数据集可以提高人文数据的可视化和交互性,使其更容易被分析和理解,同时也降低了数字技术对人文研究者的门槛。

3.2 人文数字工具的开发使用

数字工具和平台在数字人文研究中所起的作用主要是处理低水平重复的工作,如资料查找、文本比对、文本标记等,将人文学者从“体力劳动”中解放出来,让其将精力放在更高深的人文问题研究中[20],这一方面ChatGPT无疑展现了其巨大价值。另外使用或设计非人文领域研究方法的数字工具来理解和分析数据集。常见工具方法有社会网络分析,地理信息系统,知识图谱等,如社会网络分析(Social Network Analysis,SNA)是对社会网络中各种关系结构及其属性加以分析的一套理论和方法,它主要分析的是行动者之间的关系模式[21]。当前数字人文研究中运用社会网络语分析来处理历史人物的亲属关系或社会关系的研究已十分常见。在社会网络分析中,最基础也是最重要的信息就是社会网络关系中的节点与边,节点即为要分析的具体对象,边即为对象与对象之间的联系。通过ChatGPT,可以快速获取相关的节点与边的数据,并将其导入gephi、ucinet等社会网络分析工具中,从而得到对应的社会网络。以《红楼梦》社会网络关系构建为例,通过ChatGPT快速构建红楼梦社会网络关系的步骤。第一步是提取《红楼梦》中的人物信息,并将人物转化成社会网络关系中节点,通过提问可快速从ChatGPT处得到相关信息,并且可通过重复要求和训练从而更加全面地获取红楼梦中主要人物信息。第二步是构建社会网络关系中的边,也即第一步所得到的人物与人物之间的关系。至此构建《红楼梦》社会网络关系的基本信息已获取,由于经过指令,ChatGPT输出的信息都是较为规范的结构化数据,因此可以将询问ChatGPT所得信息复制下来保存为txt文本,再通过ChatGPT生成代码将文本批量转换为人物与人物之间关系的CSV文件,最后将得到的CSV文件导入至neo4j中即可得到《红楼梦》的社会网络关系。采用ChatGPT大大减少数字人文研究中运用社会网络分析方法时获取基础数据较为麻烦的问题,以及解决部分研究者因并未同时掌握python、neo4j、gephi等相关技术工具而无法完成一个完整的数字人文研究的问题,大大提升研究的效率和质量,拓宽研究的视角与方法。

3.3 人文研究方法和研究范式

数字人文研究将人文学者较多采用的定性研究转变为定性研究与定量研究相辅助的形式。而ChatGPT可以帮助人文学者利用机器学习和自然语言处理等技术,帮助人文学者探索和分析大量的文本数据,将定性研究与定量研究相结合,从更多的角度和维度开展人文相关的研究。改变传统通常基于人工标注和手动分析的文本分析方法,可以通过机器学习和自然语言处理技术,实现自动处理和分析大量的文本数据。这种自动化的文本分析方法可以为人文学者提供更快捷、更全面、更准确地分析结果。比如ChatGPT可以对大量的文本数据进行分析和建模,识别和提取文本中的主题和话题,对文本进行分类,帮助人文学者批量发现、理解和处理文本中的主题,了解文本的情感色彩和情感变化,以便进行定性和定量分析。其次,ChatGPT还能帮助运用知识图谱和关系建模开展相关研究,例如使用实体识别和关系提取技术来识别文本中的实体和关系,组织和表示大量的文本数据,帮助人文学者发现和理解文本中的关系和联系以帮助人文学者构建知识图谱和进行关系分析。再次,其也可帮助人文学者进行数据可视化和交互分析,ChatGPT可以使用各种数据可视化和交互分析工具来帮助人文学者理解和探索大量的文本数据。例如,ChatGPT可以帮助使用网络图和热力图等可视化工具来展示文本中的关系和变化,以帮助人文学者发现和理解文本中的模式和趋势。这种结合可以为人文学者带来新的研究方法和研究范式,从而促进人文学科的创新和发展。

3.4 人文领域的创造性破坏与建设

作为创新的两种类型,延续性创新与创造性破坏(Creative Destruction)在范式演进的全链条中交替发生作用,后者是前者与需求侧矛盾转化的自然结果[22]。创造性破坏是人类进步的常态,在数字人文领域,这种“破坏”带来的不是文化之死,而是更为多彩的文化[23]。作为一种先进的人工智能技术,ChatGPT的出现与数字人文的出现,在某种程度上都是颠覆传统的,而如果再将二者相结合,那必定会碰撞出更具有颠覆性的火花。首先从传统人文研究的内容角度上而言,数字人文研究可以对其进行知识重组与知识库构建。如中国历代人物传记资料库(China Biographical Database,CBDB),由哈佛大学费正清中国研究中心、台湾中央研究院历史语言研究所及北京大学中国古代史研究中心三方合作进行,系统性地收入中国历史上所有重要的传记资料,截至2022年8月为止,共收录约五十二万余人的传记资料,这些人物主要出自七世纪至十九世纪。就传统人文研究的方式而言,学者穷尽一生也许都难以从各种书中阅览完这些人物传记资料。ChatGPT作为一种基于人工智能技术的语言模型,可以通过大规模的语料库训练,传统的人文研究需要大量的人力和时间进行文本分析和研究,而ChatGPT可以通过自动化的文本分析技术,快速地分析和理解大量的文本数据,从而挖掘出隐藏在文本中的知识和信息。同时传统的人文研究往往受限于数据的规模和质量,而ChatGPT可以通过大规模的数据处理和分析,挖掘出更多的知识和信息。

传统人文研究的思路角度上,ChatGPT可以为相关数字人文研究提供研究的思路与灵感,通过分析和学习大量的文学、艺术、社会、文化等方面的数据,ChatGPT可以自动生成一些新的、具有创造性的文化、社会、艺术、文学等内容,提供一些素材、构思、情节等方面的支持,激发人文学者的想象力和创造性,为研究者提供一些新的创意和灵感。同时也可以直接利用ChatGPT在文学、艺术等领域中,如AI写诗与AI绘画等。ChatGPT可以生成自然语言文本,例如可以根据用户输入的数据生成诗歌、散文、小说等文学作品,或者模拟人物对话、写作等场景。但需要注意的是,ChatGPT目前还存在一些限制和局限性,例如在文学、艺术等领域中,它仍然难以完全替代人类的创作和审美能力。因此,ChatGPT在数字人文领域的创造性破坏与建设方面,还需要不断地探索和优化以发挥更大的作用。

4 ChatGPT给数字人文研究带来的挑战

4.1 对数字人文从业者的挑战

ChatGPT在数字人文领域的广泛应用,给数字人文从业者带来了一系列挑战。虽然ChatGPT所带来的显著特点在于自动化取代人工的趋势更甚,但是数字人文从业者需要意识到,在这个数字化、智能化的时代,他们的职业生涯需要不断地适应和调整。首先,ChatGPT可以通过自动化的文本分析技术,快速地分析和理解大量的文本数据,从而取代了一部分需要人工分析和研究的工作,尤其是文字与编辑方面的工作,数字人文相关从业者可能会面临职业转型的压力。因此,他们需要及时提升个人能力,拥抱数字技术,以适应新形势下完成相应任务的更高要求与更多方法。其次,随着人工智能与人文学科的交叉的不断深入,数字人文从业者需要具备跨学科的知识和技能,以便于将人工智能技术应用到相应人文学科领域中。他们需要不断学习和更新知识,以满足不断变化的需求。同时数字人文从业者需要注意避免技术依赖,不能过度依赖ChatGPT等语言模型技术,从而导致技术上的困境和瓶颈,影响数字人文领域的创新和发展。最后,数字人文从业者需要意识到人文学科的价值和意义,不能将数字技术完全取代人文学科的研究方法和思维方式,否则可能会损害数字人文领域的价值和意义。数字人文从业者需要认识到,数字技术的发展需要与人文学科的研究相结合,以推动数字人文领域的创新和发展。他们需要不断地探索和创新,以满足不同领域的需求。只有这样,数字人文从业者才能在这个数字化时代中保持竞争力,为数字人文领域的发展作出更大的贡献。

4.2 对数字人文教育的挑战

ChatGPT的出现对数字人文教育也将带来一些冲击。首先,数字人文教育需要重新审视其教学目标和方法。随着其智能化程度的不断发展,应用场景的不断拓展,技术工具在数字人文研究中的应用将逐渐普遍化和低门槛化,使人文研究从过去以资源占有为决定性因素,转变为如今以提出问题的想象力为驱动的“第四范式”[24]。因此,数字人文教育需更注重培养学生的创新能力,使其能在思维创新和创造力层面超越人工智能。其次,数字人文教育需要不断更新和调整课程内容,以应对新技术和工具的应用。ChatGPT等自然语言处理技术的出现意味着数字人文教育需更深入地探索和应用这些技术,以帮助学生更好地理解和应用这些新技术。数字人文教育还需要将数字技术和传统的人文学科知识相互结合,以提高学生的综合素质。再次,数字人文教师的角色也将发生变化。数字人文教育的发展可能使得教师需要更多地担任指导和辅导的角色,而不是传统的讲授和评估的角色。教师需要更加注重学生的个性化需求和学习能力,以帮助他们更好地掌握数字人文技术和工具,并发挥其创新能力。数字人文教师还需要不断地学习和更新自己的知识和技能,以适应数字时代数字人文教育的发展。最后,数字鸿沟将扩大。数字技术和工具的应用和普及程度不同将导致数字鸿沟的扩大,一些学生和教师可能由于主观或客观的原因,无法充分利用数字人文教育所提供的机会和资源,数字人文教育需要更加注重教育公平,为每个学生提供平等的机会和资源,以便于他们掌握数字人文技术和工具,从而更好地开展数字人文研究。

5 结语

ChatGPT技术的发展为数字人文研究带来了广泛的应用前景,它是建立在海量语料库的基础上进行训练的人工智能技术,其实现了对人类语言能力的高度还原,同时在经过千千万万人的会话微调后,其性能不断提高,更加贴近于人类的认知习惯。但ChatGPT的强大并没有什么理论的创新,也没有构造多巧妙的算法,其能力来自人工神经网络规模达到数百亿之后出现的复杂系统涌现现象,至于其实现的原理尚未可知。约翰·霍兰作为涌现理论奠基人,他是公认的“遗传算法之父”,他曾指出涌现现象也会在那些至今几乎还没有什么规律可循的领域中发生[25],而ChatGPT就是一个生动的例子。但ChatGPT一个最大的缺点在于其无法保证生成内容的准确性与真实性,有时生成的内容完全是胡编乱造。在最近发表于《Nature》上的文章《ChatGPT:五个重要的研究问题》中,研究者指出,如果将ChatGPT用于科学界,必须坚持人类审查的原则。同样,在数字人文研究中使用ChatGPT也必须保证有人对其进行人工审核和纠正。我们需要充分认识到其应用的潜力和限制,不断提高我们的技术和方法水平,以更好地应用ChatGPT技术开展数字人文研究。

猜你喜欢
人文数字文本
人文
北京纪事(2024年1期)2024-01-03 03:16:55
在808DA上文本显示的改善
基于doc2vec和TF-IDF的相似文本识别
电子制作(2018年18期)2018-11-14 01:48:06
答数字
人文绍兴
中国三峡(2017年3期)2017-06-09 08:14:59
数字看G20
南风窗(2016年19期)2016-09-21 16:56:12
人文社科
全国新书目(2016年5期)2016-06-08 08:54:10
文本之中·文本之外·文本之上——童话故事《坐井观天》的教学隐喻
让人文光辉照耀未来
成双成对