人工智能时代的“新子学”试探

2019-06-25 08:29金把路
名作欣赏·学术版 2019年5期
关键词:人文人工智能数字

金把路

摘要:本文以数字人文的观点为基础,提出了在人工智能时代的新子学发展方向,探讨了新子学所提倡的自由性、开放性、多样性、平等性、包容性在数字世界的实现方法。笔者把数字人文研究领域分为设计、建造、分析、解释、视觉化,而试论了各领域应用对新子学的研究。设计与建造领域提出了“数字《子藏》”“数字新子学”“新子学人工智能伦理模型”的概念。分析與解释领域介绍了文本挖掘、社会网络分析、空间分析的常用数字分析方法以及其方法在新子学上的应用。本文最后简单提到新子学在视觉化领域的几种应用。

关键词:“新子学” 数字 人文 人工智能

一、前言

自谷歌(Google)的阿尔法围棋(AlphaGo)击败人类职业围棋选手以后,人工智能迅速地进入大众视野。有人期待人工智能与人类合作的乌托邦(Utopia),有人担心人工智能统治人类的反乌托邦(Dystopia),但不管如何,人类从来不会放弃手里的武器。我们无法阻挡人工智能技术的发展,我们只能领导人工智能技术的发展轨迹。哲学界已经针对人工智能进行了许多研究,其代表有约翰·罗杰斯·希尔勒的“中文房间”(Chinese room),但是哲学界针对人工智能的探索大部分留在哲学思辨领域。哲学家是以局外人的立场,观察、探索、预测人工智能与人工智能所带来的未来。虽然哲学的局外省察也格外重要,但是人工智能能否应用于哲学领域呢?

西方人文学界已经开始提倡数字与人文学融合的数字人文(Digital Humanities)。数字人文是对数字技术与人文学之间的交叉领域进行研究、教育以及创新的一门学科,它不仅力求传统文本的数字化,还考虑到文本挖掘(Text Mining)、社会网络分析(Social Network Analysis)、空间分析(Spatial Analysis)等数字分析方法与多媒体、虚拟现实(Virtual Reality,VR)、增强现实(Augmented Reality,AR)等数字视觉化,在历史、哲学、文学等人文学研究领域的应用。简单地说,数字人文是在传统人文学研究的基础上导人数字的研究方法。数字人文的本质还是对人类的探究,只是传统人文学以纸张为基础,而数字人文以数字为基础。数字人文借用计算机的能力,可实现人类无法或者难以实现的情报搜集、分析与共享,还可以实现纸张无法提供的多媒体视觉化。

论者把数字人文研究领域分为设计、建造、分析、解释、视觉化。设计是为了人文学情报数字化,研究人文学各个研究对象的结构与内容;建造是按照设计结果,新造、再编、运营人文数据库;分析是以人文数据为基础,以传统人文学研究方法结合文本挖掘、社会网络分析、空间分析等的数字分析方法导出分析结果数据的领域;解释是通过人文学的观点与思维,在分析结果数据上赋予意义的领域;视觉化是设计结果、人文数据、分析结果数据、解释结果变为适用于人类可读的领域。本文以数字人文的观点为基础,探讨在人工智能时代实现“新子学”研究的自由性、开放性、多样性、平等性、包容性的现实方法。

二、设计与建造

(一)人文数据概述

设计与建造都是数据的领域。人文学领域已经有丰富的纸张情报,所以人文学领域比较关心数字化(digitalization)。但是很多人文学领域的人士忽略数据的质量。根据键连公开数据(Linked Open Data,LOD),数据可分为五个等级。

第五等级的条件是制作权公开(Open Licence),我们一般接触的PDF文件属于这一类。数字网络的最大特点在情报的共享,如果某一个情报无法共享等于没有数据。第四等级的条件是制作权公开与可再用(Reusable),我们一般接触的Excel文件属于这一类。为了借用计算机的力量,必须建造机器可读数据(machine readable data),虽然最近PDF文件通过光学字符识别(Optical Character Recognition,OCR)可以变成文本(TEXT),但是其导出的文本还是有限的。机器有限地读出其内容意味着人工智能只能有限地处理其内容。第三等级的条件是制作权公开、可再用的、自由文件格式(Open format),其代表文件形式为csv格式。虽然我们常用Excel,但是Excel文件只能在微软的Office上才能运行,所以我们为了保障自由性,得采用自由文件格式。第二等级的条件是制作权公开、可再用的、自由文件格式、统一资源标志符(Uniform Resource Identifier,URI)。URI是为了同时保障多样性、平等性而产生的一种出处表明手段。如果方勇所想的“新子学”与金白铉所想的“新子学”是不同的,那么数字上分别表达为“方勇:新子学”“金白铉:新子学”,实际上是利用网络上常用的统一资源定位符(Uniform Resource Locator,URL)来表达。如果方勇的网站是“http://fangyong.com”,方勇的“新子学”可表达为“http://fangyong.com/新子学”。第一等级的条件是制作权公开、可再用的、自由文件格式、统一资源标志符、键连数据(Linked data)。人人皆有自己的想法,我们在第二等级的数据条件下,已经可建立各自的人文数据库。第一等级是各自的人文数据库互相连接的,比如中国“新子学”数据库与韩国“新子学”数据库之键连、“新子学”数据库与“新儒学”数据库之键连、“新子学”数据库与康德数据库之键连,但是现在大部分的人文数据连第五等级都达不到,重点在于机器可读性数据与数据共享。

如今,最高级的机器可读性数据是语义网(Semantic Web)。语义网是由万维网联盟的蒂姆·伯纳斯-李(Tim Bemers-Lee)在1998年提出的一个概念,它的核心是:通过给万维网上的文档(如HTML)添加能够被计算机所理解的语义(Meta data),从而使整个互联网成为一个通用的信息交换介质。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。不过语意网概念实际上是基于很多已有技术的,也依赖于后来和text-and-markup与知识表现的综合。为了实现语义网需要设计数字本体(digital ontology)。数字本体的基本要素为类(Class)、属性(Property)、个体(instance),基本形式为论域(domain)——关系( relation)——定义域(range)。

“老子”“《道德经》”“道可道,非常道”是个体,“老子”“王弼”“明太祖”属于“人物”类,“创作”“图像”“注解”是属性。“人物”类的“老子”个体——“创作”——“文献”类的“《道德经》”个体,我们可将其抽象化为“人物”类——“创作”——“文献”类(参考本文第一页“新子学”语义网概念图)。虽然数字本体的结构是比较简单的,但是語义网(Semantic Web)已经成功实现了各种人文数据库,如欧洲数位图书馆(Europeana)统合了欧洲各个图书馆、美术馆、博物馆的文化遗产情报。

需要注意的是,人文情报的结构与语义网的结构比较相似。从前人文情报的数字化依靠可扩展标记语言(Extensible Markup Language,XML)与关系数据库(Relational database.RDB)。虽然可扩展标记语言与关系数据库是商业上得到地位的方法,但还是无法完全包含数位情报的全部内容。相反,语义网以数字本体为基础可输入、运营、输出多层次的人文情报,还可以按照以往的人文数据进行伦理推论而找到新的情报。大胆地说,我们通过语义网,把人的思维移植到数字上了。

(二)设计与建造之应用

1.数字《子藏》

“新子学工作包括三个部分:文献、学术史、思想创造。这是逐步深入的研究步骤,也是并进的三个方面。”方勇所说的文献就是人工智能时代的数据。《子藏》搜集了世界各地的诸子百家文献而精选了其中的最好版本,体现了“全”与“精”,但是现在《子藏》出版于纸张。数字人文的立场也赞同搜集尽可能多的版本,但是数字人文无法赞同“选”版本而出版于纸张的行为,因为其行为本质上限制开放性、多样性。现在学者们难以接触《子藏》全集,只能看到选取的精本,在《子藏》上寻找所需的内容也十分艰难。因此笔者建议建设数字《子藏》,这是参考了CBETA汉文大藏经与CTEXT(中国哲学书电子化计划),建造全世界的相关学者们容易接近、查看、互动的数字《子藏》平台,数字《子藏》不仅推荐《子藏》项目所选的最好版本,同时还提供与其他版本之比较,这才是“全”与“精”的。

2.数字“新子学”

方勇曾说:“以往的研究大多以各子或者各家为对象,像一般的哲学史或者诸子学论著中,都以儒家、墨家、道家、法家等为章节,逐一加以论说,或仅论说诸子个人,如‘先秦七子一类。当代诸子学研究已经有了诸多积累,各种学派研究、重要子家的研究,成果都非常丰硕,即使诸如《鹗冠子》《文子》《鬻子》等典籍也都有可观的研究成果,这是综合性研究的基础。诸子学研究需要会通诸子学各家各派,回环往复地阅读研究,以通盘的视野看待诸子思想,这样才可能做到真正的综合”。但是在纸张上综合以往的成果是个难题,而且即使综合了成果可能也难以找到研究者个人所需要的。在将“新子学”的研究成果编纂为机器可读性数据的前提下,人工智能可以实现研究者的需求,甚至帮助研究者找到个人难以找到的情报。因此我们不仅应针对《子藏》进行数字化,还需要针对“新子学”研究与教育环境进行数字化。

3.“新子学”人工智能伦理模型

为了防止人工智能造成恶性未来,我们需要人工智能伦理模型。世界各国正在力求建立各种各样的人工智能伦理模型,但其伦理模型是以功利主义与康德主义为基础的。人工智能完全依靠伦理模型来判断,在现在的趋势下,就变成西方哲学的代行者。换个思路,我们能否建立老子人工智能伦理模型呢?西方伦理学有个著名的思想实验——有轨电车难题(Trolley Problem):“假设你看到一辆刹车坏了的有轨电车,即将撞上前方轨道上的五个人,而旁边的备用轨道上只有一个人,如果你什么都不做,五个人会被撞死。你手边有一个按钮,按下按钮,车会驶入备用轨道,只撞死一个人。你是否应该牺牲这一个人的生命而拯救另外五个人?”简单地说,以功利主义为基础的人工智能伦理模型一般会选择撞死一个人,但是以老子为基础的人工智能伦理模型可能与功利主义人工智能不同,也许会为了体现“无为”不按钮,也许会为了体现“自然”随机(random)按下按钮。

三、分析与解释

(一)数字分析与人文解释

以往的人文学研究用不着分开分析与解释,但是在计算机明明超越人类的计算能力的现实下,人文学也需要探索与计算机的合作之路。人工智能在条件限定的情况下,远远超过人类的认知与计算能力。如现在根本不会有人从北京走路到首尔,学术也没有理由回避借用计算机的能力。但人工智能无法限定条件,人类才能限定条件。更重要的是,到现在为止,人工智能无法判断其意义,无法赋予其意义,解释领域还在人类的手里。只是解释计算机分析结果的前提是针对计算机分析方法的理解。遗憾的是,人工智能的核心技术是深度学习(deep learning),而深度学习需要大数据(Big Data)。到目前为止,几乎没有大量的人文数据,所以现在难以直接利用深度学习进行人文学研究,只能依靠小数据(Small Data)的数字分析方法。现在比较成熟的数字分析方法为文本挖掘、社会网络分析、空间分析。

(二)文本挖掘

文本挖掘是用计算机进行语言文字分析的。语言分析方法众多,有自然语言处理(Natural Language Processing,NLP)、语料库语言学(corpus linguistics)、文本分类、文本聚类、共字分析(co-word analysis)、感情分析等。传统人文学研究经常进行版本比较研究,但是其研究一般是以少数文章之间的比较为主。因为个人难以进行异本之间的全文比较研究,所以只能依靠几十年积累的经验为基础的直观研究。文本挖掘如何应用在人文学研究上?可以参考“类书对应查询系统”所提供的《艺文类聚》与《太平御览》之间共引内容的比较功能。

《太平御览》的道部总共25条,其条内容在《艺文类聚》中涉及11部、总共29条。由其分析可知,唐代的居处部、灵异部、木部、山部、乐部、水部、宝玉部、果部、人部、礼部、药香草部到宋代都归为道部。更具体一点,《艺文类聚》灵异部的被荣都属于仙道,但在《太平御览》其条分为天仙、里所、服饵、地仙,而《太平御览》中地仙的内容来源不仅有《艺文类聚》的灵异部,还有木部、乐部、宝玉部、果部。从中我们可以理解唐代与宋代“仙”的概念之异同。以上情况,如果是个人进行研究,将会难以完成任务,或者只能选择几个案例,但是利用计算机,就很容易可以实现,并可以将剩下的时间投入在解释层面。我建议同一个方法应用在“新子学”文献之间的变迁研究上。

(三)社会网络分析

社会网络分析是通过网络中关系的分析研究网络的结构与属性特征的方法。属性特征是度中心性(Degree Centrality)、接近中心性(Closeness Centrality)、中介中心性(Between Centrality)等。社会网络分析的基本数据要素是来源( Source)与目标(Target)。例如,王弼注释了《老子》的“王弼(来源)——《老子》(目标)”。社会网络分析如何应用在人文学研究上?中国历代人物传记数据库(China Biographical Database Project,CBDB)提供了中国历史人物之间的社会网络分析之数据。

上图是1050至1100年間取得进士学位者之间的社会网络。网络中的关系一般为血缘关系:F是父亲,FF是祖父等。我们可以看出当时少数家族独占进士学位。与文本挖掘一样,个人基本上无法进行类似的研究,只能利用计算机观察到比较客观的整体状况。笔者建议同一个方法应用在历代“新子学”学者之间的分析上。

(四)空间分析

空间分析是对于地理空间现象的定量研究,以空间数据为基础,提取空间数据与其相关数据里潜在的信息。其主要研究为空间位置、空间分布、空间形态、空间距离、空间关系。历史地理学领域已有历史地理信息系统(Historical Geographic Information System,GIS)。空间分析如何应用在人文学研究上?WorldMap提供了开放的地理信息系统。

上图是WorldMap上的宋代与明代科举考试合格者的出生地比较,出身数量利用气泡图(bubble chart)来视觉化了。我们可以看出宋、明科举合格者出生地的相异。其分析是中国历代人物传记数据库的科举数据与中国历史地理信息系统(China Historical Geographic Information System,CHGIS)的地名数据结合而成的。笔者建议同一个方法应用在“新子学”思想的传播分析上。

四、视觉化

纸张印刷基本上依靠单色的文字与图画,虽然已有彩色印刷技术,但是成本还是比较高。相反地,数字技术不仅提供彩色的文字、图片、照片,还提供纸张无法呈现的声音、动画和影片,以及程序所提供的互动功能。近年来甚至出现虚拟现实(vntual reality,VR)与增强现实(Augmented Reality,AR)以及两者合成的混合现实(Mixed Reality,MR),慢慢地走向瓦解虚拟与现实的边界的方向。但是数字上的视觉化领域的基础是数据,问题是现在“新子学”的数据不足以深入研究视觉化,只能一边建造数据一边视觉化。不过“新子学”通过数字人文的方法进行设计、建造、分析、解释,可以实现如下视觉化:“新子学”文献的视觉化、“新子学”文献结构的视觉化、“新子学”文化遗产的视觉化、“新子学”思想与文化遗产的互联视觉化。

五、结论

虽然在人工智能时代,“新子学”可以展开研究人工智能所带来的问题,这也是“新子学”应当担任的责任,但是对其批评首先需要对其深刻理解,而且人工智能可以帮助传统“新子学”的研究,并且可以开拓新的“新子学”研究,我们又何必留在限制自由性、开放性、多样性、平等性、包容性的纸张上呢?

猜你喜欢
人文人工智能数字
人工智能与就业
人文绍兴
人文社科
让人文光辉照耀未来
数字变变变