探索未来,一半靠人,一半靠AI

2019-12-06 06:27走走
南方文坛 2019年6期
关键词:人工智能小说文本

在中国著名文学杂志《收获》工作了14年后的2017年底,我辞职创业,至今一年半,开发了两款软件:一是专业分析小说的工具“故事眼”,解析文本的主题、人物、地点、场景、人设、对话、情感的积极消极、主要情节的识别,帮助读者快速理解文本内各要素之间的关系;二是“谷臻小简”,世界首个人工智能浓缩书软件,主要面向知识类非小说文本。我们的软件工具只萃取一个文本中,最重要的、那些只占其中一小部分,20%~30%的知识。(谷臻是公司简称,类似微软;小简类似小冰。简,意指大道至简。基本原理、方法和规律是极其简单的,简单到一两句话就能说明白。所谓“真传一句话,假传万卷书”。简,意味着“少而精”,去粗取精,抓住要害和根本,挥动奥卡姆剃刀,剔除那些无效的、可有可无的、非本质的东西,融合成少而精的东西。)

下面我以345053字的《繁花》为例,看看AI如何从不同的角度解读这部第九届茅盾文学奖获奖作品。将文本复制、粘贴进软件,1秒钟内首先得到的是全局词云:

看一下实际数据:阿宝0.25;小毛0.16;沪生0.12;陶陶0.1。《繁花》故事以10岁的阿宝开始,以中年的小毛去世结束,沪生则是另一个与他们不同阶级的主人公之一,小说也花了大量笔墨来勾勒“上海浪子”陶陶是如何真心陷入与小琴的爱情之中,但却随着小琴的意外坠楼和日记的浮现,实现了全面解构。

当年关于《繁花》的报道,有一个词往往成为标题元素,那就是用上海话念来,更有多种情绪面孔的“不响”。[金宇澄:现在读者很聪明《繁花》可以“一声不响”(腾讯网);金宇澄|一个“不响”的作家“叫响”王家卫下一部经典大作(凤凰卫视);[繁花]金宇澄:上帝不响,像一切由我决定。(搜狐网)……]“不响”的数据是0.1,和陶陶并列全书第四重要词语。和“不响”有异曲同工之妙的笑笑,数据是0.02;小说中描写了诸多上海老弄堂的细节和故事,因此“弄堂”也有0.01的数据比。

仔细观察上面的词云,即使一字不读,也能大致猜出,这是一部和上海有关的地域小说,小说主题是男人女人,世情烟火。

在全书重要的前十五处地点中,上海最多,其次是香港。金宇澄骨子里应该是喜欢香港文化的,开头即提到《阿飞正传》,和王家卫做节目还不忘问他上海和香港的区别。不过最引起我注意的是排在第十的“朝南”,小说中的人物“朝南面逃”,“朝南跑几站路”,“朝南走”,这大概和作者心中的上海重要地标都在自己老宅的南面有關:朝南,苏州河;朝南,南京路。小说中房间的朝向也主要朝南,作者巧妙地用这样两个字厘清了阶层与身份之间的差异。

再来看主要人物之间对手戏份的轻重。构成主要三角关系的显然是阿宝、小毛、沪生,至于其他人物成双作对,看过小说的完全可知准确程度。

《繁花》这小说,底色究竟温暖还是悲凉?让我们来看看其情绪走向。

结尾向下的趋势在在表明:传奇的底色是悲剧,物哀得舒缓,悲而不伤、哀而不丧。再来看具体情节,小说中最后一次明确的沉郁,是小毛临终前。

用这样的人工智能辅助读小说,是不是会在带来效率的同时(比如可以在三分钟内处理一千万字网文),给做学问的批评家们带来不一样的阐释角度呢?

此前,我们曾用此软件分析了《收获》复刊以来四十年(1979—2018)所刊载的680位作者的长、中、短篇小说1618篇(截至2018年第6期,包含2000年以后的长篇专号。其中短篇小说601部,中篇小说711部,长篇小说306部)。

我们可以看出《收获》小说与时代情绪有着相当程度的一致性,比如1979年、2001年、1991年这三个年份。而将这一曲线与相应的历史事件与时代情绪相结合,我们就不难发现其中的一些原因与可能……(要知道,小说反映时代情绪往往存在有1—2年的滞后期)

《收获》小说明快-沉郁作品比例变化图(1979—2018)

为了更便于观察《收获》40年的发展变化状态与过程,我们选择以每10年为一个阶段,将其分为四个时间段进行词频统计。

《收获》(1979—1989)小说高频词统计结果

《收获》(1990—1999)小说高频词统计结果

《收获》(2000—2009)小说高频词统计结果

《收获》(2010—2018)小说高频词统计结果

观察这样的词云图,相信不同的观察者会得出各自不同的结论。我们的结论作为一篇完整论文,已经发表在2019年第2期的《中国现代文学丛刊》上,有兴趣的读者可以自行搜索。

我们还用这一软件对2018年67家网络文学平台或相关单位申报、推荐给中国作协网络文学中心,及网文中心为举办“2018年中国网络文学排行榜”初选出来的749部网络小说进行全样本考察,试图探求出这些不同类型小说各自的书写规律和文学特征,以期能从整体上形成对2018年中国网络小说的一点认识。

这749部网络小说,平均字数为97.59万字,最长的作品为一叶青天的《盖世帝尊》,总字数为1092.2万字,超过百万字的作品有214部。7个亿的文字体量,相信也只有人工智能可以单个体完成“阅读”。(完整论文将首先发表在台湾《中国现代文学》“数码人文专号”上)

接下来介绍一下我们开发的第二款软件:“谷臻小简”。当时设计它的LOGO时,我和设计师沟通的结果是,希望它既像一个小机器人,又能代表知识的金字塔结构(这个结构符合二八定律,又名关键少数法则、不重要多数法则)。最终它有了今天的样貌,书脊和书页构成它的双肩,而它的头部,则是一支金笔的笔尖。

我对通识教育一直有执念,身为作家、编辑,总觉得在知识学习上,应该深度及广度兼备。一个作家如果没有广泛的涉猎,又如何能了解社会和人类本身呢?我最喜欢的作家纳博科夫有一句名言:“我认为,艺术品是两种东西的融合:诗歌之精确性和纯粹科学之激情。”我总是觉得,知识广博的人,他的文学作品才能达到一种自然科学般的精确性。

这是一个信息爆炸的时代,人类每一分钟创造的信息都比过去四百万年间创造的更多;这是一个知识焦虑的时代,有限的时间内无法通览无限的内容,选择、阅读、掌握,每一个环节都在加重焦虑。

如何精准筛选出合适书籍?如何迅速浏览完全书内容?如何清晰把握住脉络要点?

这是我集结顶尖算法工程师,开发世界首个人工智能浓缩书软件“谷臻小简”的初衷。

它运用NLP(自然语言处理)、句法分析、语义依赖分析、无监督学习算法等技术对中文文本进行压缩,快速高效,几十万字出版物压缩仅需4秒;客观公正,无任何人为解读,人工智能按比例浓缩提取全书精华,不增加、不修改原文;完整清晰,保留全书知识结构框架,形成脉络清晰的知识导读;灵活弹性,可调整模型中各项的权重,实现在不同粒度、不同压缩比下对文本的压缩,适应各类场景的不同需要。

以下面这篇10371字的论文《延安作家转型对网络作家的启示——〈在延安文艺座谈会上的讲话〉研究》为例,计算机能在几秒钟内读取出全文核心思想,便于论文写作者博采众长。

当然,工具只是工具,永远不要让工具限制你的想象力。我自己喜欢诗歌,我用它来“剪句”,剪出另一首新诗。为此联手了《青春》杂志举办AI小简公益读诗活动。人工智能,未尝不可带来诗歌陌生化的新美学。从某种意义上讲,AI浓缩出的“剪句”,填补了当代中国短句诗歌写作的空白。

剪句是诗歌吗?它很有可能是仍然气韵贯通的诗歌,但又不是传统意义上的诗歌形式,剪句是一种诗非诗的文体。剪句有可能是独立的文体吗?它带来惊喜,也带来失落,它更具有现代精神和开放姿态,也许与我们碎片化的生活距离更近。剪句的奇特,也许带来超凡、空灵、多元融贯的新灵感、新意境。人工智能,改变的不是诗人,而是诗歌本身。诗歌,是从符号世界被召唤来的存在。为什么不让字符回归字符呢?也许,谁都能读懂;也许,谁都不能读懂。(注:下图左边为剪句,右边为原诗)

为什么,我愿意相信人工智能对人类的帮助?

归根结底,它与虚构和想象有关。人类如何习得知识并表示出来?人类如何理解语言(要知道,编码也是一種语言)?记忆如何关联起来?知识的系统如何搭建?

在开发小说阅读软件“故事眼”时,我自己体验了国外的Face Reader面部表情分析系统,它可以结合视线方向、头部朝向、个人的性别与年龄特征,自动分析面部表情(愉快、悲伤、害怕、厌恶、惊讶、愤怒、自然和轻蔑),还能测量感兴趣、无聊和困惑三种情感态度。既然能读取,应该就能控制吧。在电影播放时插入几帧能明确引起情感波动的画面,是否就能影响观众的情感走向与好感度?据说美国有一家电影院在电影中插入可乐和爆米花广告,每个画面只有1~2帧,肉眼是无法分别的,但是最后经过一个月统计,发现看完电影继续购买爆米花和可乐的量出现明显增加。肉眼和我们的意识无法分别的图像,潜意识会接收。“任何理性的决定都可以被认为是在一些假设和前提下的结论……因此,如果定义了一个人用以作出决定的相关条件和前提,那么他的行为是可以被操控的。”

这也启发了我建立我们自己软件的语料库。名词动词形容词,副词代词介词,量词连词助词,数词叹词拟声词,什么词能表现出我们的情绪?什么词又构成事件?大家想必一目了然吧。

所以其实,人工智能就是完成想象、可能性、实证和希望的过程。当然,人都有自己认知的舒适区域,做了那么多年文学编辑和写作者,文字就是我不变的追求。从荷马写下机械“三足鼎”等候众神晚餐开始,人们就在想象利用机械来协助生活,而我想的只是,如何利用人工智能更高效、更有趣地处理文本。

它给过我很多惊喜,也给过我不少迷惑。比如,为何它能从近千篇小说中准确识别出另一篇包含人工智能写作段落的小说,并给了它年度最高分?为什么在我重复向客户展示时突然罢工,拒绝“阅读”同一篇已经“阅读”过的文本?(当然,想骗它继续工作也很容易,多打一个空格或按回车键都行,只要对文本作出改变)它对人类的意义究竟是什么?它是否能建立起纯粹的逻辑?对我们试图理解和模拟的人工智能,我始终怀有虔诚的敬意。

也许,人工智能的算法结果,比人类的文学积累更有资格召唤那个纯粹的世界,那个远比人类更为古老和奥妙的,在文明诞生的刹那间绽放出的世界。接下来,是真正属于探索者的时代,而后,新的神圣王国才得以展开。

法国哲学家康底拉克曾在隐喻中提到一座雕像,人们往它的脑中倒入各种有价值的知识碎块,最后作者提问,到什么程度这座雕像会拥有足够多的知识而使它看起来就像人一样富有智慧。对今天已经被验证可以写作的人工智能而言,上述隐喻已经成为现实。不过我想强调一点,从本质上说,它只能有中生有,不能纯粹地无中生有。它一定大于单个个体的知识量,却不会超出人类整体的知识总和。

非人类与人类。让我们思考自己作为人类本身的特质。莱曼·弗兰克·鲍姆在1907年出版的《绿野仙踪》里,把机器人“铁皮人”(Tiktok)形容为一个“非常有责任感,能想出各种点子,并能完美会话的机器人。它能思考、说话、行动,以及做一切事情,除了活着”。

是的,除了活着。

(走走,上海谷臻信息科技有限公司。希望将文中提到的两款软件应用于文学研究领域的读者,请联系我微信号:shouhuozouzou)

猜你喜欢
人工智能小说文本
文本联读学概括 细致观察促写作
How to read a novel 如何阅读小说
倾斜(小说)
挖掘文本资源 有效落实语言实践
搭文本之桥 铺生活之路 引习作之流
文本与电影的照应阅读——以《〈草房子〉文本与影片的对比阅读》教学为例
2019:人工智能
人工智能与就业
数读人工智能
下一幕,人工智能!