任敏
诉别离,它说,“离别恨难分,琵琶不忍闻。断肠空有泪,明月已无魂。”咏春日,它说,“三月初春雪未消,东风吹送柳丝飘。绿杨枝上莺声急,红杏梢头蝶梦遥。”
它是谁?它是“熟读”诗歌90万首,通晓平仄、押韵、对仗等“潜规则”,只需输入关键词句,即可在数秒之内出口成诗的人工智能机器人,名日九歌。这位古诗界的“最强大脑”,诞生于清华大学自然语言处理与社会人文计算实验室,其主要研发者矣晓沅,是清华园里一位轮椅上的博士。九歌,寄托了他的志向,也带领他抵达诗意的远方。
6岁起,矣晓沅身体就被类风湿性关节炎纠缠。无法自由行走的晓沅,多了思考的时间,他是名副其实的学霸。2012年高考,晓沅以云南省理科第16名的成绩考入清华计算机系。2016年8月,成绩优异的晓沅开始读研究生。
近年来,随着深度学习的兴起,人工智能与文学艺术碰撞出炫目的火花。那在人类语言高度凝练的诗歌领域,AI表现如何?晓沅与他的导师孙茂松教授二人一拍即合,何不做一个自动作诗机器人?他们郑重地为机器人取名九歌。晓沅解释,《九歌》既是自己名字的来源,也是《楚辞》名篇,这一命名意在致敬屈原。
当时,人工智能作诗,是比较小众的研究领域。九歌研发团队白手起家,他们借鉴诗歌写作、语言学、心理学等方面的理論,设计出专门的模型结构。
古诗文是篇章结构,讲究上下文一致,前后呼应。这是他们要解决的头号难题。“一夜扬州月,凄凉万里心。故乡无限意,惆怅暮云阴。”这首机器生成的五言绝句,看似文从字顺,首尾却露出马脚,第一句“月”字点明时间为夜晚,第四句却变成“暮云”,前后矛盾。尝试不少思路之后,他们设计出了显著性线索机制模型。在此模型主导下,上文的诗有了改进:“忆昔扬州月,于今又一秋。故人何处是,落叶满汀洲。”
第二关,扣题。对于自动作诗系统,主题一般以用户输入的一个或多个关键词来确定,如“春风”“寒月”“相思”等。现有的系统要么漏词,要么将用户给定的关键词直接生搬硬套地嵌入生成的诗歌中。他们从心理语言学角度切入,提出了基于工作记忆模型的诗歌生成方法。该方法使用不同的记忆模块存储用户输入的不同关键词和生成的诗文内容。模型不断动态读取和更新“自我”记忆,以此来提升扣题的紧密度和灵活性。
攻下一个又一个难关后,2017年年底,九歌1.0版正式上线,系统内录入了从唐代到清代数千名诗人的30多万首诗,能自动创作出集句诗、绝句和藏头诗。那年年底,坐着轮椅的晓沅登上了央视舞台。晓沅带着自己的作品迎战青年诗人,他的九歌会用“机智过人”四个字作一首藏头诗,也能以“心有灵犀一点通”打头作集句诗,且速度远超人类。基于九歌,晓沅连续两年获得中国计算语言学大会的“最佳系统展示奖”。一年半之后,九歌2.0版上线。晓沅说,通过改进算法,九歌2.0版既能作律诗,又能生成萧瑟凄凉、忆旧感喟、孤寂惆怅、思乡忧老、渺远孤逸五种风格的绝句。
如今,九歌系统的访问量已超过1000万人次。九歌3.0新版本正在紧锣密鼓地开发。晓沅透露,目前系统已录入从魏晋南北朝到近现代所能找到的90万首诗歌,未来,他们还计划让这个“腹有诗书”的机器人学会看图作诗、观视频作诗,也将尝试作现代诗。