曹芳 王海龙 涂术娟 康建庚 韩锦涛
(北京吉利学院汽车工程学院,北京 102202)
诗歌是一种特殊而重要的文化遗产,具有更多的意义。在人类历史上已有数千年的历史他们的受欢迎程度在日常生活的许多方面表现出来,例如表达个人情感,政治观点或在节日场合传达信息。相对于自由语言,诗歌具有独特的优雅,例如唯美主义和简洁等。创作古典诗歌被认为是作为一项具有挑战性的任务,它具有一系列结构上,语音上,和语义要求,因此只有很少的优秀学者能够掌握操纵或组织术语的技能。
随着人工智能的快速发展,我们意识到计算机可能在以下方面发挥重要作用帮助人类创作诗歌:它很方便计算机从大型语料库,以及计算机程序可以发挥很大的优势认识,学习甚至记住模式或给出语料的规则。以上观察激发自动使用计算智能生成诗歌。为了让人们更好地继承这种古典艺术,我们介绍自动诗歌创作的一项有意义的任务是赋予计算机模仿的人工智能人类诗歌的产生过程一种帮助人们掌握诗歌创作水平的工具。
在本文中,我们关注自动生成诗歌。尽管计算机不能代替诗意的创造力,他们可以分析非常大的在线文本存储库诗。计算机可以提取统计模式,进行维护它们存储在内存中,并使用它们生成许多可能的变体。此外,对于机器而言,它相对简单检查候选诗是否与那些诗相符要求。超越建立自主性的长期目标能够创造有意义的智能系统诗歌最终将有潜在的短期应用对于AI 增强人类的专业知识/经验,可能使每个人都可以因娱乐或教育而成为诗人目的。我们提出基于递归神经网络的诗词生成系统鉴于有大量收藏诗歌,我们学习单个人物的表现,及其组合成一个或多个行,以及如何他们相互加强和相互制约。鉴于用户指定的写作意图,系统可以生成一个通过顺序语言建模创作诗歌。不同于传统以前的神经网络中的单遍生成,我们的拟议的系统将能够为一个或多个迭代,以完善措辞,并做到更多诗意的,这很像一个真实的人类写作过程。
诗歌是最重要的文学遗产之一在世界各地的各种文化中,有一些正式的研究计算机辅助诗歌生成领域。来自不同国家的科学家研究了自动通过不同语言以自己的语言创作诗歌方式:1.遗传算法。2.统计机器翻译(SMT)。提出了一种跨语言一代的翻译模型诗歌,从意大利语到英语;3.基于规则的模板。基于语义和语法模板的生成平台。如果用户的输入查询太短而无法提取足够的关键字,则我们需要扩展一些新关键字直到满足关键字编号的要求。我们对关键字使用两种不同的方法扩张。基于RNNLM 的方法。我们使用递归神经网络语言模型(RNNLM)根据前面的关键字序列预测后续关键字RNNLM 的训练需要一个训练集,该训练集包括从诗歌中提取的关键字序列,其中一个关键字代表一行的子主题。我们自动生成训练语料库从收集的诗歌中具体来说,给定一首包含N 行的诗歌,我们首先对单词进行排名根据诗歌语料库上计算出的分数在每行中进行排列。然后用选择最高的分数作为该行的关键字。这样,我们可以提取一个关键字排列每首诗,并为基于RNNLM 的关键字预测生成训练语料库模型。在本文中,我们着重于中国绝句的产生,它有4 行,每行有相同长度的5 或7 个字符。我们从互联网上收集了7 万部绝句,并随机选择用于验证的2,000 首诗,用于测试的2,000 首诗以及其余用于培训的诗。从诗歌训练语料库中,我们提取了70000 个关键字序列,即用于训练RNN 语言模型以进行关键字扩展。
诗人创作诗歌的一个可行程序是首先概述可以表达的主要写作意图通过一组关键字。自作者以来,这是一个反复的过程可以随时更改条款的一部分以完善想法,直到整首诗都写完了。试图模仿这样的过程。问题表述。我们将问题定义如下输入。给定关键字={k1,k2,...kn}来自作者作为写作意图(即主题,主题,场景,或生成诗歌的主题),其中ki 是关键字学期。每个关键字由一个或多个字符组成,即ki={c1,c2,...}。我们从关键词中产生一首诗。输出。我们生成一首诗P={c1,1,...,c1,n;...;cm,1,...,cm,n},ci,j 2 V,其中V 是词汇量。n 是一行诗中的字符数; m 是行数。对于中国古典诗歌,即绝句和受限制的经文,n(5 或7)和m(4 或8)是固定数字。系统框架。我们的系统以编码解码方式工作时尚,代表用户的意图单个向量,然后将向量解码为整首诗。意图表示。系统接受一组用户指定关键字作为输入。我们使用神经网络(CNN)或递归神经网络(RNN)上的字符以捕获特定含义关键字词;然后整合不同术语的信息通过池化层。这样我们得到一个向量用户意图的表示。
顺序生成。以向量表示为条件根据用户的意图,我们使用RNN 编写一首诗逐个字符生成一个字符。注意那首诗包含多行,并且每行进一步包含多行人物,我们对诗歌使用分层架构一代。具体来说,我们有一个RNN 代表全球每行的信息:全局信息向量的影响在该行中的所有角色世代上。基于全球RNN,我们还有另一个代表本地的RNN 信息,指导单个字符的生成在行内。
LSTM。LSTM 代表长期短期记忆,它是循环层的构建单元神经网络。LSTM 单元由一个单元,一个输入,一个输出和一个忘记门组成。这些负责记忆一定时间范围内的门保留了多少数据。有两种主要的训练LSTM 诗歌模型的方法。首先字符,这意味着模型将字符序列作为输入。基于第一个该模型试图预测以下特征,然后根据前两个预测预测第三个字符,依此类推。第二种方法是逐个子词基本上与每个字符相同-模型试图预测下一个子词基于以前的。此外,使用了两种方法来分割数据,很明显的一种是逐诗另一种将基于特定的序列长度。逐诗逐句诗歌必须等长,因此模型可以使用批量更新。但是,这将增加训练时间,因为还有更多数据需要处理通过和诗的长度变化很大。另一方面,有限的序列长度可能会失去这首诗的上下文,因为网络不会将这首诗视为整个。尽管如此,这两种方法都已实现并尝试过。最后但并非最不重要的一点是,使用LSTM 模型生成诗歌。该模型从一个开始随机或输入的字符,并据此预测,直到结束符号或长度限制为到达。综上所述,系统对写作意图进行编码,并生成按照这样的意图通过一首诗解码过程。
自动生成与人类诗人我们进行了一次有趣的评估,直接比较了我们的自动诗歌生成系统与人类诗人相似,类似于图灵测验。我们随机选择了二十测试集的诗歌,由中国古代诗人撰写。我们用这些诗的标题作为通过我们的自动生成系统输入并生成了20 首诗。因此,机器生成诗与人类诗是同一个主题。然后我们问了一些人类评估者区分人类创作的诗歌和机器生成的诗歌。在盲测中,我们向评估者展示了两首诗及其标题。时间,并要求评估者从以下三个选项中进行选择:1.诗歌A 是人类写的;2.诗B 是人类写的;3.无法区分人类写的是哪一个。评估结果我们可以看到48.9%的机器生成的诗歌被错误地识别为人类诗歌或无法被普通评估者区分。但对于专家评估人员,这一数字下降到15.3%。我们可以从结果中得出两个结论:1.在普通用户的标准下,我们的机器生成的诗歌的质量非常接近人类诗人;2.但从专业专家的角度来看,机器生成的诗歌仍然有与人类诗歌相比,有一些明显的不足。
在自然领域,诗歌创作是一项艰巨的任务语言生成。我们提出了一种新颖的建模方法这个问题基于递归神经网络结构。给定用户的写作意图,我们对信息进行编码并通过顺序生成将其解码为一首诗。我们的人类评估研究显示机器产生的诗歌落后于人类产生的诗歌那些。值得牢记的是诗歌创作对人类来说是一项艰巨的任务,更不用说机器了。未来工作的途径很多。我们想产生不同的诗语言和流派。