胡赫薇 龚润泽 叶慕戎
摘 要:金融文书的自然语言处理是目前金融科技领域的研究热点,相关研究大多数着眼于传统的分词和基于机器学习的语义场景分析这种有监督的学习方法,难以满足当前金融监管行业快速处理金融文本的需求。针对这一问题,本文构建了一个基于多层LSTM的中文金融文书摘要自动生成算法框架,通过Seq2Seq模型,基于注意力机制的强化学习框架,发现最优策略,对文本进行编码、解码,从LSTM编码器中抽取文本序列并输出摘要。实验结果表明,多层LSTM结构相比传统RNN的ROUGE值更高,具有较好的学习能力。
关键词:金融文本;摘要自动生成;序列到序列;注意力机制
中图分类号:TP391.1 文献标识码:A 文章编号:1003-5168(2019)32-0018-03
Research and Implementation of Automatic Generation of
Financial Document Abstract Based on Deep Learning
HU Hewei GONG Runze YE Murong
(Shanghai Lixin University of Accounting and Finance,Shanghai 201209)
Abstract: The natural language processing of financial documents is a research hotspot in the field of financial science and technology at present. Most of the relevant researches focus on the supervised learning method of traditional word segmentation and semantic scenario analysis based on machine learning, which is difficult to meet the needs of the current financial regulatory industry to process financial documents quickly. To solve this problem, this paper constructed an algorithm framework based on multi-layer LSTM (short and long-term memory network) for automatic generation of Chinese financial document abstracts, and used Seq2Seq (sequence to sequence) model. The experimental results show that the multi-layer LSTM structure has better learning ability than the traditional RNN (cyclic neural network) in terms of the value of the rule (semantic recovery).
Keywords: financial text;automatic summary generation;sequence to sequence;attention mechanism
1 研究背景
隨着全球金融高度信息化的大趋势,金融文本信息正在急速膨胀,金融从业者想要快速且全面地找到所需信息并阅读理解难度较大,所以,金融文书的精准语义摘要生成算法已成为金融科技领域的研究热点。2011年,Mihalcea提出了TextRank和LexRank算法。这两个算法都基于重要性和数量的假设,实现无监督算法进行关键词和关键句的抽取。2014年,谷歌团队和Yoshua Bengio提出了Seq2Seq的框架,包含编码与解码过程。在编码过程中,该框架实现了输出可变长度序列的功能,将深度学习的应用范围从传统的分类回归任务扩展到文本生成领域,是深度学习发展历史上的里程碑[1-5]。
本文提出基于序列对序列和注意力机制的处理框架,双向LSTM作为处理单元的文本自动摘要处理模型,解决了语义包含性和通用性的问题。
2 金融文书摘要自动生成
2.1 多层LSTM模型
LSTM模型的特点是系统的输出会保留在网络中,和系统下一时刻的输入共同决定下一时刻的输出。传统的LSTM模型无法编码从后到前的信息,因此,笔者采用双向LSTM其中,文本词汇与上下文具有关联性,存在双向语义依赖的特性。
双向LSTM的基本思想是将每个序列前向和后向输入两个循环神经网络的隐藏层,两者都连接到相同的输出层O,使得输出层O同时获得全文的所有信息,计算公式为:
[O=gWoh+W′oh+bo] (1)
式中,[g]为激活函数;[WO]为权重矩阵;[h]为激活值;[bo]为偏置项;完成输出层O的计算后,通过注意力机制求出语义向量[ct]:
[ct=t=1Nxotαt,t] (2)
式中,[α]为语义权重;[Ct]表示t时刻的语义向量取值;[Nx]表示时刻的合集。
此后,所有语义向量将输入含有单层LSTM的解码部分。使用多层LSTM框架,能够更抽象地表达特征,减少神经元的个数,提升模型性能。同时,引入注意力机制,减轻了序列对序列模型中上下文语义向量的信息负担,对后续生成内容有针对性地生成对应注意力权重,优化了模型的实际生成效果。
2.2 集束搜索
当文本摘要生成模型训练完成后,本文采用了集束搜索算法,输出摘要结果。集束搜索是做了约束优化的广度优先搜索,从海量文本中挑选出最优的句段作为摘要输出。其能减少空间消耗,提高生成效率。然而,一般的集束搜索在处理序列时存在数值下溢,倾向于简短的翻译结果。
针对上述问题,利用集束搜索在每一步获得了N种可能的结果后,需要对其进行概率分析,过滤出前B个分支,对每个分支都要保存当前的节点状态,此后再对集束宽度以内的词重复进行搜索过滤,直到序列被完整输出。
3 实验与仿真
3.1 金融文书采集与处理
本文的实验数据集来源于东方财富网,包含有3 000份金融文书,将其分段后共计12 000段,数据集以4∶1的比例分为两部分,实验采用第一部分作为模型训练集,使用Word2Vec训练工具来训练词向量;采用第二部分作为模型测试集。在执行过程中,主要对表1信息进行替换和处理。
本文使用开源中文分词工具进行分词,将金融文书切成若干词组构建语料库,之后將其转换成计算机可读的ID。
对切好的词组分别计算词频,词频经过处理后以高频词作为中心词列表,将语料库中的词遍历,计算语料库中词语和中心词的相似度。当相似度高过阈值时,判断这个词与中心词存在近义关系,将该词的词频与中心词合并后剔除该词。依据此方法进行重复操作,直至遍历完高频词,得到中心词字典。此举可避免不同词语表示相同含义,导致词频估计不准确。
处理完成后,将获取的金融文书中摘要与正文分开,添加标签,便于程序对文书的识别和理解。
表1 对语料的处理
[信息 处理 特殊字符 去除特殊字符 日期 替换为标签TAG_DATE 超链接URL 替换为标签TAG_URL 全角英文 替换为标签TAG_NAME_EN 数字 替换为标签TAG_NUMBER ]
3.2 实验参数设置
本实验选取的语料库较大,计算较为复杂,为了确保模型相对快速地收敛,需要的设备资源要求较高,具体配置如表2所示。
模型相关参数如表3所示。
4 结果与分析
本文选用了抽取式摘要和RNN模型两种模型与本文模型进行比较,具体实验结果比较如表4和表5所示。
通过表4可知,生成式摘要的ROUGE值普遍高于抽取式摘要,这佐证了近年来的研究趋势,即趋于研究生成式摘要。通过对比RNN模型与本文模型的实验结果可以发现,本文模型的ROUGE-2,3,4值均高出RNN模型6至8个百分点,说明本文句间的连贯性更好,可读性较高,具有较好的可读性。
通过对比表5的摘要样例,发现本文模型在概括全文内容基础上能学习、模拟人类撰写摘要的方式,生成新词汇对文书进行归纳总结,逻辑性更优。
尽管本文模型的ROUGE值普遍高于其他模型,然而ROUGE-1仍低于RNN模型,这说明本文模型所能涵盖的信息量仍然有限,如何完整地概括文书内容仍需要进一步深入探索。此外,本文的优异效果与充足的训练样本密不可分,样本量越大,ROUGE值往往越高。倘若训练样本数量有限,如何从中训练出完整流畅的摘要急需深入研究。
5 结论
本文构建了一个基于多层LSTM的中文金融文书摘要自动生成算法框架。其最终实验及评价结果显示,本学习框架生成的摘要可读性较高,未来可以通过与Textrank等一系列机器学习模型结合获得更好的信息完整度,将神经网络模型应用到处理金融类多文档多句子式的生成摘要中。
参考文献:
[1]陈晓萍.基于主题的短文本自动摘要抽取研究与应用[D].成都:电子科技大学,2017.
[2]李擎.基于语义词向量的文本分类多文档自动摘要[D].北京:北京邮电大学,2018.
[3]洪冬梅.基于LSTM的自动文本摘要技术研究[D].广州:华南理工大学,2018.
[4]郭洪杰.基于深度学习的生成式自动摘要技术研究[D].哈尔滨:哈尔滨工业大学,2018.
[5]赵怀鹏.基于神经网络的抽取式摘要系统的研究与实现[D].哈尔滨:哈尔滨工业大学,2018.