刘建伟
摘要:在人类智能各项能力中,阅读理解能力就是其中较为重要的一项能力,机器阅读理解能力是自然语言处理领域中不可或缺的一项能力。在我国整体对深度学习方法不断深入研究的背景下,机器中文阅读理解技术水平发生了显著变化,但是其词向量模块、模型推理能力、模型外部推理知识、答案生成技术等仍然存在不足,为了能够进一步机器中文阅读理解技术,本文对深度学习下的机器中文阅读理解进行全面分析。
关键词:深度学习;机器中文阅读理解;研究方法
引言
机器中文阅读理解是自然语言处理领域的一种核心技术,在对深度学习技术的辅助下,其实际发展速度显著提升。机器中文阅读理解,实际上就是让机学会中文阅读和文章理解,对于已经给定的问题,要从阅读中寻找相对应的答案。机器中文阅读理解涉及到语言理、知识推理、摘要生成多多项具有复杂性的技术,无形中也使机器中文阅读理解技术的提升面临着严峻挑战。本文从机器中文阅读理解面临的主要问题入手,展开阐述,针对深度学习下的机器中文阅读理解进行深入探讨。
一、机器中文阅读理解面临的主要问题
(一)词向量模块缺乏完善性
现阶段,通过运用预训练的语言模型,取代预训练的词向量对机器中文阅读理解模型带来的性能提升,但是以语言模型为基础的词向量仍然存在一定局限性。比方说在机器中文阅读理解任务中,为了能够精准的回答与人物轨迹相关的各项问题,模型自身就要具备指代消解能力,但是语言模型在此方面却存在一定缺陷。此外,通过运用语言模型只能捕捉到其能见到的信息,对于一些具有常识性的信息而言,仍然需要其他技术辅助。
(二)模型自身缺乏推理能力和外部知识
目前的阅读理解模型缺乏具有深度性的阅读理解能力,而是注意某些线索以执行粗浅的模式进行匹配。但是不论是对于语言模型而言,还是对于注意力模型而言,都缺乏相应的推理能力。如语言模型更倾向于语法和语义模型的构建;注意力模式与之不同,主要就是以虔诚予以的相似度进行计算,但是推理能力则是要求模型能够以高层抽象的语义为基础构建模型。不仅如此,模型自身还缺乏外部知识[1]。现阶段的中文阅读理解模型实际运用的信息,都来自于文章,在实际进行中文阅读理解期间,需要紧紧结合外部知识对文章进行深度理解,但是因为其在此方面存在一定缺陷,导致模型的外部知识体系需要进行完善。
(三)答案生成技术研究缺乏全面性
现阶段的机器中文阅读理解技术,充分运用边界模型对答案进行预测。即便边界模型在SQuAD数据集上获取了一定的成果,但是对于一些贴近真实应用场景的数据集而言并不适用。答案生成技术目前已经产生立初步的研究成果,但是为了能够进一步的生产高质量的答案,仍然需要提升其研究全面性。
二、深度学习下的机器中文阅读理解
(一)完善词汇量模块
在大部分的NLP任務中,第一步程序就是运用向量来表示中文单词,词的向量表示始终都是NLP领域中重点研究的问题。在机器中文阅读理解任务中,能否精准的表示词向量至关重要,通过运用高质量的词向量,能够全面提升机器中文阅读理解任务模型的各项性能。现阶段对词向量进行研究,主要就是依据词的相似性分布理论,也就是能够通过上文和下文的描述将其含义表现出来。从生成词向量方式的角度进行分析,词向量的具体研究方法被分为矩阵分解法、参数学习法、上下文学习法。
(二)矩阵分解法
将相似性分布理论作为核心依据进行研究,根据实际需要,中文阅读理解中的上文和下文不仅可以是整篇文档,也可以是任意长度的窗口。为了能够更加精准的表示词向量,就要准确落实矩阵奇异值分解工作,并且在实际表示词向量期间要运用合成低纬度矩阵。此种低维度、高密度的词向量表示发挥作用,能够有效解决维数灾难和稀疏性问题,因此其被充分利用。但是通过运用矩阵分法进行表示,仍然存在一些不足,如在对大规模语料而言,在实际对共现矩阵进行分解的过程中,具有较大的消耗量。此外,在对语料进行增量式更新的过程中,就要对共现矩阵的奇异值分解进行再一次计算。
(三)参数学习法
为了能够弥补矩阵分解法在计算量方面的各项不足,就要要求研究人员运用参数学习法对词向量进行表示。以神经网络的概率语言模型为基础构建的Bengio,其将词向量作为语言模型的参数进行学习。主要就是每个单词表示为低纬度的特征向量,之后再对词的特征向量构造语言模型的联合概率密度,并要对联合概率密度函数进行优化,进而深入的学习词的特征向量。但是通过运用参数学习法,也并没有完全解决维数灾难和计算量方面的问题,如依然存在着一词多义的现象,这就要对上文和下文信息进行有效利用。
(四)上下文学习法
为了能够有效解决一词多义的问题,就要对上下文的语境进行充分利用,其属于动态词词向量表示方法的范畴,进而就会使词向量不再处于静态模型参数的范畴,而能够进行动态模型输出[2]。像Melamud就会通过用BiLSTM取代了word2vec模型中词向量矩阵,并通过对BiLSTM进行正确应用,对中文阅读理解的上下文进行编码,通过在这样的方式获取词向量的标识。
三、完善注意力机制
(一)单路注意力模型
为了能够对人做中文阅读理解过程中各项事项进行模拟,就要以运用单路注意力模型的方式为主,如首先明确中文阅读理解中提出的各项问题,其次再到中文阅读理解中寻找答案。将具体问题与文章段落的各项信息进行结合,形成关于文章段落各个部分的注意力权重,之后再对文本信息进行加权,此种注意力机制就能够精准的捕捉到文章各个段落中与问题先关的信息。
(二)双路注意力模型
双路注意力模型不仅能够在文章中使用注意力机制,同时也能在问题上使用注意力机制。通过按行计算注意力的方式,来获取文章序列和问题中每个单词具之间的相似度;按列的方式对注意力进行计算,来获取问题单词和文章中每一个单词的相似度。双路注意力机制,主要就是从二维相似度矩阵的角度,来获取中文阅读的整体表达。通过对文章和问题之间的相似度的掌握,及进一步完成细粒度建模,在不断完善各处细节信息的同时,能够有效提升机器中文阅读理解水平。
(三)完善答案预测机制
1 答案抽取
答案抽取机制具体是指从已经给定的中文阅读理解中,挑选出较为关键的片段,之后在生成相应的答案。如在数据SQuAD中,每一个问题的答案都是原文中的一个单独片段[3]。但是随着输入文章的长度不断变化,有越来越多的中文阅读理解模型以运用指针网络方式为主,进行答案抽取;将指针网络作为核心依据进行研究,将答案抽取模型分为序列模型和边界模型两种类型。将这两种模型进行比较,不难发现,序列模型的灵活性比较强,但是其答案是由多个词汇组合而成的,所以导致其在语法规范和语义表达方面,就会比边界模型更弱一些。
2 答案生成
与SQuAD数据集有所不同,像微软亚洲研究院实际发布的数据集MS MARCO都是在人工阅读的方式后,进行总结,之后再生成答案。这样其答案就不会再受到文章片段的限制,但是其对模型自身生成答案的能力具有较高要求。
结束语:
总之,在深度学习技术水平不断提升的背景下,以深度神经网络机制为依据的机器中文阅读理解技术能力有所提升。本文主要就是对机器中文阅读理解存在的各相不足问题进行分析,结合实际要求制定科学有效的完善方案,为今后实际问题提供重要保障。
参考文献:
[1]段利国, 高建颖, 李爱萍. 机器阅读理解中观点型问题的求解策略研究[J]. 中文信息学报, 2019, 33(10).
[2]王璞, 徐蔚然. 基于机器阅读理解的嵌套命名实体识别[J]. 2020.
[3]邱超凡. 基于深度学习神经网络的机器阅读理解的研究[D]. 2019.