基于深度学习的开放存取资源分类研究

2019-08-23 10:41
数字通信世界 2019年7期
关键词:卷积向量神经网络

邱 盼

(贵州财经大学,贵阳 550000)

1 引言

随着开放存取资源运动的迅速发展,开放存取资源逐渐成为建设数字图书馆不可或缺的数据源。其开放获取模式也为研究者提供了获取学术论文的新途径,有效促进了学术资源的共享。为了促进科学信息的广泛传播,学术信息的交流与发布,提高科学研究的程度,确保科学信息的长期保存。

近年来,深度学习作为机器学习的另一个分支,得到了广泛的研究和应用。 它通过使用由复杂结构或多个隐藏层感知器组成的多个处理层来替换具有高级数据抽象的手册。在文本分类任务中,基于文本分布式词向量表示的深度学习方法,卷积神经网络,循环神经网络等深度学习模型对文本进行分类可以获得更高的准确率。

本文将重点介绍基于深度学习的开放存取资源分类过程和Bi-LSTM 模型和Text-CNN 模型。

2 开放存取资源文本分类实现

图1

2.1 数据收集

现在的开放存取资源有多个平台,本文选择Worldlib 获取数据,worldlib 国外文献整合平台整合了国外各种开放数据,文献数量近千万篇,以英语为主,学科覆盖范围为全学科。本文采用python 爬虫来获取开放存取资源。Python 爬虫相对Java,C++是比较简单易上手的。

2.2 数据标注

数据标注意味着人们判断和标注数据集内的每一条数据根据数据分类规则,找到预测的目的目标y。标注的主要原因是基于深度学习的训练和测试过程需要使用带安全标注的数据。在训练过程中,需要将训练集的数据和数据类别作为学习材料,供计算机学习、处理和构造神经网络模型中的意义。测试过程相当于测试,数据分类是测试的答案,为了研究计算机的影响进行深度研究,需要输入电脑不带安全标注的数据时,计算机自动输出数据的分类结果,计算机的输出结果与答案相比,可以计算学习模型的准确性,因此,数据集的所有数据必须在类别标注中。一般来说,数据标注越准确,数据量越大,训练模型越好。

2.3 文本分词

在开放存取资源文本分类之前,我们要先开始对资源进行预处理,一般主要包含文本分词和进行大量的词向量训练。本研究为了更好地进行分词,提升分词的准确性,构建了开放存取资源语料库。由于本文的开放存取资源主要是英文,因此对于英文的数据预处理要做的工作主要是按照关键字分词。

2.4 词向量

自然语言模型训练的产物,我们通常叫做词向量,而词汇由固定长度的向量来表示,通过大量收集的相关词汇训练,最终形成一个词向量空间,而在空间中的每个点则代表一个词汇。计算机通过大量的对开放存取资源的词向量训练,可以对资源进行分类识别,最终达到文本的可计算性。在对开放存取资源进行模型训练时,如果没有指定与之相对应的词向量,自然语言模型则会选择对开放存取资源词汇进行相对的词向量训练,这是属于随机初始化的word2evc 向量,这个词向量方法在深度学习领域中是常用的,在其他领域中也可以运用的到。

3 深度学习文本分类模型

目前常用的文本分类模型有很多种,特征提取的好坏直接影响到分类的效果,因此基于传统分类模型的文本分类方法的工作重点主要集中在特征提取和选择上,常用方法有 TF-IDF、词频、文档频次、N-Gram、互信息等。

随着深度学习的不断发展,学者们将文本分类的研究重点转向了基于人工神经网络的分类模型。人工神经网络是模拟生物神经网络进行信息处理的数学模型。人工神经网络由多个连接权值可调的神经元组成。其参数学习基于BP 算法,具有较强的非线性映射能力。神经网络处理文本分类的优点之一,而不必花大量的时间在特征提取和选择,将分布式说这个词作为特征输入到网络,神经网络可以自动提取文本分类的有价值的信息,这些信息通常是通过卷积,点,非线性函数,矩阵乘法操作等,和高度的信息编码并不容易解释。

随着深度学习研究范围的扩大,在很多领域中我们会发现,在常见的图像、音频处理方面,我们也会经常运用到深度学习方面的知识。由于本研究是针对开放存取资源进行的研究,属于自然语言处理领域,因此,本文通过对自然语言处理相关的神经网络模型进行研究,选取Bi-LSTM 模型和Text-CNN 模型作为处理开放存取资源的深度学习模型。

3.1 Bi-LSTM 模型

(1)embedding 层

利戴工业技术服务(上海)有限公司客户项目经理赵庆山先生也以“智能工厂的整体解决方案”为题,介绍了工业服务体系在智能制造发展过程中扮演的角色及地位,同时也分享了其在上汽大众动力总成有限公司等典型项目案例。这些项目不仅包括了加工设备的安装调试和维护保养,同时也涉及了智能制造的落地,为推动企业转型升级发挥了积极作用。

该层,作为神经网络的第一层,它用作寻找输入数据中的所有词汇,并根据词汇找到与其对应的词向量,是用来将输入数据中的所有词语找到其对应的词向量,最后再将所有得到的词向量构造形成一个相应的矩阵。在这一层中,不需要添加训练过的词向量,并且词向量在该层是随机初始化的。

(2)bidirectional 层

在该层,通常采用双向传播的64个LSTM 神经单元进行文本分类训练。

(3)dropout 层

可以有效的防止过拟合。过拟合是学习过程中把样本数据中的所有特征都记录了下来。因此,在这个学习过程中,计算机学习了大量的局部特征,而这个特征会对测试集在测试时造成一定的干扰,造成干扰后,会降低测试集的精度,这种局部特征在测试集进行预测时造成干扰,从而使测试集准确率下降,误差可以用于判断测试集是否过拟合,测试集内的误差不断减少,促使测试集外误差逐渐减小在逐渐变大。

(4)dense 层

改成在整个神经网络中起到了重要作用,主要负责的是分类的工作,这个过程是对数据集中的每条数据进行标记,在dense 层,也加入了sigmoid 激活函数,该函数的主要作用是对数据的某一分类的类别概率进行预测该,并完成分类任务。

3.2 Text-CNN 模型

(1)输入层

Text-CNN 模型的输入层需要输入一个定长的文本序列,我们需要通过分析语料集样本的长度指定一个输入序列的长度L,比L 短的样本序列需要填充(自己定义填充符),比L 长的序列需要截取。最终输入层输入的是文本序列中各个词汇对应的分布式表示,即词向量。

(2)卷积层

在NLP 领域一般卷积核只进行一维的滑动,即卷积核的宽度与词向量的维度等宽,卷积核只进行一维的滑动。在Text-CNN 模型中一般使用多个不同尺寸的卷积核。卷积核的高度,即窗口值,可以理解为N-gram 模型中的N,即利用的局部词序的长度,窗口值也是一个超参数,需要在任务中尝试,一般选取2-8之间的值。

(3)池化层

在Text-CNN 模型的池化层中使用了Max-pool(最大值池化),即减少模型的参数,又保证了在不定长的卷基层的输出上获得一个定长的全连接层的输入。

(4)全连接层

全连接层的作用就是分类器,原始的Text-CNN 模型使用了只有一层隐藏层的全连接网络,相当于把卷积与池化层提取的特征输入到一个LR 分类器中进行分类。

4 结束语

现如今,开放存取资源的发展越来越快,我们也发现学者发表的学术论文的也呈很大的比例增长,学术研究学者对学术论文的需求也逐渐增多。在此研究背景下,本文就是对开放存取资源进行分类,并方便学术研究学者检索和研究。本文主要介绍了基于深度学习的文本分类过程和几类经典的文本分类网络模型,本文研究选取Bi-LSTM 模型和Text-CNN 模型作为处理开放存取资源的深度学习模型。

猜你喜欢
卷积向量神经网络
向量的分解
基于3D-Winograd的快速卷积算法设计及FPGA实现
聚焦“向量与三角”创新题
卷积神经网络的分析与设计
神经网络抑制无线通信干扰探究
从滤波器理解卷积
基于神经网络的中小学生情感分析
基于傅里叶域卷积表示的目标跟踪算法
向量垂直在解析几何中的应用
基于神经网络的拉矫机控制模型建立