长江大学计算机与科学学院 曾仔健 赵 鸣
在大数据背景下,文本分析的重要性变得越来越高,而文本分类作为自然语言处理中的关键环节,同样得到了众多专家学者的重视。在文本分类过程中,神经网络技术的所带来的效果极为突出,因此也成为了专家学者的重点研究方向。本文通过对神经网络进行分析,并结合实际针对以神经网络为核心的文本分类方法提出个人观点,希望为关注基于神经网络文本分类的人群提供帮助。
在科学技术的不断发展过程中,大数据为各行各业提供了更多发展契机。文本分析作为提高大数据理解能力的关键手段,其重要性毋庸置疑。在开展文本分类工作时,结合人工神经网络能够快速掌握文本特征,从而提高文本分类质量。因此,有必要对基于神经网络的文本分类方法进行研究。
在大数据的作用下,网络中数据信息将会逐渐变得越来越多,而且数量庞大的网民群体也会每天形成大量数据信息。互联网中的数据信息包括文本、声音、图像等多种数据类型,而在各种数据信息中,文本数据其数量占比最为庞大,所以必须找出合理利用文本数据的方式,以此来让文本数据发挥出其自身应有的价值。人工神经网络可以在使用期间从信息处理角度出发,并完成简单模型的构建,而且还能够通过不同的连接方式来形成各不相同的网络。神经网络自上世纪四十年代出现后,便得到了学界的普遍关注,经过几十年的演变后,在很多行业领域中得到了广泛的应用。在面对海量文本数据的分析工作时,人工神经网络能够发挥出非常重要的作用。其中文本分类属于对文本数据内容的合理划分,能够提高文本数据的分析、使用效果。
文本分类属于自然语言处理过程中需要面对的一个经典问题,属于文本分析期间的常见问题。在面对文本分类问题时,需要考虑文档应该归纳为预先定义的哪些类别中。通常情况下,文本分类属于文本数据处理期间的一项关键技术,可以帮助用户完成数据文本的组织,并完成文本信息的合理挖掘,从而让用户能够更加清晰地完成数据信息的有效定位。以在线社交网络文本分类的需求为例,其主要类型如下:第一,基于内容主题分类。通常文本内容将会涉及到政治、体育、竞技等层面,此时便可以结合对于内容的需求来做出文本划分,然后用户再根据需求选择不同分类的文本内容进行深化处理。在处理文本的过程中,同一篇文本有可能会涉及到多个领域之中的内容,所以需要结合用户需求类实现标签的分类。第二,基于情感分类。在面对社会中的各类热点时事新闻时,媒体与网民便可以在社交平台中表达出自己的看法与观点,根据个人观点以及看待事物态度的不同进行文本分类,可以将文本划分为积极、消极、中立等不同的类型,这部分文本的划分类别相对较少,若有特殊需求则可以开展更为细致的划分。
在开展文本分类之前,需要针对文本中的数据内容开展数据预处理,其处理过程可以分为以下几点:第一,分词处理。在文本处理过程中,需要将具有连续性的文字流划分成为独立词汇,这种处理方式在面对英文时相对较为简单,而在面对文字时则会变得更加复杂。分次处理的质量将会影响到文本分类的最终效果。第二,删除停止词。通过将部分辅助用词删除,可以优化分类效率,通常可以结合对应表来删除停止词。第三,词性标注。利用词性标注能够直观表现出词语性质。第四,还原词根。文本预处理工作能够完成中文的词根还原,而英文因为单词形态将会发生改变,所以需要对词根进行还原。文本分类工作就是结合数据特征将不同的文本划分到正确的类别中,所以其主要问题就是怎样保证文本的快速划分。随着科学技术的不断发展,人工神经网络技术已经成为了优化文本分类的主要方向。在文本分类过程中,评价其结果的指标可以分为准确率、召回率两种,其中准确率代表着文本分类的精度,能够在检索期间保证文本分类的查准率。而召回率则指的是相关文本属于与文本库中文本的比率,能够体现出文本查全率。
神经网络运行时可以有效连接输入、输出神经元,输入神经元可以代表文本类别,神经元连接也具备对应的权值。在训练过程中,可以通过正向传播、反向修正等算法实现对于权值的调整修正,此时便可以让文本结合调整后的权值进行学习,从而获取神经网络模型。通过将类别位置的文本经过网络模型后,便可以获取不一样的输出值,经过比较之后便能够明确文本类别。除此之外,通过神经网络还能够结合网络结构还获取对应的文本特征,避免出现繁杂的人工特征工程。
卷积神经网络是通过采用多层卷积运算以及对每层输出利用非线性激活函数进行转换。在运行期间,神经网络可以将所有输入神经元与下层输出神经元相连,所以这种方式属于全连接层。而且卷积神经网络还可以通过输入层卷积结果来完成对于输出的计算,这种计算方式则属于局部连接,所有的局部输入都会与输出神经元相连,并在不同层级中利用不容的滤波器。在通过卷积神经网络进行分类时,应该有效选择尺寸固定的滑动窗口,然后通过滤波器来选择特征,最后采用池化操作针对特征完成有效分类。在整个分类过程中,必须注意滑动窗口的大小选择,若滑动窗口过小,就会导致无法完成大规模语句读取,而滑动窗口过大则会使数据信息变得稀疏。为了能够解决窗口尺寸所造成的影响,可以采用尺寸动态调整滤波器来完成文本信息的处理,经过处理后的子句长度将会发生改变,此时便可以获取多粒度短语特征。除此之外,词向量将会对表示句子以及分类效果带来影响,所以可以结合不同的词向量方法来将其归纳成为不同的表示,从而获取比单独词向量更加丰富的数据信息,提高文本分类质量。
通常在一段文本内容中,每个单词都会与其他单词相连,单词便不会完全独立存在与文本内容中。文本中的语义以及单词顺序之间也存在一定关系。在利用卷积神经网络进行分类时,就很难考虑到文本中的次序问题,所以有可能导致语义理解能力降低。时间递归神经网络属于针对序列数据进行建模处理的神经网络,序列在输出时,其不仅会与当前输入具有直接关系,还会与之前的输出相关联。带有记忆功能的RNN能够在运行期间解决文本分类时出现的问题,而LSTM更是一种使用范围足够广泛的神经网络。LSTM在运行期间能够针对序列信息进行保存,其中后面信息的重要性更高,然后文本中的重要信息却并不会全部出现在文本的后半部分。采用双向LSTM时,可以通过两个方向来处理文本,此时便可以更为有效地处理单词上下文中的数据信息。除此之外,经过对LSTM进行研究之后,还出现了门控循环单元等方式,因此这种文本处理方式得到了较为广泛的应用。
CNN在使用过程中可以通过最大池化层来完成重要单词的判断,但是在使用期间需要面对滑动窗口尺寸问题,而且CNN自身还缺少学习以及与顺序有关的知识,而采用RNN则能够按照顺序来完成建模,但是却难以通过并行的方式来获取单词特征,因此两种神经网络的特点各不相同。有学者专门提出了RCNN模型,该模型在使用期间可以在学习语句表示期间采用RNN中的双向循环获取文本中的内容信息,然后通过CNN中的池化层来完成特征作用判定,从而强化了文本处理能力。另外还可以使用C-LSTM模型,通过在无标签文本数据预训练获取的词向量中构建CNN,来学习N-Gram中的高级表示,然后可以结合高层次语句表示来学习知识,此时便可以通过卷积特征窗口来组成有序的形式,通过将滤波器特征结合到仪器进行依次排列,便可以成为LSTM的输入。
通过结构递归形成的网络在自然语言处理中可以用作对语句进行解析。每个单词的语义可以作为特征,但是却很难顺利表示出长语句的含义。所以语义向量空间的组合性非常重要。通过构建RNTN模型,可以完成对任意长度短语的输入,然后把短语表示成为词向量与解析数,此时便可以利用张量组合函数来完成高层节点向量的计算。而DRNN模型则能够完成多个递归层的堆积,并在每一层中加入处理机构,此时便可以在信息传递过程中,将处于结构中的节点隐藏状态传递至下一层级。这种方式能够在分类句子时发挥出相对较好的效果,但是分类时同样需要考虑文章的树结构,而且因为时间复杂性高,所以并不适合在长语句中使用。
预训练中的词向量能够有效改善文本分类效果,但是仍然具有局限性,预训练只包含了模型一层中的先验知识,而剩余部分则需要重新进行训练。ELMO模型便可以在实际使用中得到相对较为良好的效果。有学者提出了以双向Transformer的模型BERT,这种方式则进一步优化了自然语言处理方式。所以预训练模型能够在自然语言处理中发挥出非常好的效果。
结论:总而言之,以神经网络为核心的文本分类方式非常重要,能够在庞大的数据信息中结合文本内容、特征来完成文本分类,在保证文本分类质量的同时提高文本分类效率,从而让数据信息发挥出应有的作用。相信随着更多人了解到文本分类的重要性,基于神经网络的文本分类方法将会更加完善。