中文文本事件检测技术∗

2022-03-18 06:20
计算机与数字工程 2022年12期
关键词:向量汉字神经网络

崔 莹

(西南电子技术研究所 成都 610036)

1 引言

BP 神经网络是一种人工神经网络模型,自被提出以来,已被广泛应用于各种检测[1~2]。我们知道BP 神经网络是一种多层次的神经网络,BP 神经网络的拓扑结构主要由输入层、隐层、输出层三部分组成。其中,隐藏层至少有一层,在各层之间神经元是完全连接的。除了输入层外,每一层的输入都与上一层的输出密切相关。通常,BP 神经网络是一种负反馈神经网络。它通过负误差响应来调整权重,使其更接近非线性函数。因此,BP 神经网络的收敛速度相对较慢。

近年来,文本检测已成为计算机视觉领域的研究热点和具有挑战性的课题。Tutz 提出了Logit 模型来估计权重,而不是使用完全由距离决定的权重。使用lasso 或enhancement 等选择过程自动选择最近的邻居。然后,基于评估和选择的概念,预测器空间被扩展[9]。Nucci 提出了一种自适应的ASCI(错误预测分类器的自适应选择)方法,该方法根据类的特征,动态选择一种分类器,可以从一组机器学习分类器中更好地预测类的错误倾向。对30 个软件系统的实证研究表明,ASCI 的性能优于5个单独使用并结合多数投票集成[10]的分类器。

在研究中,利用花授粉算法(FPA)对传统BP神经网络进行优化,优化了网络的权重和阈值,并提出了一种基于改进神经网络的中文文本事件检测方法。为了验证改进后的神经网络算法在中文文本事件检测中的效果,实验采用GB2312 格式的训练数据集,并对中文词汇进行模糊处理,以实现分析词汇意义的目的。在计算机上对两种方法进行实验,比较了自然场景文本检测方法和基于改进神经网络的检测方法的检测效果,包括准确率、召回率、F值和时间消耗量。

2 文本检测算法及改进的BP神经网络文本检测算法

2.1 文本检测算法

大多数传统的文本检测算法都是基于连通域分析的。这些算法首先根据低级别的特征(如光强度、颜色、梯度等)将图像像素聚集到不同的连接区域中,然后用分类模型对这些连接的组件进行分类,以过滤噪声区域。传统的文本检测算法主要采用自下而上的方法。这些算法通常从字符检测或笔划检测开始,然后通过过滤文本元素来应用文本检测,从而构造文本行,并验证文本行。因此,该方法的检测结果精度低,鲁棒性差,实现过程过于复杂。在当今社会快速发展过程中,文本检测任务正面临着更大的挑战[11~15]。

1)图像中可能出现文字的任何长度、宽比、颜色、字体、大小和形状;

2)图像背景更加复杂多样,纹理与文本相似,容易引起混淆,如围栏、植被等物体;

3)图像质量不确定,文本检测对图像质量非常敏感。常见的干扰有光照条件、运动模糊、低分辨率和遮挡;

4)图像文本分布密集,不同文本特征相似,只有细节笔画不同,多个文本之间的空间很小,一些小细节可能导致多个文本被检测为一个文本[16~19]。面对这些更复杂和困难的挑战,传统的多步文本检测算法很容易生成大量非文本连接区域,这给后续的文本行拼接和文本行验证带来了很大的困难。

2.2 基于改进神经网络的中文文本事件检测方法

神经网络是由大量简单计算单元组成的非线性系统,它在一定程度上模拟了人脑的处理操作。

由于实验数据集主要是中文数据,单词很难分割,因此,采用红黑树的方法,对系统中预存储的词汇表进行分段。在分析数据集时,对数据集中的单词进行分割,然后与系统中的单词进行比较。FPA神经网络支持GB2312 数据集,实现分析中文文本的能力。

在研究中,我们利用BP 神经网络的误差函数作为FPA 的物理状态函数,找到物理函数的最小值,并反复更新FPA的状态,即当误差值最小时,可以得到FPA的最佳解。可作为BP神经网络的初始权重和阈值。

全局授粉过程由列维飞行完成,描述如下:

局部授粉过程和花的规律性描述如式(2):

其中ε是均匀分布生成的随机数,在(0,1)范围。

最优解,l是列维飞行的步长参数,按以式(3)计算:

3 实验设计

1)实验准备

实验选择CEC 语料库作为测试对象。CEC 语料库以地震、火灾、道路事故、恐怖袭击和食物中毒等五种紧急事件的新闻报道为素材。通过文本预处理、文本分析、事件标记和一致性检查,最终注释存储在文本中。

2)实验环境

在建立和编码文本事件检测系统后,利用CEC语料库对系统进行了测试,全面验证了改进算法的检测效果。

编程开发环境如下:

开发工具:VS2008;

开发语言:C++、STL;

操作系统:Windows7。

测试文本数据集:2048,测试的核心代码如下(部分代码,如图1所示)。

图1 文本检测算法代码

4 实验结果分析

4.1 数据预处理工作

神经网络不能直接识别文本,因此需要将文本数据映射到多维实向量中,即文本向量化。数据预处理包括以下三个步骤。

1)分词

中文文本之间没有明显的界限,所以中文文本的分割比英语文本更困难。是否能准确分割文本,对文本情绪分类的准确性有重要影响。“结巴”中文分词库是一个python中文分词库,支持传统的分词和自定义词典,选择这种方法可以更准确地分割句子。

2)词向量化

词的分布式表示具有很强的表示能力,每个词之间的相似性可以用空间向量来表示。所谓的词向量化是将单词处理为单词向量的形式。目前,word2vec是生成分布式词向量的主流方式。结合中文语料库,利用word2vec的相关技术得到词向量模型,在分割后输入到向量模型中,可以得到每个词的词向量。

3)生成词向量矩阵

分词和词向量化后,形成N×m词向量矩阵。其中N是分词后的单词数,m是词向量的维数。为了便于模型的训练,需要将每个文本生成的词向量矩阵的大小进行标准化,以使所有文本生成的词向量矩阵的大小都是相同的。其处理方法为

其中,n是归一化词向量矩阵中的单词数;avgN是所有文本分词后词的平均数n;stdN是分词后数词n的标准偏差。

然后,处理由文本生成的词向量矩阵。不足的字向量矩阵用0 填充,修剪超长词向量矩阵。这样,n×M词向量矩阵可以覆盖95%的样本。

4.2 中文常用汉字的选择

中文辞海包含85568 个汉字。可以看出,构成文本的汉字数量相当大,但大多数汉字并不常用。因此,如果我们将很少使用的汉字和一些特殊符号作为禁用字,并在文本预处理阶段将其从文本中删除,可以大幅提高程序的处理速度。使用现代汉字列表中常用的2500 个汉字对文本进行预处理。建立通用汉字码交叉参考表,编号为2500 个通用汉字(汉字标记为w),编号为1~2500个。通过查找表格,可以获得每个汉字的代码或相应的汉字。表1是汉字编码表的部分示例。

表1 常用字编码

4.3 文本事件检测

无论是中文文本还是英文文本,与其他对象相比,字符都有自己的特征,如笔画宽度、文本结构、图像中字符的颜色和字符的边缘等特征。根据文本图像相关特征,进行统一归纳,整理相关决策检测规则,以实现文本事件检测的目的。与自然场景中的图像文本相比,它很容易受到复杂背景条件的影响。中文印刷文本在字符大小、颜色、笔画宽度和纹理分布方面往往有统一的规范。因此,可基于上述特征来检测打印的文本。

传统的自然场景文本检测算法基本上以英语文本为检测对象。与英文文本的图像检测相比,中文文本检测的风格不同,结构复杂,检测结果并不理想。因此,将中文印刷区感兴趣的输出区域与改进的SWT 路径宽度算法相结合来检测文本事件。与传统的整个文本图像的检测过程相比,对感兴趣文本区域的检测无疑更快。

4.4 中文文本事件检测实验结果分析

1)不同检测方法的精度和召回率结果分析

首先对两种中文文本检测方法的准确性和召回率进行分析,检测结果见表2和图2。

表2 不同检测方法的准确率和召回率的比较

图2 不同事件检测方法结果对比

从表2 和图2 可以看出,这两种方法的准确率和召回率有所不同。自然场景文本检测算法的准确率为88%,召回率为73%。基于改进神经网络的文本检测算法的准确率为95%,召回率为86%。从两组数据的比较可以看出,改进神经网络文本检测算法在中文文本事件检测中具有较好的性能。

2)不同检测方法的F值与耗时分析

为进一步分析两种算法的实用性,对比分析两种检测算法的准确率和召回率后,进一步对两种算法的F 值和时间消耗实验结果进行了比较,结果见表3和图3。

表3 不同检测方法的准确率和召回率比较

图3 不同检测方法的F值和耗时比较

表3 和图3 显示,中文文本事件检测测试中自然场景文本检测算法的F 值为0.79,耗时4.56s;基于改进神经网络的文本检测算法的F 值为0.90,耗时0.64s。从数据比较中可以看出,基于改进神经网络的文本检测算法可以更快地检测中文文本事件,具有更好的实用性。

5 结语

本研究中,提出了一种基于改进神经网络的中文文本事件检测方法,通过使用花授粉算法来优化神经网络的权重和阈值。为了验证该方法的有效性,将其与自然场景文本检测方法进行了比较,并分析了它的准确性、召回率和时间消耗,得到以下结论。

1)基于改进的神经网络的文本检测算法的准确率为95%,召回率为86%,相较于自然场景中文本检测方法,其事件检测精度更高。

2)基于改进的神经网络的文本检测算法的F值为0.90,时间为0.64s,相较于自然场景中文本检测方法,其耗时更短,F 值更高,该方法具有更好的性能。

虽然提出的基于改进神经网络的文本检测算法已经取得了一些效果,但其性能还需通过应用于实际生产得到进一步验证。本课题将在未来继续进行深入学习和优化算法。

猜你喜欢
向量汉字神经网络
向量的分解
聚焦“向量与三角”创新题
神经网络抑制无线通信干扰探究
基于神经网络的中小学生情感分析
汉字这样记
汉字这样记
向量垂直在解析几何中的应用
基于神经网络的拉矫机控制模型建立
向量五种“变身” 玩转圆锥曲线
基于支持向量机回归和RBF神经网络的PID整定