李祉穗 陈庆寅 蔡树颖 廖缨谊
摘要:手语识别的学习难度较高以及学习周期较长问题阻碍了聋哑人与健听人进一步的沟通,因为这一现状,我们提出了一个基于OpenCV的交流方案。该方案最终呈现的是一套基于OpenCV的,最终于手机终端应用呈现翻译结果的手语翻译器。该翻译器不仅能够解决手语识别的问题,同时也可用于手语教学、运动姿态识别等方面,应用前景广泛。
关键词:手语识别
0.引言:
据最新资料显示,我国听障人士人数居五大残疾之首,约为2057万人,占全国残疾人的30%以上。而其中,7岁以下听障儿童约为80万人。与此同时,健听人士在学习手语方面有一定的难度,这阻碍了聋哑人士与健听人士之间的交流,也为聋哑人士融入社会带来了阻碍。因此,实现无障碍化沟通成为和谐社会重要的内容。
1.现状分析:
不同于大部分的计算机问题,手语特有的地域性、复杂性和多样性,不仅增加了数据采集和清洗的成本,也使得这门技术的落地存在很大的挑战,在使用过程中容易出现手语动作不明确、混乱的问题;同时现有手势识别也存在识别不准确的问题造成翻译错误0,严重影响到聋哑人沟通。
2.设计概述:
本作品最终的目的是搭建起聋哑人士与健听人士之间沟通的桥梁。在综合运用图像识别、Android开发等技术,通过手机软件实时翻译出聋哑人的手语,将转换成语音外放出来,并同步生成文字版显示在手机终端上。
2.1 本设计的一般描述
2.1.1 开发软件的背景
如今,手语翻译器产品大致分为三个方向:数据手套类手语翻译器,视觉类手语翻译器,如声呐等其他手势识别技术。而视觉类手语翻译器通常采用由于仅采用肤色提取或轮廓提取等常用方法识别手势,容易受环境因素影响,准确性低。同时,如何让手语翻译器打破传统残障辅助用品伴随而来的同情或者歧视,如何通过产品外观增强使用者的信心,值得设计师思考。
2.2 软件功能
2.2.1 系统流程
该手语翻译器通过调用手机前置或后置摄像头,记录并识别出用户的手语动作,将分析处理后的数据转换成相应的音频或文字文件输出。具体系统流程图见图表一,。
2.2.2 顶层数据流
通过手语翻译接收方使用手机摄像头对准手语展示方,记录下手语动作,手机将实时翻译出成文字与语音。详见图表二。
2.3系统技术主要指标:
1)对手势识别的准确度:准确率达90%及以上;
2)对手势识别的实时性要求:在手势变换后手语翻译器需立刻识别出变换并更新翻译结果;
3)平台开放性:在按照我方要求与标准的情况下建立的手语手势资源库可无限制接入本平台。
3.系统实现
3.1运行环境
(1) 视频处理工具:ffmpeg-20181115
(2) 集成开发环境:Microsoft Visual Studio Code、Anaconda3
(3) 界面设计工具:Android Studio
(4) 编程语言环境:python3.6、Java8.0
3.2具体实现步骤与序列图:
(1)调用前置/后置摄像头;(2)opencv处理;(3)openpose姿态识别;(4)建立一个姿态模型;(5)将传递到神经网络中;(6)通过大量的数据和迭代更新出一个正确率足够高的模型;(7)进行图形识别;(8)将识别的结果转换成对应的文本显示在APP屏幕;(9)将文字信息转化为声音信息外放出来。
3.3 关键帧的提取
本设计采用的是以“局部最大值”方法提取的关键帧。采用该方法是因为它选定关键帧的标准是看本帧是否拥有平均帧间差分强度的局部最大值,如果是,则是关键帧。其优点是所得结果丰富度较好,并均匀分布在所有帧中。
3.4 手语数字特征的提取
本手语翻译器的重点就在于手势的识别。如今很多手语翻译器的识别精度不高,准确率不太理想,最重要的原因就是同类翻译器通常仅采用深度学习模型0,对于手部位置的识别能力较低。为了解决这一问题,我们使用OpenPose来进行用户的姿态识别,通过OpenPose定位出用户的大致骨骼位置后,再在其基础上定位出手部的位置,将识别出来的姿态的参数传递给神经网络,通过大量图片的训练学习不同的手语含义,再拼接起来,组成简单能够交流的语句。
参考文献
[1]米娜瓦尔·阿不拉,阿里甫·庫尔班,解启娜,耿丽婷.手语识别方法与技术综述[EB/OL]. 计算机工程与应用, 2021.
[2]秦梦现.手语识别研究综述[J]. 软件导刊,2021.