冯彦婕 李思潼 杜帅 朱从亮
【摘 要】唇部是人脸重要特征之一,一般通过唇形的动态变化来进行唇语识别,而在唇语识别之前,最为重要的就是唇语采集系统。本文所提出的唇语采集系统可以自动识别人脸,并对唇语进行采集,以及对采集到的视频数据进行处理。
【关键词】唇语采集系统;Dlib算法;唇语识别
随着社会经济的发展,人工智能越来越受到人们的关注,繁重的科学和工程计算与识别已经超出了人脑的承受范围,人们必须借助机器来进行计算分析。80年代末90年代初,语音识别技术得到迅速发展,自动语音识别系有了长足进步,但是这类系统在噪声和干扰的条件下识别率显著下降,原因是它只单纯从语音信道获取信息,而忽略了视觉信息,一旦应用于真实环境中其性能就会大大下降。特别是在噪声干扰的情况下,与语音识别技术相比,唇语识别的准确性更高。而唇语识别的前期工作,最为主要便是进行唇语采集。
一、landmark算法
Dlib库是机器学习的开源库,包含了大量的机器学习、图像处理算法,如:深度学习、基于SVM的分类和递归算法、针对大规模分类和递归的降维方法、相关向量机等。其中有人脸检测器,有训练好的人脸关键点检测器,也有训练好的人脸识别模型。
landmark算法便是Dlib库中的一种,它是一种人脸部特征点提取的技术,Dlib库中为人脸68点标记,如图1。
当获得一张图片后,算法会生成一个initial shape,即先估计一个大致的特征点位置,然后采用gradient boosting算法减小initial shape 和 ground truth 的平方误差总和。用最小二乘法来最小化误差,得到每一级的级联回归因子。核心公式如下:
二、特征信息点的标注
利用landmark算法标注出的人脸的特征信息点如图2、图3所示。接下来就通过唇部特征信息点,裁剪出唇部图像,构成数据集。
三、唇語采集系统
这里我们使用python语言,通过Dlib库中的图像处理语句,启动摄像头,获取一个25帧的视频,再进行预处理功能,将视频转换为图像,做好分类。通过如此的获取并分类,我们可以得到一个数据库,这个数据库将为我们之后模型训练提供训练唇部模型的数据集,以便于能够检测不同发音的嘴型。采集到的视频数据如图2,对其进行处理,处理后得到的有关唇语的数据集如图3。
四、结束语
本文提出了一种利用Dlib库中的landmark算法进行唇语采集系统的设计,通过Dlib库中的图像处理语句,捕获25帧的视频,再对视频进行处理:进行人脸检测,检测面部信息点,再通过唇部信息点确定唇部位置,并切割成64×64×3的唇部图像,从而达到唇语采集的目的。经证明,该方法采集到的数据集准确率较高,更加简便,为后续模型的训练做足了准备。
【参考文献】
[1]M, Hunke, A, Waibel. Face Locating And Tracking For Human-Computer Interaction [J]. Interaction.Proceedings of Twenty-eight asilomar Cofeence on Signals, Systens&Computers, Monnterey, 1994, 2(5): 77-81
[2]K, Mase, A, Pentland. Automatic lipreading by optical‐flow analysis [J]. 《Systems & Computers inJapan》,USA, 2015, 22(6): 67-76
[3]张枝令.Python实现基于深度学习的人脸识别[J].电子商务,2018(05):47+96.