基于语音识别的教学视频剪辑整理方法

2021-10-18 00:59郭冰奇李志扬邓蕾杨泽信邹颖

电脑知识与技术 2021年26期

郭冰奇李志扬邓蕾杨泽信邹颖

摘要：目前教学网站提供的教师讲课视频一般以课时为单位，时长很长，而且知识点繁多。本文提出了一种可以快速将视频根据知识点进行剪辑整理的方法。该方法首先采用语音识别技术将视频中的语音转化成文字，生成字幕文件，然后借助字幕文件中关键词出现的时间段对整个教学视频进行分节或提取知识点，制作成带有字幕的教学短视频。采用这种根据知识点分节的短视频，学生可以依据自己的兴趣重点搜索、学习相关知识点视频，而不是整个视频，从而大量减轻学生负担，提高学习效率。

关键词：语音识别;视频剪辑;知识点;字幕

中图分类号：TP391 文献标识码：A

文章编号：1009-3044（2021）26-0006-03

开放科学（资源服务）标识码（OSID）：

A Teaching Video Clip Method Based on Speech Recognition

GUO Bing-qi，LI Zhi-yang， DENG Lei， YANG Ze-xin， ZOU Ying

（College of Physical Science and Technology， Central China Normal University， Wuhan 430079， China）

Abstract： Presently the videos on most teaching websites are provided in time unit of the class hour， which are relatively long and consist of lots of knowledge points. The paper proposed a method to clip the video quickly according to knowledge points. The method first uses the speech recognition technology to convert the speech in a teaching video into text， producing a subtitle file. Then， it divides the whole video into sections or extracts the knowledge points based on the time stamp of the keywords in the subtitle file， yielding short teaching videos with subtitles. With such short videos students may search and focus on their interested knowledge points without referring the whole video.

Key words： speech recognition; video editing; knowledge; subtitles

1 引言

近年來，随着互联网的发展，网上教学模式逐渐兴起，直播授课[1]和视频教学等软件层出不穷，如在疫情影响下被广泛使用的钉钉直播授课软件以及功能丰富的中国大学MOOC教学网站，不但可以线上授课，还具备上课签到、提交作业和学生管理等丰富的功能，而且教师完成授课后视频被永久的保存在了网站中，供学生课后重复观看复习知识点。但是这样保存的原始教学视频一般时长较长，而且知识点繁多，当学生只想针对性地学习某一个知识点时也必须浏览整个视频，浪费大量的学习时间。

针对时长长且知识点繁多的教学视频，本文提出了一种快捷剪辑整理方法，它借助语音识别技术[2-4]识别视频中的知识点，然后根据知识点进行视频切分。该方法可用于教学网站的视频数据整理，有助于提升学生学习效率。

2 基于语音识别的视频处理算法框架与原理

本文提出的基于语音识别的视频剪辑整理方法，其处理流程如图1所示。首先选择一个教学视频，然后对其进行语音识别，获得字幕文件。由于字幕文件中每一句文字都记录了相对应的视频时间段，借助关键词出现的时间段可以对整个教学视频进行分节或提取知识点。最后根据字幕文件将文字内容插入原始视频，得到带字幕的以小节或知识点为单位的教学短视频。

图1中语音识别所采用的算法框架与流程如图 2 所示，主要包括预处理与数字化、特征提取、声学模型、语言学模型和解码搜索等5个方面：

①预处理与数字化。把语音信号进行采样和量化，使之变成频域离散信号，采样频率应取信号最高频率的两倍以上，然后对得到的频域信号进行加窗，窗函数在信号上移动，把信号分成帧，帧与帧之间的偏移取1/2。

②特征提取。本文采用的声学特征提取方法是“梅尔频率倒谱系数（MFCC）[5-6]”，对①中的信号帧进行FFT变换求频谱，然后求得幅度谱[|Xn（k）|]（其中，k=0，1，2...）。幅度谱存在大量冗余信息，可以通过Mel滤波器组对其进行简化提炼，步骤如下：

根据[fmel（f）=2595.log（1+f700HZ）]（其中[fmel（f）]是Mel频率，[f]是语音信号的实际频率）求出最大的Mel频率[fmax[mel]]。然后在Mel频率轴上配置K个通道的三角形滤波器组（K由信号截至频率决定）。在Mel刻度范围内，任一三角滤波器的中心频率都是等间隔的线性分布，因此，可以通过公式[Δmel=fmaxk+1]计算相邻三角滤波器中心频率的间距。

设第x个滤波器的下限、中心和上限频率分别是d（x），b（x），u（x），则相邻三角形滤波器的下限，中心，上限频率的关系如下：b（x）=u（x-1）=d（x+1）。根据语音信号幅度谱[|Xn（k）|]求每个滤波器的输出。公式如下：