学习资源智能标注系统的设计与实现

2018-06-17 17:19周菊明张良龙
中国教育信息化·高教职教 2018年4期
关键词:转码门限文档

周菊明 张良龙

摘 要:随着教育信息化的推进与应用,各种在线学习平台以及相关教育类产品如雨后春笋般涌现,伴随着这些平台和产品的出现,学习资源也迎来了爆发式增长。面对海量的学习资源,要做到不通过复杂的搜索引擎就可以实现对資源进行快捷、精确的检索,资源关键词的智能化标注就显得尤为迫切与重要。本文依托苏州工业园区易加互动学习平台,以用户上传学习资源行为为入口,对学习资源进行关键词智能标注,并加以深入的探索与研究,对学习资源智能生成关键词标注做了流程设计和功能模块架构设计,同时还详细介绍了对学习资源智能标注的技术实现路径。

关键词:智能标注;转码资源;语音识别;分词;提取关键词

中图分类号:TP391.1 文献标志码:A 文章编号:1673-8454(2018)07-0041-04

引言

在海量的学习资源中,用户如何精确检索到想要的资源是在线学习平台必须解决的问题。如何让资源附带更准确、更丰富的标注信息,使其能被精准地推送给用户,则是在线学习平台必须解决的另一个问题。

通常,学习资源一般都具有一些共同的属性,如学段、年级、学科等。这些属性,有一定的排他性,可以辅助用户检索。但是,仅仅有这些属性还不能够解决上述两个问题。一方面,通过这些属性进行检索,还不够精确,因为同时具备某一类属性(如同一学段、同一年级、同一学科)的资源还可能有很多;另一方面,这些属性是共同的属性,不能够使被标识的资源具有独特性。所以我们设想,如果资源能够有几个关键词标注,那么问题就可以得到较好的解决。

传统的标注任务一般由用户手动完成,即直接由用户在上传学习资源时,对资源进行手动的关键词标注。这种方式固然有效,但是给上传者带来了痛点,上传者必须有足够的耐心和时间提炼出资源的关键词进行标注,一旦标注不到位,出现偏差,就会影响资源使用的效度和信度。

鉴于以上情况,我们开始了学习资源智能标注系统的研究。该系统在用户上传资源之后,提取出资源文字内容,并对其分词,提取出关键词,进行智能化的自动标注。

一、系统架构

在线学习平台上的资源多以视频类资源和文档类资源为主,本文也只以这两类资源作为研究对象。视频类资源主要是由音频和一系列图片组成,而文档类资源主要是由按照一定规则排版的文本、图片组成。不论是哪种资源,其核心内容的载体都是文字,图片只起辅助理解的作用,不作为智能标注系统的采集参照依据。

1.流程设计

用户上传学习资源时,为了能够在HTML页面正常播放,需要对资源进行转码,转码的过程中可以提取出资源的内容。其中,视频类资源提取出音频,进而对音频进行语音识别成文本;而文档类资源可以直接提取出文本。

基于上述情况,我们对学习资源智能标注做了如图1所示的设计。

2.架构设计

基于上述流程设计,我们对整个系统的架构进行了如图2所示的设计。

(1)对外视图:用于整个系统与用户的直接交互,是产品的最终呈现形式。

(2)内部网关:负责整个系统中各个服务引擎之间的API通信,起到桥梁的作用。

(3)核心引擎:是整个系统的核心。依据功能划分出“语音识别引擎”、“转码服务”、“文本分析引擎”三个功能模块,每个功能模块只负责相应的功能。至于对功能模块如何组合调度,则是上层服务根据具体业务逻辑来进行调用。

(4)基础架构:为整个系统提供各种软硬件资源,包括数据存储、文件存储和计算等。

(5)监控系统:对整个系统各个层级、各个模块进行监控。

二、技术实现

1.转码服务

(1)视频转码技术

视频转码是将已经压缩编码的视频码流,转换成另一个视频码流,以适应不同的网络带宽、不同的终端处理和不同的用户需求。转码本质上是先解码再编码的过程。[1]本文使用FFMPEG技术来实现转码服务,FFMPEG支持MPEG、DivX、MPEG4、AC3、DV、FLV等40多种编码,AVI、MPEG、OGG、Matorska、ASF等90多种解码。除了视频转码技术外,FFMPEG还集成了视频采集、视频格式转换以及音频提取等强大的功能。

(2)文档转码技术

文档转码技术是将各种文档转变格式得以在html页面上显示。本文采用的文档转码技术主要有“Microsoft TechNet”和“icepdf”。其中,“Microsoft TechNet”是将各种文档转换成pdf文件,而“icepdf”则是将转换后的pdf文件转换为jpg图片。

(3)提取文本

用户上传文档后,后台服务会将文档原文件保存后,以发送“Microsoft TechNet”和“icepdf”命令的方式对其转码,同时利用“java poi”工具提取文本。

2.语音识别引擎

语言识别引擎是整个系统核心中的核心,主要功能是将音频智能识别后输出为对应的文本。但在开始识别前,有两个前置的功能需要先做好,即“去除静音段”和“降噪处理”。

(1)去除静音段

本文采用双门限法对静音进行检测,双门限法同时存在四个门限值,分别是短时能量的低门限和高门限,短时过零率的低门限和高门限。[2]

语音信号中第n帧的短时能量为:

En= [x(m)·ω(n-m)]2

m=n-N+1

其中,x(m)表示语音信号,ω(n-m)表示相应的窗函数,N表示帧长。

语音信号中第n帧的短时过零率为:

Zn=∑|sgn[x(n)]-sgn[x(n-1)] |·ω(n-w)

其中,sgn[]为符号函数,即:

sgn(x)= 1,x<0

-1,x?0

当En

(2)降噪处理

在背景噪声较大的情况下,噪聲段的短时过零率要大于语音段的短时过零率,因此通过短时过零率可以有效地从背景中检测出语音段。所以,我们可以得到:在背景噪声较小的情况下,采用短时能量能够较好地检测出语音段;在背景噪声较大的情况下,采用短时过零率能够较好地检测出语音段。

(3)语音识别

语音识别功能,大概可表示为图3所示的结构。

当前的语音识别技术已经引入了深度神经网络算法,其框架结构十分复杂。本文所述的“语音识别”技术的实现,使用了第三方科大讯飞的语音识别功能来实现。其主要优势在:一是能够识别连续语音;二是识别准确率超过95%;三是可自定义词库,提高识别个性化词条的准确率(如“勾股定理”这样的专业术语)。

3.文本分析引擎

(1)分词工具

本文采用的中文分词系统是开源项目结巴分词。该分词系统采用基于Trie树结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)。

(2)关键词提取

本文采用的是TF-IDF 算法进行关键词提取。

TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

在一份给定的文件里,词频(Term Frequency,TF)指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数的归一化,以防止它偏向长的文件。对于在某一特定文件里的词语来说,它的重要性可表示为:

TFi,j=

其中ni,j是词语ti在文件dj中出现的次数,而分母则是在文件dj中所有词语出现之和。

IDF反文档频率(Inverse Document Frequency)是一个词语普遍重要性的度量,表示为:

IDFi=log

其中,|D|表示语料库中的文件总数;|{j:ti∈dj}|表示包含词语ti的文件数目(即ni,j≠0的文件数目)。[3]

最后:

TFIDFi,j=TFi,j×IDFi

三、实验及结果分析

通过在易加互动学习平台资源上传模块中上传文档、视频资源,对视频和文档自动标注的各个环节进行验证、性能分析和结果评述如下。

我们选择一个本地数学微课视频进行上传,上传完之后后台服务进行转码和语音识别。上传界面如图4所示:

系统已自动生成标注了“同类项”、“字母”、“相同”、“合并同类项”、“多项式”这五个关键词。通过分析,我们发现系统对转码提取的音频经过语音引擎的识别处理,输出的文本语音识别准确率在90%~95%。

对以上文本进行分词后,提取关键词处理,视频的播放页面已经显示了系统自动生成的五个关键词标注,这5个关键词基本满足预期要求。

同样,我们选择一个本地的文档上传至学习平台。当转码完成后,该资源的展示页面,如图5所示:

通过分析发现系统虽然顺利完成了对识别的文本进行分词后提取关键词处理,文档的展示页面已经显示了系统自动生成的 “等腰三角形”、“探索”、“数学”、“图形”、“证明”这5个标注的关键词,但并未达到TF-IDF算法的预期效果。其中“探索”、“数学”、“图形”、“证明”都是文档出现的高频词,而此文档需要表达的核心关键词如“垂线段与高的关系”等并未标注出来。主要原因可能有:

(1)“探索”、“数学”、“图形”、“证明”这几个词也可能出现在其他文档中,由于实验的文档样本过少,导致系统以为这些高频出现的词就是需要标注的关键词。随着用户上传的文档数逐渐增加及通过对用户人工标注的关键词的学习,智能标注的效度和精度会进一步提高。

(2)由于实验时自定义词库和停用词库不完善,导致了如“探索”、“数学”、“证明”这些可以作为停用词的词条出现在最终的结果中。随着自定义词库的丰富和停用词库的完善,这种现象会逐步改善。

通过实验及结果分析,不难发现关键词提取的效果与学习资源本身的内容以及词库的完备性之间有着较强的关联性。通过对自定义词库中的词与其他普通词进行加权,使出现在自定义词库中的词的加权系数高于普通词的加权系数,不断升级TF-IDF算法,是有效降低这种关联性的解决办法。

四、总结与展望

学习资源的关键词智能标注,除了能够方便用户更好地检索和标识资源的独特性外,我们还可以有其他方面的运用:

(1)对于一类关键词或几个关键词经常同时出现在某一文档中,进行大数据统计分析,进而得到关键词与关键词之间的相似度。有了这个相似度之后,就可以得出新上传的学习资源属于哪一学段、年级、学科等属性的概率值,将概率值最大的关键词作为默认值填到上传表单中,避免用户每一次上传学习资源时都要去填这些属性,可以有效提高用户体验的满意度。

(2)通过分析学生用户使用学习资源的行为数据,我们可以对其进行用户画像。比如某学生在近一月内对某一类资源观看较为频繁,通过对这一类资源的关键词进行汇总和统计,我们可以更为个性化地为其推送其他学习资源。

参考文献:

[1]赵淑漫.FFMPEG转码技术在HTML5视频系统中的研究与应用[D].东华大学,2014.

[2]Thomas Parsons W. Voice and Speech Processing[M]. New York, USA: McGraw-Hill Book Company, 1986:10-324.

[3]牛萍.TF-IDF与规则相结合的中文关键词自动抽取研究[D].大连理工大学,2015.

(编辑:王天鹏)

猜你喜欢
转码门限文档
浅谈Matlab与Word文档的应用接口
基于规则的HEV逻辑门限控制策略
地方债对经济增长的门限效应及地区差异研究
有人一声不吭向你扔了个文档
视频转码技术在广播电视中的应用研究
随机失效门限下指数退化轨道模型的分析与应用
基于Hadoop的流媒体转码系统设计
基于IPTV点播业务的视频分段式转码方案的研究与应用
基于RI码计算的Word复制文档鉴别
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat