读唇用上AI,单词错误率少一半

2018-05-30 10:48
科学大观园 2018年17期
关键词:音素错误率单词

对于数百万失聪者来说,唇读可以提供一个与外界交流的窗口。但这种做法很难,结果也往往不准确。现在,研究人员编写了一种新的人工智能(AI)程序,其性能优于专业的唇读者,且错误率仅为之前最佳算法的一半。

“这是一项了不起的工作。”未参与该研究的英国伦敦玛丽皇后大学计算机科学家Helen Bear说。

编写可以阅读唇语的计算机代码令人抓狂。因此,在新研究中,科学家向机器学习“求助”,让计算机从数据中学习。他们为该系统提供了数千小时的视频和抄写本,并让计算机自己解决这个问题。

该项目始于14万小时的YouTube视频,视频展示了人们在各种情况下进行的交谈。然后,研究人员设计了一个程序,通过每个音素或单词声音的嘴部动作创建几秒钟的剪辑,并带有标注。该程序过滤掉了非英语语音、非讲话者面孔、低质量视频和未直接拍摄的视频。然后,他们裁剪了讲话者嘴巴周围的视频。这样产生了近4000个小时的录像,包括超过12.7万个英文单词。

此外,该过程部分依赖于神经网络。AI算法包含许多连接在一起的简单计算元素,这些元素以类似人脑的方式学习和处理信息。当研究人员为该系统提供未标记的视频时,这些网络会裁剪嘴巴动作片段。系统中的下一个程序也使用了神经网络,为每个视频帧提供了可能的音素列表及其概率。最后一组算法将可能的音素序列进行整理,并生成了英语单词序列。

经过训练,研究人员用它之前没有看过的37分钟的视频测试了该系统。他们在发布于arXiv网站的论文中报告说,单词错误率仅为41%。

这个成绩可能听起来并不怎么样,但之前最好的算法——专注于单个字母而不是音素——的错误率为77%。在同一项研究中,专业唇读者的错误率为93%(尽管在现实生活中他们能参考语境和肢体语言,这有助于读唇)。这項工作由总部位于伦敦的人工智能公司DeepMind完成,但该公司拒绝就这一记录发表评论。

猜你喜欢
音素错误率单词
依托绘本课程,培养学生英语音素意识
单词连一连
小学英语课堂中音素意识与自然拼读整合训练的探索
在拼读阅读课中培养学生英语阅读素养
小学生分数计算高错误率成因及对策
❷不定冠词a与an
看图填单词
看完这些单词的翻译,整个人都不好了
正视错误,寻求策略
解析小学高段学生英语单词抄写作业错误原因