宋瑞 白佳丽
2月17日,天津理工大学聋人工学院学生通过手机App为手语识别系统进行数据采集(孙凡越/ 摄)
根据全国第二次残疾人抽样调查数据,我国约有听障人士2780万人。对他们来说,激烈的赛事往往“只见其貌,不听其声”,但他们同样渴望像普通人一样,感受体育比赛的激情。
今年的北京冬奥会上,不少听障人士发现,赛事新闻中出现了一名面容清秀、气质优雅的冬奥新闻AI主播。其精准的手语手势,配合着妙语连珠的解说,让听障人士能与健听人(听力健全人的简称)一样,同步感受冰雪运动的魅力。
“我们用技术跨越声音的障碍,帮助听障人士‘听见’冬奥。”天津理工大学聋人工学院副院长、冬奥新闻AI主播的手语数据库支持团队负责人袁甜甜接受本刊记者采访时说。
2021年11月,距离北京冬奥会开幕仅剩两个多月的时间,袁甜甜团队接到一个紧急任务——教冬奥新闻AI主播打手语。
虽然有20多万条手语语料库作基础,但团队依旧感觉一个字:“难”。
第一时间参与其中的教师闵笛对这一过程深有体会。首个难关是“冷门”词汇。团队成员们把整理出的新词形成一定的手语打法,再让手语专家一一判定听障人士能否看懂。遇到难以用手语表示的词汇时,还需多番讨论。
“每个词至少要经历这样两个来回,就这样我们共新增了1000多个专业词汇的手语打法。”闵笛说。
“词汇关”克服后,“语法关”又摆在了面前。
“手语具有独立的语法体系,而且手语和语言文字并非一一对应,而是多对多的关系。这样复杂的‘翻译环境’,意味着AI主播除了要将语言文字解析成对应的手语词汇,还得将其调整顺序,转化为听障人士习惯的手语语序。”闵笛说,团队只能不断对AI主播进行“认知训练”。
“人工智能深度学习的过程,就像教小孩子学说话,每一个词、每一个手语动作、每一句语序都需要反复‘学习’,人工智能才能建立认知,结果才能实现精准无误。”袁甜甜说。
经过大量数据采集、语料提取、数据处理等步骤后,专属于北京冬奥会的AI主播初步打造了出来。
不过,“第一次进行模拟赛事新闻播报时,AI主播的手势动作非常快,有点‘鬼畜’。”闵笛说,“对于激烈的赛事讲解,解说的语速本就很快,而手语如果和这一语速保持一致的话,听障人士很难看懂。”
对此,团队又多番对翻译思路进行调整。
功夫不负有心人,冬奥新闻AI主播终于如期亮相。其准确的翻译、亲切自然的形象很快获得了听障人士的喜爱。
今年22岁的王晓阳,是聋人工学院大三的学生。作为一名听障学生,他既参与了冬奥新闻AI主播“学习”手语的全过程,也是冬奥赛事的忠实“听众”,每天准时上线,“盯着”AI主播的手语播报。
“就怕‘她’没学好,怕‘她’出错!”王晓阳用手语解释。但令他欣慰的是,听障朋友们纷纷发来信息,告诉他AI主播的手语“看得清楚、清晰”。“手语打得很漂亮,我们为自己骄傲。”一旁的同学魏翔羽用手语补充。
“能以服务听障朋友的方式参与北京冬奥会,我们感到无比自豪。”袁甜甜对本刊记者说,“团队收到很多反馈意见,这些宝贵的意见将推动我们不断迭代升级。”
其实,通过技术手段让听障人士“听见”健听人的想法,袁甜甜从6年前就开始酝酿。
“我2016年来到学院当老师,与听障学生接触的过程中,发现他们最渴望也最惧怕的就是与健听人交流。因为有计算机专业背景,所以我想到通过技术改变这种现状。”袁甜甜说,六年来,从她一人摸索,到仅有一名听障学生加入,再到成立无障碍智能科技研发团队,如今团队的核心成员已达50多人,其中不少是“00后”听障学生。
随着团队发展壮大,技术难关层层攻破,AI主播亮相冬奥成为该团队实现技术落地应用的“第一步”。
“目前,我们实现了在光线充足且稳定的室内,系统对手语的识别率最高达95%,部分场景下可以实现‘同步翻译’。
“不仅要让听障人士‘听见’,还要让他们被‘听懂’。”袁甜甜表示,冬奥赛事之外,团队一直在不懈探索。
“会手语的健听人实在太少了。有人说,听障人士可以通过写字、打字的方式进行交流,但那样沟通的有效性差很多。听障人士自然的表达方式是手语,为什么不直接识别手语呢?”袁甜甜团队研发出了“复杂场景下中国手语实时翻译系统”,可将输入的手语动作和表情经由计算机视觉技术识别后翻译成文字或语音。
“这类似于手语版的‘语音输入法’。”袁甜甜说。但语音识别只需收集“声音”,手语的表达方式则意味着团队要把手势、表情、大肢体动作等从视频转化为数据,再“教”给计算机,经过反复训练,才能“教出”一个随叫随到、及时准确的“手语翻译”。
“目前,我们实现了在光线充足且稳定的室内,系统对手语的识别率最高达95%,部分场景下可以实现‘同步翻译’。”袁甜甜自豪地说,只要在摄像头前打出手语,显示屏上就会出现语意连贯的文字翻译。
“信息技术对我们的帮助很大。”王晓阳用手语说,以前与健听人交流,他总觉得不安,有了这些技术手段,让他更有勇气融入社会。据介绍,该系统可用于教育、法律咨询、餐饮、交通多个场景。
2021年5月,袁甜甜在第五届世界智能大会的现场展示了这一翻译系统,吸引了不少人驻足。演示人员在摄像头前打出手语,身后的显示屏上就会出现语意连贯的文字翻译。
“一些银行从业人员、超市经理对我说,如果这一系统实现产业化落地,能够帮助他们解决很多實际问题。那一刻,我深切地感受到,不仅仅是听障人士,社会对手语翻译系统也有很强烈的需求。”袁甜甜说。
值得一提的还有,依托“复杂场景下中国手语实时翻译系统”,袁甜甜指导学生创业团队开发出“鲸可语”项目,代表天津理工大学拿下了第七届中国国际“互联网+”大学生创新创业大赛总决赛高教主赛道的金奖。
谈及“鲸可语”,袁甜甜讲诉了“52赫兹鲸”的故事——海洋中,发出15-25赫兹之间的鲸鱼可以正常交流,而叫声频率为52赫兹的鲸鱼在其他鲸鱼眼中就像“聋哑鱼”。
“我们希望用技术把‘52赫兹鲸’与其他鲸鱼连起来,让它们不再孤单。”袁甜甜说。