人体辅助,AI 落地的另一种可能

2020-06-12 07:12李慕阳
科海故事博览 2020年1期
关键词:手语人士语音

文/李慕阳

人体辅助是一条被忽略的垂直赛道,产品和商业模式却非常清晰,讨论这一公益领域的商业构成本身并不违和。近期,《时代周刊》公布了2019年的100项最佳发明。最引人注目的一栏是“Accessibility”,人体辅助功能。这一项目里,由会说话的AI 助听器、眼控技术、智能手杖、智能假肢、视听转换等。当人工智能还是很多上市公司哄抬的概念、vc 口中的风口、专家手中的炫技、自媒体们笔下渲染的惶恐未来时,有一些人已经开始做出实际的行动,瞄准的是一个痛得不能再痛的垂直痛点。在大洋的另一端的中国,同样的项目和故事开始上演,先来看两个案例。

看不清的公众号运营

小雨是一个配音演员,患有视力障碍,平日里却在运营微信公众号,这是如何做到的?曾几何时,小雨是一个风华正茂、前途一片光明的大学生,弹了10多年钢琴,正在考驾照,爱好戏剧和表演,喜欢画水彩,对未来充满想象。但是命运却在刹那急转,起因是瞳孔出血,接着是一次小手术的失败引发了不可逆转的后果,作为一个弹惯了肖邦莫扎特、心灵手巧的女孩子,忽然间钢琴上的按键她一个都看不清了,那一年她才19岁。小雨是不幸的,但是她很倔强。在混沌迷茫的世界里,她依然保持着搜罗各种剧本的爱好,开始给其中的人物配音,但是剧本上密密麻麻的小字,如何看得清?好在一些屏幕阅读软件可以把文字转化成声音,这样她每一个新奇的点子都不会忘掉了。就这样,在视觉堕入混沌之后,“声音文字的互转”成了她和世界交互的关键纽带。她给动漫配音的事业很快走上轨道,一边运营起了视障主题的公众号,她还是那个激情洋溢的女孩,她很坚强。这是一个温暖的案例。在中国,大约有6000万肢体障碍、视力障碍和听力障碍者,更广义的残障人群则达到了总人口的6%。人工智能技术正在几个方向上迅速突破,致力于解决他们面临的核心问题:一是如何让他们看见?通过文字识别技术,看不清的文字都可以转为语音。通过图像识别技术,看不清的人或事也可以转化为语音的描述;二是如何让他们书写?通过语音语义的识别,他们的声音可以转换成文字;三是如何让他们更方便地生活?这里有很多细节。比如常见的网站登录图像验证,需要滑动拼图验证码,他们怎么办?常见的人脸识别需要眨眼睛,他们怎么办?当然,这些技术在发展中依然面临诸多困境,文字识别往往需要视障人士拍照聚焦、可他们怎么聚焦?很多不规范的手写字能不能识别出来?语音语义的识别能否绝对准确,方言能不能听得懂?

听不见的三辩

在广东,残障人士有一个练习沟通表达的表达社,表达社里出了一个“最佳辩手”,这个男生担纲三辩,可以和正常人唇枪舌剑,尽管他是一个听力障碍人士,听不见任何声音。听不见任何声音,包括自己的说话声,如何与常人辩论呢?换一个角度说,在中国约有2.1亿人患有听力障碍,其中7200万人患有中等以上听力障碍,通过助听器、人工耳蜗获得有效助听服务的只有2.5%。好在AI 迅猛发展,人们有了很多办法,比如开发专业的听力障碍APP,可以有这样的功能:一是字幕聊天,别人说的话(线下、视频)可以即时转化为文字,这样一来就交流无障碍了;二是语言康复训练,通过语音识别、合成和评测,帮助听障人士重新开口,练习普通话,通过拼音、词语、句子、文章循序渐进。比如广州的这位最佳辩手,就是通过专门的APP 实现了与正常人的话语交锋,对方辩友的声音都第一时间转化为文字,而长期语言康复训练的他已经可以直接“回怼”了。即便张开口来,声音还不够标准、自然,但这已经是非常了不起的一步了。围绕这个人群,还有另一个困境:聋哑人士常常通过手语交流,但是对普通大众来说,手语有如天书。在美国,手语翻译的比例是1:120,但是在中国,这个比例远远小于1:10000。这样一个痛点该怎么解决?国内的公司已经进行了很多探索,一个解决方案是智能手环,聋哑人士戴上后,手环可以自动识别跟踪人手的肌肉信号,把手势转化为文字和动图。但是面前有两大疑难:一是需要庞大的手语数据库,这不是一朝一夕可以完成的;二是如何适应聋人手语与众不同的语序,如何区分同一动作在不同语境和表情下的不同含义,是否引入自然语言处理的算法?

人体辅助的场景分析

在《时代周刊》的榜单中,可以看到这样一些案例:orcam myeye2这样的辅助摄像头,可以直接夹在用户的眼镜上,只要用手指指向想看的东西,设备就可以读取上面的内容,不仅有文字,还可以识别人脸和物体颜色。wewlk 智能手杖内置传感器、扬声器、语音助手和导航,还能用超声波检测胸部上方的障碍物并震动警告。智能假肢更是将脑机接口推向落地,用户可以直接像手一样控制,且假手具备感知能力和自主智能。树洞行动发起人黄智生说:“人工智能技术的进步所取得的经济效益要充分导流到弱势群体那边,让他们充分受益。”残障人士是不幸的,命运无情地剥夺了他们与常人共处的一些能力。但万幸在这个时代,人工智能技术的突进正在打破藩篱、填平沟壑,于是一些历史上不可想象的事情发生了。其一,文字转语音,图像识别转语音,视觉障碍人士可以“听到”更多了;其二,语音转文字,手势转语音,聋哑人士可以与正常人交流了;其三,对于肢体残障人士,智能声控轮椅正在成为一种新的可能。围绕“无障碍”的目标,人工智能领域的大公司在行动。腾讯发起“信息无障碍”行动,视障用户可以用声纹加好友,图片语音描述功能可以帮助他们“看见”图片,并且围绕语言障碍人士身份认证需求优化粤事省小程序。阿里发布助残报告,17万残疾人在淘宝天猫开店,3年销售额近300亿,阿里巴巴达摩院与清华大学人机交互实验室推出了为视障者研发的智能手机膜。2017年以来,科大讯飞发布了“三声有幸”公益计划,从资金到技术,对涉及残障人士的项目进行扶持,对很多语音文字交互的项目无保留地开放底层技术。在1024开发者节上,相关的技术和案例展示感动了很多人。在国外,亚马逊、谷歌和苹果的智能音箱成为残障人士的福音,自动驾驶的技术推进也为残疾人的出行带来了新的助力。“虽残不障”正在成为现实,但是这一进程的演进仍然缓慢,人体辅助是一条被忽略的垂直赛道,产品和商业模式却非常清晰,讨论这一公益领域的商业构成本身并不违和。从市场前景看,基于AI 的人体辅助是康复医疗行业的未来。据预测,2022年康复医疗行业的市场规模将达到1033亿元。从需求和产品模式看,人体辅助的解决方案正在迅速成熟,针对的就是残障人士日常生活沟通的需求和痛点,更像是盲杖、助听器和义肢的智能升级,其使用效果伴随着数据积累和算法迭代不断升级。从行业前景看,残障人士的“残而不障”将与更多的新技术结合,与物联网技术结合带来更多的智能硬件和可穿戴设备,与机器人技术结合带来更多的陪伴和康复机器人,与VR结合实现更多的情境模拟训练。当然,基于AI 的人体辅助也面临着比较显著的问题:涉及的算法和数据要求较高,不是一般创业公司可以hold 住的。或许一个比较好的模式是:由政府牵头、大公司参与,去完成一些底层基础设施和数据库的构建,比如语音图像手势的底层数据、语义分析的算法,并对外开源,比如讯飞、百度的开放平台;由更加垂直的创业公司去深挖,研发出更多兼具针对性和价格低廉的解决方案。

猜你喜欢
手语人士语音
新的社会阶层人士统战工作实现创新发展呈现崭新局面
“智慧谷”搭建海外人士创新创业“新”桥梁
新的社会阶层人士发展趋势、挑战及组织策略
WHEELS IN MOTION
自然手语在聋人大学生手语中的使用调查研究——以南京特殊教育师范学院为例
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
无声的世界里,怎样唱一首歌?
对方正在输入……