当传媒业遇到智能语音技术

2015-03-15 02:57于继栋科大讯飞云平台事业部总经理
中国传媒科技 2015年7期
关键词:评测语音用户

嘉 宾:于继栋 科大讯飞云平台事业部总经理

采访者:刘胜男 本刊记者

作为中国智能语音产业的领导者,科大讯飞在智能语音技术的关键领域——语音合成、语音识别、语音评测、口语翻译、自然语言理解等方面,都代表了世界的最高水平。

那么,科大讯飞的智能语音技术向传媒业传递了哪些讯息?本期,《中国传媒科技》特邀科大讯飞云平台事业部总经理于继栋与您分享。

语音合成,助力传媒内容“无声”变“有声”

大家对语音合成技术应该不会陌生,我们耳熟能详的“志玲为您导航”,便是科大讯飞受高德地图委托,为其制作的个性化语音合成。语音合成技术又称文语转换(Text to Speech)技术,即将文字信息转化为声音信息,让机器像人一样开口说话。自90年代中期以来,在历次的国内外语音合成评测中,科大讯飞的各项关键指标均名列第一,中文语音合成技术更是超过了普通人说话水平。

我们知道,在某些场景下,声音具有文字不具备的优势,比如你可以在开车、跑步的时候听声音,却不能看文字。因此,如果传统的纸质媒体具备了朗读的功能,必然会增加更多的使用场景。科大讯飞的语音合成技术,就能为传统的无声媒体加上了会说话的“嘴巴”。

科大讯飞将语音能力集成在“讯飞语音云”上并开放接口,开发者可以免费将科大讯飞的语音能力集成到软件中,从而实现对文字的新闻的实时播报,并且声音自然、流畅,一步实现了从“报纸”到“广播”的跨越。目前,基于科大讯飞语音云开发的此类应用不胜枚举,比较著名的有搜狐新闻、一点资讯、荔枝新闻、凤凰电台等。

语音合成技术除了使传统媒体“发声”外,还为自媒体创作内容提供了新的可能性。如今,基于各种社交媒体平台的“自媒体”方兴未艾,任何人都可以有自己对外发言的工具。电台App的大量涌现,预示着声音自媒体的大势所趋,而这正是语音合成技术的用武之地。一方面,把策划好的内容直接合成音频,可以节省录音的环节;另一方面,对于那些对自己声音不够自信的人,可以通过语音合成来自由地表达。

目前,科大讯飞的语音合成技术也吸引了合作伙伴。2015年4月17日,科大讯飞与喜马拉雅FM达成战略合作,深入推动智能语音技术与音频内容的应用结合。喜马拉雅FM是国内最大音频内容生产和分发平台,是中国音频领域中的发声地,互联网声优的聚集阵营,手机用户超过1.5亿。可以预见,在不久的将来,喜马拉雅FM的用户通过语音合成技术制作的内容,将会占有一席之地。

值得一提的是,个性化语音合成已经成为一大趋势,科大讯飞为高德地图定制的林志玲、郭德纲的语音导航,一时引起无数追捧。而随着技术的进一步优化和相关版权规则的制定,个性化语音库的制作会越来越便捷,用户使用起来也会更加如鱼得水。未来,每个人都可以让明星来为自己“代言”。

语音转写,不只是记者的“福音”

很多朋友在刚使用“讯飞输入法”的时候,都会由衷地赞叹:“真是太准了!”讯飞输入法能够将语音“秒翻”成文字,准确率超过95%,并且独家支持十余种主流方言识别,激活用户数已超过2亿,深受用户喜爱。

讯飞输入法运用的这种说话就能变成文字的技术,叫作语音识别技术,让计算机能够“听懂”人类的语音,相当于给计算机安装上“耳朵”。在这项技术上,科大讯飞的研究成果也处于世界领先地位。NIST国际评测大赛是此领域中规模最大、影响力最广泛的评测比赛,科大讯飞自2008年参赛以来,多次摘得桂冠。

不过囿于输入法的功能限制,讯飞输入法对于时间较长的音频无法处理。为了实现对长篇音频文件的快速识别,科大讯飞也做出了多种尝试,并推出了两款产品,一款是叫做“录音宝”的手机App,可以直接录音并转文字,也可以导入录音进行转写;另一款则是一个网站,用户可以将音频文件导入语音转写引擎,便可快速处理,1小时的录音文件只需要几分钟便可以识别成文字,并且准确率在80%以上。对于噪音较小,发音标准的录音,识别率更是可以达到95%以上。

语音识别技术的应用,不仅仅是记者的“福音”,电视台的编导可以用它来为播音员配字幕,政府文秘可以用它来整理领导讲话等。以某合作的电视台为例,在某访谈节目编排完成后,加字幕是个并不轻松的工作,不到一个小时的电视节目,要反复听好几遍,很是费时。而自从采用了讯飞的语音转写工具后,嘉宾和主持人的话几分钟之内便可以识别出来,略作校正就可以发布。

语音评测:歌唱选秀节目可以有更客观的“导师”

每年夏天的《中国好声音》是歌唱选秀的盛会,但在评选过程中,导师们的选择并不总能让观众信服。那么,导师们转身的标准是什么,有没有一种机器可以取代导师,做出更客观的评价?

答案是肯定的。机器通过海量数据深度学习技术,反复“训练”,也能够学习评测所必备的声乐知识,从而对演唱进行打分。这项技术,我们称之为“唱歌评测技术”。

科大讯飞独家首创三维评分技术,除“音准”外,将“节奏”“吐词”两个重要的评分维度引入唱歌评测系统,该技术已应用于科大讯飞旗下互动音乐产品,如爱吼网、欢乐KTV等,并扩展到全国音乐等级考试等专业评测考试中。2013年,全国音乐等级考试正式启用“计算机自动化考试系统”,实测结果表明,机评打分性能较专业老师打分性能有明显提升。

未来,随着唱歌评测技术的不断发展,机器评审也会愈发“智能”。从一开始判断“唱的准不准”,到“音准、节奏、吐词”三维评测,未来可能还会融入更多的评测维度,如颤音、抖音、转音、音域、感情等评价因素,力求打造智能唱歌评测系统。

除了唱歌,科大讯飞的语音评测技术还广泛地应用于普通话考试与英语口语考试中。目前,科大讯飞的中文评测技术是全国唯一通过国家语委鉴定并大规模实用的技术,已累计完成近千万人次的国家普通话等级考试,并在全国八千万中小学师生的课堂教学中使用。英文评测技术在多个地区的中高考等重大考试中全面应用,累计完成数百万人次的考试。

口语翻译,字幕组与翻译的“对手”

2015年7月15日,第19届RoboCup机器人世界杯赛在合肥盛大开幕。在开幕式上,演讲台上出现了一个憨态可掬的机器人“飞飞”,在合肥市市长张庆军和RoboCup国际联合会主席野田致辞的同时,机器人“飞飞”则在一边同步进行中译英和英译中双向翻译。准确的翻译,标准的发音,灵活的肢体动作引起现场观众阵阵惊叹。“飞飞”正是科大讯飞推出的翻译机器人。

其实,这并不是讯飞翻译技术的第一次亮相,几个月前,在武汉举办的中博会上,汪洋副总理来到科大讯飞展台时,就体验了讯飞的翻译软件。当时,总理对着软件即兴问了一句, “有没有煎饼果子?”软件立即准确的翻成英文“Do you have any fruit pancakes?”如此的冷门问题得到了准确的回答,一时传为佳话。

与其他核心技术一样,科大讯飞的口语翻译技术,同样在世界上处于领先地位。国际口语机器翻译评测比赛是国际上最具影响力的口语机器翻译评测比赛,每年举办一次,至今已经举办了11届。2014年,科大讯飞首次参加该赛事,便打败了美国麻省理工学院、日本国家通信技术研究所、香港科技大学等,以显著优势夺得中英和英中两个机器翻译方向的冠军。目前,该技术已应用于灵犀语音助手、翻译机器人等,为用户提供快捷准确的翻译服务。

此外,科大讯飞与新疆大学语音实验室联合发布 “维汉口语即时翻译软件”,也是全球首款实现维吾尔语与汉语之间即时翻译的应用。该软件基于科大讯飞与新疆大学语音实验室联合研发的维汉语音翻译技术,可以准确识别维吾尔语和汉语,实现维汉语音即时互译、情景例句学习、维汉词典互译等。

语言的障碍一度造成了不同文化间“交流的无奈”,是文化传播的限制性因素之一。而科大讯飞的口语翻译技术,正在用技术扫除这一障碍。现在很多人在看美剧的时候离不开字幕,而在不远的将来,科大讯飞的口语翻译技术必将取代字幕组和翻译,实现不同语言文化间的畅通交流。

语音互动广告,颠覆广告业的新“玩法”

随着语音技术的进步,广告的形式也在发生变化。

科大讯飞基于具有庞大用户数与合作伙伴的“讯飞语音云”,创立了讯飞移动广告平台,该平台凭借海量的广告资源与优质媒体、智能的广告聚合,精准的定位投放和独特的互动广告创意,为广告主和开发者创造稳定丰厚的营销回报。

目前,讯飞移动广告平台拥有超过7万家的优质媒体资源,覆盖6.8亿移动终端,覆盖3亿有效用户信息,包含年龄、性别、收入、职业、地域、个人兴趣、购买意向等1500多个用户标签。

除了传统的广告形式外,讯飞移动广告平台创造性的推出了语音互动广告。这种新颖的互动广告形式,可以让用户参与其中,了解更多的广告内容。比如广告贴片在播放时,若用户按照提示,按住广告中的语音按钮并说出指定广告语,通过语音识别成功后,就可以跳过该广告。这种互动方式通过节省时间来吸引用户,更好的体现了广告的效果,突出了语音互动广告“有趣、有用、有料、个性”的特点,让用户对广告内容的印象更加深刻。

另一方面,通过互动,用户的交互信息反馈到大数据平台,促进了广告后续的精准投放,形成一个良性循环。不仅给用户带来极致的广告体验,也更有效地提升了品牌影响力,带来了最高效的广告收益。

实际效果表明,使用语音互动广告形式的品牌,消费者的第一提及率为17.19%,是传统广告的2.75倍;总提及率为43.75%,是传统广告的2倍。随着语音日益成为人机交互的重要手段,语音交互广告将会颠覆传统的广告形式,被更多人所接受。

写在后面

科大讯飞公司在创立之初,便将“为了人类之间、人机之间的信息沟通无障碍”作为发展的使命之一。如今,随着其核心技术的不断突破,当初的目标正在变成现实。在人与人之间、人与机器之间的交流日益畅通的同时,科大讯飞的智能语音技术悄然改变着人们生活的方方面面,也为传媒业带来了多方面的改变与更多机遇。放眼未来,智能语音技术与传媒业尚只初相识,必将擦出更绚丽的花火。

猜你喜欢
评测语音用户
次时代主机微软XSX全方位评测(下)
次时代主机微软XSX全方位评测(上)
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
攻坡新利器,TOKEN VENTOUS评测
对方正在输入……
Canyon Ultimate CF SLX 8.0 DI2评测
关注用户
关注用户