语音识别技术和语音合成技术对广播音频的冲击和应对

2018-03-30 20:13李粤

传播力研究 2018年5期

文/李粤

2018年1月22日，世界首部利用人工模拟人声的纪录片《创新中国》在中央电视台的纪录片频道播出。这部名为《创新中国》的纪录片最特别的部分在于解说词部分全程运用人工智能配音，“重现”了已故配音大师李易的声音。由于以前和李易老师有过多次广告合作，对李易老师的声音非常熟悉。这次听到人工智能合成的李易老师的解说词，只能用震惊来形容，不但那雄浑深沉的音色完全就是李易老师本人，而且每个呼吸，口气都那么自然，眼前立刻再现了李易老师在话筒前娓娓道来的画面。前几年还生硬的一个一个蹦字的语音合成技术短短这么几年就达到了几乎以假乱真的效果，不得不感叹科学技术的发展真是日新月异，同时又不禁思考这几乎以假乱真的语音合成技术对以声音为主要传播方式的广播电台又会带来什么影响呢？

首先简单介绍一下语音合成技术。语音合成技术又叫文语转换(TEXT-TO-SPEECH)j简称TTS技术。隶属于语音合成，它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的口语输出的技术。我们最熟悉的高德地图导航里的林志玲的声音，就是通过语音合成技术生成的。首先，科大讯飞采集一些林志玲的音频，然后输入文本并按照词典规则对文本进行语言处理，模拟人对自然语言的理解过程，如文本规整，词的切分，语法和语义分析，使得计算机可以对输入的文本完全理解，并给出后续步骤的各种发音提示。然后就是韵律的处理，就是找到林志玲发音的特点。如音高、音色、音强、音长等，使合成的语音能正确表达语音，听起来更加的自然。两部分结合处理后输出合成语音，实现了从文本到语音的实时转换。随着计算机深度学习的飞速发展，从文本转换为实时语音变成越来越快速容易的一件事，采集任意喜欢的播音人的声音，仅仅让系统训练学习几个小时候就能完成这套转换。

在语音领域还有另一项同样给生活带来翻天覆地变化的语音识别技术。语音识别技术，也被称为自动语音识别Automatic Speech Recognition，(ASR)，其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。

在新兴媒体对传统传媒行业产生剧烈冲击的业态下，纸媒倒下了，电视媒体也出现了断崖式的下跌。唯一在行业寒冬种逆势增长的媒体就是广播媒体，是什么原因让广播媒体成为了一枝独秀。我们来分析一下广播媒体的特性。广播媒体作为一个纯听觉媒体，是伴随性的。很多听广播的场景都是这样的：一边开车一边听广播，一边健身一边听广播，一边写作业一边听广播，一边做家务一边听广播......听广播可以和生活中的很多事情并行。而像看电视，看新闻等视觉媒体必须要受众的精力几乎全部投入才能和媒体的输出同步，获得完整信息。在生活节奏异常快的今天，人们每天都会接触到海量的信息，接触媒体的方式也在碎片化，投入大量的时间和注意力在视觉媒体上都是很奢侈的事。同时随着私家车拥有量的快速攀升，广播这一拥有新媒体属性的伴随性特性，不独占受众精力的媒体能逆势上扬也是必然的结果。但如果语音识别技术和语音合成技术发展到非常成熟的阶段会产生什么样的情况呢？我们再来分析一下广播媒体和网络媒体的不同之处。

广播媒体的特性

1.广播媒体是时间性媒体，它的传播是一过性的，信息稍纵即逝，无法保存。

2.广播的播出方式是线性的，听众无法获知下一秒的信息是什么，只能被动的接受而无法自主选择。

3.无法精确定位搜索所需信息，包括客户音频端，从音频信息中搜索想要的内容十分困难。

4.听众所接受到的信息都是经过编辑记者精心选择过的，是一个封闭的信息源，无法主动获知更多的其他信息。

5.听众和媒体间，听众和其他听众间互动不易。

网络媒体(以门户网站为例)的特性

1.存储性，随时可查。

2.多种标签，可根据多个关键字组合自主查找。

3.可随时，随地，随意选择用户想了解的信息。

4.分布式结构，开放式平台，无限连接，提供多种服务，可听，可读，可看，可用，可玩。

5.互动性。

我们以前总是喜欢说浏览网页，看新闻。随着语音识别技术越来越成熟，越来越多的智能语音设备进驻了家庭，私家车里，解放了人的双手。试想一下，在私家车里，司机一边开车一边用语音控制设备。“我想听海淀区升学的最新消息，请给我播放今日头条，我想知道最新的国际新闻......”智能设备利用强大的搜索功能找到相关的消息，进行播报。随着语音合成技术的飞速发展，甚至可以想像用户还有自主选择播音员的权利“我想听朱亚文播报天气预报，我想听郭德纲播报国内经济新闻……用户拥有了完全自主的选择权，还会选择被动的广播媒体吗？等到无人驾驶全面实现的时候，又会发生什么新的变革呢？

我认为首先被冲击的是读书，小说评书联播等节目。因为语音识别技术和语音合成技术的技术壁垒并不高，实现比较容易，只要可以获得文本信息，用户可以最低成本的选择自己喜欢的任意书籍，选择最喜欢的播讲人来定制自己的语音图书或评书节目。普通时政新闻，经济新闻类，同质化严重。各个网站可以短时间内互相转载，用户自然不会守着收音机去随机的获取信息，而是根据自己的时间，随时通过媒体端去自主的选择自己希望知道的信息，甚至可以像上文描述的场景一样，搜索文本信息自动实时的转化为个人喜欢的专属语音播报。

广播媒体面对语音技术的冲击该如何应对呢？以下是本人的几点想法，很多想法还很不成熟，但也许能抛砖引玉引来更多的思考。

根据迈克尔·波特在《竞争战略》中提到的三个基本策略中的差异化和专业化策略，广播媒体要做到什么是人无我有的，人弱我强的。以我台来分析，中央人民广播电台有竞争力的竞争点是什么？

1.中央人民广播电台作为国家电台，广播行业的龙头，必然受到国家的一些政策支持及倾斜，一些重大的新闻事件，政策发布享有优先权，这是其他网络媒体所不具有的。

2.中央人民广播电台的嘉宾都是政府和行业的重量级人物，还有一大批各领域的专家进行分析点评，使得中央台的公信力、权威性、影响力毋庸置疑。而网络上的很多信息真假难辨，无法得到信任。

3.中央人民广播电台拥有覆盖全国的记者站40家，驻军记者站18家，在台湾地区也拥有驻点记者，这遍布各地的记者站构成巨大的信息网络。除了能快速的得到第一手的信息，更能深入发掘新闻背后的真相。

4.中国人民广播电台拥于一流的技术、设备、专业人才。其中的新闻采编，节目制作方面屡获大奖。尤其在新闻采编方面，几十年的积累养成的新闻素养，使得国家电台的专业性，广度，深度、舆论引导能力是一般网络媒体无法企及的。

5.数量众多的优秀主持人和积累了70年多年的声音资料构成中央台庞大的音频资料库，其中更有很多极其宝贵的音频资料是外界所没有的。

6.中央人民广播电台除了17套广播覆盖到全国各地外，还有央广网，数字广播、数字电视频道，手机电视、新闻客户端、平面媒体等多媒体应用。此外还发起成立了拥有全国140多家电台的中国广播联盟，并携手世界各大华语广播机构建立了全球华语广播网，与全球大多数国家和地区的知名传媒机构建立了广泛的业务合作关系。这些跨媒体、跨行业、跨区域的联合，实现了媒介融合，达到了各媒介的互为补充及延伸。了解了我台的竞争点，就要考虑如何把这些竞争点转化为竞争力及实实在在的盈利能力。

1.内容为王：媒体总说“内容为王”，这对于同质化越来越严重的新闻来说是破局的关键，尤其在网络间互相转载成风的业态下，有独家的别人没有的内容是获得注意力的关键点。新闻刚发生的时候，各大媒体的内容基本都雷同，但随着事件的推进，各家媒体的新闻水平，追根溯源的能力就始见真章了。利用我台强大的信息网络，利用国家媒体的政策优势，依靠我台新闻记者优秀的专业素养，追寻新闻背后的真相，深度报道。同时利用先进的语音识别技术，同步把广播音频转化为文字(或同步新闻编辑稿件)，在央广网第一时间呈现。在央广网站同时提供截取广播音频以对应文字。此外网站再根据语音合成的技术，可以让浏览或搜索网页信息的用户选择语音播报选项，实现用户的私人定制，实现信息的二次传播。

2.音频资料库的开发利用：中央台从建台到现在无数优秀的主持人都是宝贵的声音资源。第一步要做好声音版权的保护。第二步就是这些声音资源的开发利用。比如在线教育领域，普及普通话方向。

3.媒介平台的互动性：最近湖南台的综艺节目“声临其境”受到广大观众的喜爱，这就可以反映出仅仅只是声音也是很有魅力的。而我台的强项正是声音，如果把这个强项做大做强值得研究。仅通过广播单一媒介不好互动，但随着媒介融合的展开，互动就轻而易举了。比如可以在文艺类栏目中开放小单元《挑战主持人》，由听众随机选择声音比赛项目和主持人PK。在央广网或手机端设立游戏互动端或APP，对一些经典配音段落，诗词等，电影片段进行挑战，打分等定期还可以把优秀的挑战者汇聚一起组织配音大赛，从线上到线下全面打通，还可以从大赛中挖掘优秀的主持人才进行人才储备。

4.地域性竞争：中央人民广播电台实现全国覆盖即可以说是优势也可以说是劣势。俗语说”众口难调“，在大众传媒的时代，信息是供小于求的，全国覆盖是优势。但在分众传媒时代，海量的信息远远供大于求，人们更愿意选择自己感兴趣的内容，人群区隔越来越窄，地方台的用户更关心本地的信息，全国覆盖就是劣势了，这也是虽然中央台在全国覆盖人数总量很大，但具体在某一个城市，远远赶不上地方台的原因了。近来发现地方方言的节目特别受地方用户的欢迎，虽然我们的广播节目无法转换为各地的方言广播，但是有了央广网的二次传播和语音合成技术的飞速发展，全国覆盖变为各区域特色的传播成为可能。在央广网设立各地方方言和民族语言选项，让用户可以利用语音识别技术发起内容点播，利用语音合成技术完成文本信息到各种方言的转换，让人倍感亲切。

4.降低广告成本：央广广告的制作量巨大，很多次录制广告都要邀请演员到录音棚进行现场录制，时间成本和演员成本都很高。随着声音合成技术的日趋成熟，只要实现采集好不同演员的声音信息，构建声音资料库。以后只要有了广告文案就可以随时从资料库里选择演员，生成广告音频，极大的节约人力成本和时间成本。

我们相信，随着各种语音技术的发展成熟，将会对广播音频产生巨大的冲击，但只要我们努力接受新技术，接受新挑战，提前布局，积极创新，也许对我们更是新的机遇。

[1]吕梦.首部AI配音纪录片播出，央视已故播音员屏幕前“原音重现”微信公众号[J].AI星球，2018-1-22.

[2]谭天.媒介平台论[J].2016-7-1.

[3]JOHN.语音合成新技术，可复制任何人的语音微信公众号[J].intelligentThings，2017-4-29.