有声语言表达艺术与智能语音的审美性提升

2018-11-13 15:16刘洋

华夏文化论坛 2018年2期

刘洋

【内容提要】智能语音技术力图真实模拟并还原人类的语音识别与语言表达，但是在沟通的过程中，却很难真正地实现心灵相抵，受众无法获得理想的审美体验的满足。我们生而为人，不会被智能机器所取代的核心本领，就是可以通过独有的发音器官和多元化的表达方式，赋予人际沟通以“情感感受”的观照。个性化的、独立化的有声语言表达艺术与飞速发展的智能语言技术可以各取所长，互补其短。

一、智能语音技术的蓬勃兴起与其存在的审美缺憾

在信息时代，每一轮社会革新所需的时间正被日益鼎新的技术极大地缩减。如今，全世界又迎来了一个崭新的人工智能时代，人类的价值又将重新被定义，人类的工作也将面对智能机器人的挑战。

人工智能技术一直致力于模拟、延伸和拓展人的智能，其不断创新的种种努力，都是为了让机器更加相似于人类，具备人类的各项能力，甚至在具体领域更加优秀于人类。其中，不断突破技术难点的智能语音系统，正竭力地模拟人类的语音识别与有声语言表达，机器逐步掌握了听音辨意、对答如流的能力，这在不断接近、渐趋近似人类行为的科学进程中，则显得最为真实，而又令人生畏。作为人工智能应用中较为成熟的技术，智能语音技术包括语音识别技术（ASR）、语音合成技术（TTS）等，是实现人机互通的崭新领域。它从发展到成熟，不过用了短短60多年的时间，目前已被广泛应用于智能车载、智能电器、智能穿戴、智能管家、虚拟助理等诸多领域。

2016年美国CBS电视节目主持人查理·罗斯（Charlie Rose）在一档人工智能节目中采访了名为“索菲娅（Sophia）”的高智能机器人，作为语音识别技术的经典作品，索菲娅伶牙俐齿、侃侃而谈的从容状态，令大众为之一惊。2017年，Sophia又加入了《早安英国》的节目组，在“她”的发明人David Hanson博士的陪同下，成为了“新晋主播”。同年10月，沙特阿拉伯授予Sophia公民身份，作为历史上首个获得公民身份的机器人，Sophia表示：“If you are nice to me and I will be nice to you”（人不犯我，我不犯人）。

值得一提的是，近来，我国自主研发的智能机器人“小聪”也成为了嘉宾主持，并站在了浙江卫视《E眼看两会》的节目现场，它用流畅的语言回答了不少主持人的提问，同时运用灵活的肢体动作进行了交流互动。

尽管在目前的智能语音服务系统中语音识别率可以高达96%，但在接近人类的“倾听”与“表达”的层面，却很难在真正意义上实现与人类的交心沟通。程序员努力让程序“假装”听得懂人类的语言，工程师努力让机器做出近似人声的仿真表达，仿佛实现了人机交互，人们或许会在听筒前、屏幕外惊叹于如此逼真的科技水平，然而可悲的是，话筒中、屏幕内以二进制数字（0和1）构成的机器语言却表现得呆板生硬、毫无感情，在受众的感觉中是陌生的、隔阂的、冷漠的，容易使人产生排斥心理。可见，由编写代码所赋予的程序，并不能带给受众理想的听觉体验。语音识别系统可以追随技术不断翻新，但是智能语音表达系统却发展缓慢，目前也仅仅停留在对于智能化语音的模拟阶段，而这又是为什么呢？

人类发展史上的每一次发明创造，都是在为“人”这个对象而服务，智能的机器可以生产出优质的产品，但是却生产不出本真的情感；智能的机器可以简化繁冗的工序，但是却不能简化内在的语境；智能的机器可以丰富娱乐方式，但是却无法丰富心灵深处；智能的机器可以日夜不停地倾听客户的愁绪，但是却无法一语中的地开解人性的烦忧。声波的传播本质是一种能量在介质中的传递，可是人类在信息互通的过程中所融入的却是微妙的情感感受。人耳所接收到的不应单单只是字音信息，更应蕴含着丰富的内心感受，如是，人类才能借此体悟到思想、意志、情愫和美感。人工智能技术基于一种数学层面的算法，而数学却是最为讲求逻辑的学科，可是，并不是所有的东西都需要借助数学的运算，诸如：想象力，就是站在逻辑的反面。想象力的激发与创造，并不需要人工智能技术，而反倒是听觉系统更加能够激发和培养人类的想象力。从一定意义上来说，通过耳朵接收到的信息所产生的情感效能与创造的思维价值是优于其他感官的，故此，对于听觉体验的满足更显得尤为重要。

语音助手的智能人工化，使得人们更愿意以同“人”一样的方式与其互动交流。但是工程师无法赋予程序以“情感感受的观照”，这是智能语音技术中所最为缺失的审美元素。依托了大数据分析的语音助手“忠实”地将与用户沟通的“经验”记录在案并提供贴合需求、偏好、习惯的服务，但这毕竟只是一种机械化迎合、标注化作业，只是人工智能为自己积累的数据，只是它用来丰富算法的案例。与之不同的是，有声语言表达艺术的创作主体却是在以个性化的独立思考和饱满充沛的情感感受，与客体进行着心贴心的交流，其所通往的精神世界也更为瑰丽而广阔。

二、人声语言蕴含的审美因素与智能语音的受众亲和性问题

智能化的设备可以在最大程度上辅助并促进人类社会的发展，但是，我们终究不会被机器所取代的核心竞争力，也就是人类的终极本领——人可以通过情感化观照完成与同类亲密无间的、精神个性化的、互为归属的、无比依恋的和谐沟通！舒婷在《神女峰》中提及：“与其在悬崖上展览千年，不如在爱人肩头痛哭一晚”，由此足以看出，在人与人的沟通中，情感浸润的伟力。对于彼此情绪的感受、体悟、洞悉直接影响着情感化的表达，这成为人类所独有的复杂微妙的无可匹敌的超凡能力！得益于与生俱来和后天培养的双重作用，这种体察与表达的行为，发端于大脑、转化于唇舌、接收于听感、作用于心理，使得“人”与“人”之间的沟通成为世间最为和谐、美妙、有效的信息传受方式。

迄今为止，宇宙中已知的最为复杂的事物不是超人工智能（SuperAI)，而是人类的大脑，人们对于数十万光年之外的星体的了解都要远远多于对人类大脑皮层细胞的认知，尽管脑科学、神经学、心理学已经相当完备。正因具有数百亿个神经元的人脑的复杂性，使得科学家们尝试通过逆向工程，以大脑的思考方式为研究切入点，进而推动机器智能的向前发展。人们依照大脑神经网络的结构，一层一层地输入数据，由简单至复杂，再输出结果，在算法的不断优化之后，以“AlphaGo”为代表的新兴技术获得成功，神经网络与蒙特卡洛树（MCTS）搜索算法得以有效结合。

但同时值得关注的是，亚马逊基于AI技术推出了一款语音助手“Alexa”，而且要比iPhone里面的Siri更加智能，它可以帮客户播放歌曲、播报新闻、购买东西、控制智能家用设备，一经推出，曾经备受好评。然而近期，全世界的Alexa会突然毫无预警地在没有任何指令的情况下，诡异地大笑起来，网络上充斥着客户们对于恐怖经历的描述。这种由人工智能操控着的诡异的机械音的笑声，非但没有带给人们愉快的听觉享受，反而引发了更多对于机器人反噬人类的担忧。

由此可见，再高级的智能语音系统，也仅仅是类人化的表达途径，并无法带给人们真正舒心的情感体验。而我们要从沟通中所获得的审美享受，实则是得益于一种人脑复杂的、与智能机器不尽相同的学习模式，这种颇独特的、无监督的、非干预的学习模式是人类优于人工智能的关键所在。我们在孩提时代通过同类的引导和训练，利用后续的几十年生命，在成长的过程中以观察、发现、体悟、融汇的多元方式，自发而主动地将少量的经验不断累积增长，将外部的“知识”转化为自身的“智慧”，将对于传播对象的情感观照与自我的情感体验浸润合一后，有效凝结成有声语言表达行为，完美实现信息从信源到信宿的传播过程，将心比心地把传受双方的情感体验升华到最佳程度。

客户服务的话务员、同声传译的翻译员、在线解答的咨询员、旅游景点或博物馆的讲解员、远程维护的技术员等诸多职位的员工，正在备受智能语音系统的冲击与挑战，在目前的竞争环境下，虽然处理事务、介绍情况、答疑解惑的效率提高了，但是很多核心性的问题并没有得到根本性解决。以话务工作中的某个流程为例：做好电话咨询的服务重点在于切实搞懂接听客户的实质性需求，而因为涉及到信息隐私、资金安全、个性化偏好等问题，使得部分客户的陈述性话语中蕴含了大量的内在语境和弦外之音，这些都是目前的智能语音服务系统所无法独立判断、捕捉和识别出来的。在这种情况下，更需要的是有着个体经历、从业经验的话务人员，及时地止停、留白、倾听，有效地提问、引导、分析，进而揣摩到客户的核心性心理诉求，通过换位思考后与其保持同一立场（甚至是给足面子），采用经过情感浸润的、带有适时语气的话术，最终将问题亦或客怨彻底解决、消除。

正是基于人与人之间的共识性文化、共同的语境、相近的情感知觉，才使得人施于人的语言表达更为贴切而有温度，对象的需求被摸准、响应被满足、情感体验被关照，传受双方的信任感便大幅增强。这种良好的情感体验，将在我们内心深处留下深深的烙印，进而潜移默化地形成一种审美知觉模式，这种知觉模式会培养出人们对于在岁月的流淌中所搭建起来的和谐的沟通关系更为强烈的、主观性的好感与依赖。

在充满亲和性的沟通过程中，主要是人脑中自然而然地产生的情感起着决定性的作用。各种价值特殊、属性迥异的外部事物所带来的刺激信息，分别通过不同的感觉器官、感知系统反映并作用于人脑当中，使人形成了对于该事物独特性、差异化的认知，加之对前期记忆的追溯与经验性汇总后，伴随激发形成了一种特定的感受形式：即为情感。对应着视觉、听觉、嗅觉、触觉和味觉这五种感受，是在人类独特的、无监督、非干预的学习模式中起至关重要作用的五大类感觉器官，即眼睛、耳朵、鼻子、皮肤和舌头。

常言道，倾诉是春天的播种，倾听是秋天的丰收。在人与人进行信息交互的环节中，情感作用于内心，唇舌表情达意，耳朵接收声波，大脑处理信息。尽管我们的感知系统是一个有机融合的整体，但是在各种感官中，完整的听觉通路更显独立，人类通过耳朵不仅可以感知震动、判断属性，而且还可以体察到心灵的距离。由于相对近似的生命体验、教育习得、存在环境、生活经历等因素的影响，使得同类间的观照更显深入，交流更加顺畅，沟通效果更为理想。

尽管网络覆盖下的都市生活节奏急促，使得人们在不断封闭自我的同时对于情感性表达产生极度的忽略与漠视，情感能力在现实中所起的作用一度被低估，但是作为真核生物域动物界脊索动物门哺乳纲灵长目人科人属智人种的人类，无论如何进化都不会陷入一种情感冷漠的认知结构之中。对于处在困苦（甚或危险）情境下的同类的怜爱、同情与关照，是每一个人与生俱来的本能。高度发达的神经系统是在人体内起主导作用的功能调节系统，其中的神经元接受刺激、产生兴奋、传导兴奋，各器官密切配合、相互联动，从而使完整统一的有机体完成“感受”与“抒发”的活动。人类学与考古学已有的发现足以证明，具备充沛情感感受（emotional feelings）的超凡能力，是大脑皮层（人类神经系统中调节控制的最高中枢）经过了30万年进化的结果。情感感受是价值特性在大脑中的主观反映，而这一特殊能力，却是智能机器乃至其它生物所无法具备的（诸如它们看见同类被残害、屠杀时不会产生情感反应）。诚然，在时下的生活中，感恩、愧疚、纯善、怜悯、悲怆、敬畏、扼腕、义愤等等复杂而强烈的情感波动发生的概率在不断降低，但细究原因之后不难发现，正是因为新兴技术推动下的表达方式的数字化、网络化和语言形式的图片化、符号化，削弱了人们的情感感受能力，这就使得情感化的有声语言表达成为了一种稀缺品。情感缺失，是必须引起重视并亟待解决的严重症结，只有深入分丝析缕、积极调动情感、尽力弥补所缺才能保证人类超凡的能力不再遭受侵蚀。心理学家阿德勒强调：“心理在行为的过程中起着重要性的作用。”正所谓上善若水，蕴含着细腻情感感受的有声语言表达，便是防止人心沙漠化的一捧清水。库克就曾指出：我并不担心机器会像人类一般思考，我最担心人类像机器一般思考。其中之意，发人沉思。

智能语音系统的逻辑算法与人类的情感产生机制是不同的。通过机器学习、数据挖掘算法、声音传感、语音识别、语义理解、语音合成、语音知识数据库的云端支持等多项技术的共同发力，使得智能语音助手完成从被人唤醒、到清晰感知、再到准确表达的全过程。虽然人工智能技术可以通过研究人类智能活动的规律，进行抽丝剥茧的有效分析，从而构造出具备相对智能的人工系统，但是，无论如何依托大数据与云计算，目前的计算机都无法运算出“意识”(consciousness)、“自我”(self)、“思维”（mind）与“感知”（perception）。古希腊奥林匹斯山上的德尔菲神庙门楣上镌刻着一句话：“人啊！认识你自己”，苏格拉底将此话视为自己哲学立场的宣言；与其同一时期的曾子亦提出“吾日三省吾身”；当代美国知名的脑神经学家吉姆·法伦（JimFallon）也认为：“人的大脑结构中属于额叶部分的眼窝皮层是涉及社会伦理认知功能的关键器官”。虽已逝去千年，人类对于自身思辨与探索的脚步却从未曾停息。责任肩负、情绪控制、动机把握、社交需求、价值实现，这些要素都作用于人与同类之间相互沟通的内在认知系统，由此可见，交融着情感的表达与对其的感知，是一个非常复杂而又值得细究的信息传受过程。

繁冗的、海量的事务可以被智能化的机器代为完成，可是将心比心地去进行情感化沟通的工作却无法被代为完成；体力甚或脑力的工作可以被智能化的机器代为完成，可是与人类心灵相抵的口语化表达却无法被代为完成；流程化、模式化、重复化的工作可以由智能化的机器代为完成，可是针对差异性个体的、直至内心的、创造性的、变化性的、互动性的深入交流，还需要人类自身去亲力亲为。

因此，要尝试着将审美因素注入人工智能语音之中，使之具有人类亲和性。而要注入审美因素，就需要对人声语言有深入而准确的把握。

三、人声语言的发音机理与表达方式对于智能语音技术的借鉴

辛弃疾“八百里分麾下炙，五十弦翻塞外声”的豪放，李白“我歌月徘徊，我舞影零乱”的浪漫，李商隐“沧海月明珠有泪，蓝田日暖玉生烟”的悱恻，苏轼“回首向来萧瑟处，归去，也无风雨也无晴”的旷达，李清照“花开花落花无悔，缘来缘去缘如水”的婉约，莎士比亚“不速之客只在告辞以后才最受欢迎”的讽刺，人类之所以能将这百般体味融入丰富的语言链条，进而在有声语言表达艺术中灵活自如地抒发充沛的情感感受，这完全是得益于我们独有的发音器官和多元化的表达方式。

根据在发音过程中所起的不同作用，可以将发音器官分为以下三个部分：1、动力部分——主要包括肺叶、横膈肌、胸廓、气管和支气管。气动则声发，这部分所产生的气息为声音的发出提供了支持性的动力基础，发音时用力大，从肺部呼出的气体通过气管和支气管后，对声带产生的冲击则会增大，音波的振动幅度增大，声音就变强，反之就变弱，可以运用对于气息的控制形成人声错落有致的强弱变化；2、发声部分——主要包括咽喉和声带。声带又称声襞，是位于喉头中部的两片弹性大的瓷白色小薄膜。气流涌出所引发的声带振动，为发声提供了音质素材，声带短、薄、紧，发音时音频就大，声音就高，反之就低，可以通过声音的弹性变化来增强语言的表现力；3、咬字部分——主要包括喉部以上各器官组织：唇、齿、舌、颧肌、软腭、小舌等，通过完成开、合、提、打、挺、松等动作，形成双唇音、唇齿音、舌尖音、舌面音、舌根音等发音，实现出字、立字、归音，灵活驾驭各个器官的协调配合，可以有效提升声音质量与表达状态。

人们听到的语音片段中都具有四个感觉特性，即音长、音强、音色和音高。音长指的是声波振动持续时间的久暂，表现为声音动程的长短，在汉语和英语的一些语句中音长可以起到区别意义的作用；音强是指声波振幅的大小，声音的强弱与声波振幅的大小成正比，0分贝是听觉可感的最小值；音色是一个音素区别于其它音素的基本判定特征，它由不同的声源（发音体）属性（材料、结构等）所决定，音波波纹的不同曲折形式造就音色的差异，表现为声音品质的或明或暗、或清或浊，使得声音更具个性、特色与辨识度；音高，决定着汉语发音的声调和语气，它是由声源的振动频率所决定的，振动次数多，频率就大，声音就高，比16赫兹低的次声以及比20000赫兹高的超声都是人类所无法听到的，16到20000赫兹的空气振动是听觉的适宜刺激，其中尤以1000到3000赫兹这个区间最为敏感。经过介质传播的声波直接作用于听觉器官，激发感知细胞的兴奋度，引起听觉神经的冲动，从而能够将外部信息有效地导入。

再从多元化的表达方式上来看：1、人类声带的固有膜是致密结缔组织，声带的长短、松紧和声门裂的大小都能对发声产生影响，在皱襞的边缘有强韧的横纹肌和弹性纤维，这使得声带极富弹性，交替使用声带的不同位置，就可以依照沟通需要及时而到位地实现声音上较大的弹性变化；2、当一个发音体遇到另一个频率与之振动频率相同或近似的音波时，随之受到影响而引发共振，这种现象就是共鸣。人体中作为共鸣器的是胸腔、鼻腔、口腔和头腔等多个腔体，通过它们的联合作用，可以达到良好的共鸣效果，人声因此而得到润色和美化，因为各个腔体的形状、大小都不尽相同，所以经过共鸣修饰后所表现出来的音质则更为优美而繁多；3、人体胸腔与腹腔之间的膈肌属于骨骼肌，经过科学的训练后将会更加自如地为我们所用，调动横膈的上下运动（吸气时向下运动，呼气时向上运动）可以使得处于沟通交流过程中的气息既充分饱满又流畅自然地平稳进出，通过有效操使胸腹式联合呼吸的方法，便能够达到理想的表达状态：以情运气，以气托声，以声传情，表情达意，及于受众；4、人类可以根据语言环境中表意的需要，随时随地地、收放自如地调整音量的大小，同时运用音强的差异性变化所形成的重音和轻声，起到区别语法意义和词汇意义的作用，增强了语言的节奏感、流畅感和韵律感，对于逻辑重音所处的不同位置的适时调整，也可以在最大程度上实现有声语言表达中语义焦点的灵活转移；5、我们可以依照交谈时的思想发展与情感变化，自由地把控语气的轻重、节奏的急缓和话语进程中的停顿与连接，从而在满足心理需要、生理需要和情感抒发的同时，凸显语意精妙的层次感；6、人类可以将对于音准、音质、音调、音量的把控技巧有序整合、综合并用、应时而动，既使得各元素间相得益彰，又使得和谐优美、动听悦耳的表达更具对象感、画面感、分寸感和亲近感，在更为直观、更加适时、更显贴合地反映出人的态度、意图和情绪的同时，既强化了语言的深刻含义，又提升了语言表达的沟通效能。

时而吸引，时而让步，时而平和，时而动情，时而批驳，时而赞颂，时而跌宕，时而反转，时而兴奋，时而哀伤，时而坐看云起，时而扣人心弦，贴切的情感感受自然而然地流淌于言谈之中，既充分而有效地表达了思想，又引发了审美愉悦的知觉享受，正因为我们将自身拥有的独特而复杂的发音器官与灵活而丰富的话语表达方式完美地结合在了一起，才使得对于同类间的沟通工作无法被智能语音技术所完全替代。

虽然人类在有声语言表达方面天赋异禀，但在交流的过程中，还是不可避免地暴露出很多自身的弱点：逻辑会混乱，重压会疲劳，表述有歧义，记忆有遗忘，思维不缜密，情绪不稳定，欲求过于多元，审美过于功利，主观能动性差，认知偏差导致片面，自我纠错机制不足等等。而智能语音技术的不断发展，也正是为了弥补这些短板。工程师们努力让机器去模拟人、理解人，以期创造出智商和情商双高的专家级机器人。

在飞速发展的信息化时代，作为亚生命的新的指代，超智能机器人凭借杰出的“大脑”(中央处理器，Central Processing Unit)逐步被赋予了“自我思考的能力”。从对于智能机器视觉能力的开发到对听觉能力的开发仅仅用了不到五十年的时间，随着运算系统的不断升级，机器人或许很快便会在情感感知、情感表达领域与人类比肩。

上个世纪60年代人工智能技术一度停滞不前，完全依赖人为灌输式的知识传递，使得计算机学习的广度严重不足。从80年代起，随着“神经网络算法”的兴起，人们在“机器学习”这个重要的领域开启了全新的探索，利用逼近论、凸分析、统计学、概率论、算法复杂度理论等多门学科的交叉融合，致力于研究如何更好地赋予计算机以超群的“心智”、怎样让计算机模拟并实现人类的学习及其它行为，重新组织已有的知识结构并使之不断得到强化和完善，以期获取更新的知识与技能。正如刘勰所言：“操千曲而后晓声，观千剑而后识器”，机器学习(Machine Learning）成为人工智能的研创核心，机器通过深度学习来完成自我发展，使自身具备超级智能，达到“自我管理”、“自动进化”的高度，进而实现对于人力的大范围替代。

作为格式塔学派的一个分支，德国拓扑心理学的创立者，被誉为实验社会心理学之父的库尔特·勒温，在20世纪30年代就曾指出：“学习是认知结构的变化，这个变化表现为分化、概括化与再组织三种方式”。不同于人脑的是，电脑可以高效率、低成本、持续久、不间断地学习和工作，而这是人类所望尘莫及的。

再精密复杂的智能语音助手，也都与创造它的人密切相关，工程师对其灌输的程序，不应只限定于识别、处理和反馈的层面，而应更广泛地拓展到对情感感受的智慧化培养与对情感表达方式的全面化学习的领域。目前的智能语音系统可以根据声音识别技术对用户的陈述提供一个解决问题或解答疑惑的大体参照，甚至可以在一些实验检测环节中“欺骗”80%以上的被试，但这仍是远不及预期的。

为了打造更具完备自我思维能力的人工生命，就需要让计算机规规矩矩地、更加深入地、可持续地自我学习，让程序直接接触被导入的数据，进一步满足机器快速成长的需要，以期最终实现：整体把握抽象思维，深入体察情感感受，思考利弊而做出取舍，脱离程序指令而自发决策、迅速反应并采取行动，树状衍生新的认知，几何级数增长各项复杂技能，真正理解人类的意识和言语并以人类的表达方式与人进行心灵相通的对话交流。

目前的智能语音技术虽然尚处在“孩提时代”，但其发展之路却是一条没有终点的漫长征程，坚持不懈地攻坚克难，将会给人类的生活方式带来根本性的变化。很难预料十年后，在高科技的引领下，我们的社会将变成什么样子，更何况人工智能尚存在着科学家们普遍认同的技术“奇点”，一旦跨越了奇点，科技将超越科幻，人们无法估测甚或预警这一刻何时到来，但可期的是，伴随智能机器永不停歇的自我学习，经历了突破奇点后的“顿悟”，情感感受的“标准指令”或许可以得到“规范统一”，接下来就可以先完成智能语音助手之间的互联互通，再借助大幅提升的语音识别和情感TTS（Text To Speech）技术，使得更具易用性的全方位高智能语音助手可以确切感知、及时存储、海量分析用户的语气、情感、爱好、品味、习惯、需求、言谈方式、审美特征，进而越来越精准到位地理解人类的语言表达意识、愈加灵活自如地驾驭丰富的话语表达方式，最终实现与人类之间自然、顺畅、贴心、亲切、愉悦的对话交流。

此前不久，微软（亚洲）互联网工程院率先推出了新一代的语音交互技术：全双工语音交互器官（Full-duplex Voice Sense），可以实时预测人类即将说出的内容，实时生成回应并控制对话节奏，将长程语音交互变为了可能，这使得人机交流更加连续流畅、逼真自然。

曾有人提出“此前历史上的一切群众运动，都是由于语言的力量”，此话虽然乍听为过，但也因此可见，这种蕴含于充沛情感化表达之中的语言魅力，足以令世人产生共鸣并为之倾倒。从沟通效能的角度来看，人类所独有的发声机理暂时优于目前的智能语音系统，面对着人工智能时代下的千般挑战，人类尚未失去生而为人的骄傲。而对于有声语言表达技巧渐向人工智能的转化处理，既是浓缩着非凡创意的智慧结晶，又充满着无限的可能。在与智能语音技术不断角力的过程中，直面冲击的有声语言表达艺术也将会获得史无前例的深化与完善。一方面，智能语音技术中现存的审美缺憾，恰恰是有声语言表达艺术亟待恢弘之所长，而另一方面，借鉴有声语音的表达优势也可以进一步提升智能语音技术水平，人机合作，互利互补，相辅相成，共促发展。

在工业时代，机器的出现，使得人力标准化；在自动化时代，机器人的出现，使得人力机器化；在信息时代，人工智能的出现，又会使得人类何去何从呢？我们不断求索答案的过程，实则就已经是一种答案了。