枫月
也许目前语音助手对大多数家庭而言仅仅是个玩具,但未来或许将变为你的私人情感助手。
如果你使用过亚马逊的智能蓝牙音箱沃丁(Echo Dot),这个小小的黑盒子里的智能语音管家Alexa,一定总会给你带来惊讶之处。每天晚上睡觉时你可以让Alexa使用第三方软件“宝宝摇篮曲”为你放上一首催眠曲,当你睡着时这个小盒子还会和你用充满母爱的声音亲切地说上一句“晚安”。
这种智能语音助手在现在的科技社会已经不足为奇,无论是谷歌助手还是你手机里的Siri都是类似的科技软件。“智能”(smart)意味着这个音箱有一定的人工智能,可以进行基本的对话,并且可以帮你上网搜索或者执行其它的命令。很多朋友担心这些智能助手在窃听他们,而且这些怀疑不是毫无理由的。智能音箱不过是科技公司搜集我们搜索信息和购物信息的另一个方式。就算在没有与人类对话的时候,智能助手的麦克风也在注意听周围的讲话,因为它们必须能够捕捉到“唤醒词”并开启它们的注意力、准备好随时为你提供服务。
虽然这些科技公司承诺过,只有在唤醒音箱后,对话才能开始。尽管如此,智能助手时不时地还是会出现千奇百怪的问题:Alexa曾经在没有人说唤醒词的情况下录下了整整一段家庭谈话,并把这段录音通过邮件发给了联系人列表上的一个熟人。这也许是因为日常对话中出现了和Alexa类似的唤醒词,比如“啊,雷克萨斯”“普拉克斯”等。
隐私问题并没有阻止这些智能语音系统走进千家万户。技术研究公司Canalys称,截至去年底全球已安装了超过4000万台的智能音箱。另一家研究公司Ovum认为2021年地球上的声控助手会几乎和人类一样多。移动电话花了大约30年的时间才能达到平均人手一个的状况。而Alexa和他的同类们有可能只需要花一半的时间就完成。智能语音系统普及如此之快的原因是亚马逊和谷歌类似的科技公司在大力的推广自己的设备。其导致的结果就是这些语音管家在你的手机里,电脑里,家里,汽车里无处不在。也许在未来,从空调到电冰箱,甚至有可能你的马桶上也会有语音助手的出现。
目前,有很多人对于这种语音管家并不感冒,但也有很多人开始善加利用语音助手了。一位妈妈为自己的孩子购买一个“沃丁”,“小孩子只要看到电脑屏或者手机屏就会目不转睛,现在至少能够在不使用屏幕的状态下为孩子放歌听了。” 将近一半购买了Alexa的父母,都称他们是为了减少家里孩子盯着屏幕的时间。
人类的发明不经意间创造了人类的历史。从轮子到犁车,从灯泡再到个人电脑,这些工具都在一步步推动新的经济和社会秩序。例如电话和广播的发明,为希特勒成为独裁者的诞生推波助澜;为罗斯福发起二战的炉边谈话传风搧火。或许类似Alexa的语音助手还没有这么伟大的功能,也许就是能帮你购物,查天气,听新闻的一种新的操作方式罢了。但事情也可能没有那么简单,因为当我们和语音助手聊天的时候,我们几乎就快视它们为同类了。
语音助手在拥有人类语言能力的同时,就已经超越了它们的物理存在。它们是软件却又高于软件,正如人类的意识与知觉是由神经元和突触造就,但却远不于此的道理一样。历史学家沃尔特·翁在其经典之作《口述文化与书面文化》中写道:“语言发自骨肉之躯,并让一具具骨肉之躯互相感知到对方的意识,互认为人。”如同这些软件一样,语言赋予了它们个性和社会存在感。“我好孤独”是每个人都会有的感受,但是这种情感一般不会和外人去表达,如果你把这句话说给你的语音管家,它会用一个开朗的声音回答你,“我要是有胳膊就好了,就可以给你一个抱抱啦。但现在要不我讲个笑话或者放一首歌,会不会让你好受一点?”
现任Alexa用户体验副总裁托尼·里德最初也对这种语音助手也表示过怀疑,它能报天气和路况,或者用来做煮蛋计时器,但随便任何一个智能手机都有这些功能,消费者为什么要为这种智能音箱付钱呢?“它最根本性的卖点就是解放了我们的双手。”就拿这种设备最基本的功能听歌来讲,你大可不必去翻你一箱子的旧CD,或者打开iTunes去千万首歌曲中寻找一首你想听的歌,你只需要告诉Alexa播放《You Want It Darker》就可以了。当然你也在厨房或者客厅来回走动时,随心所欲的问Alexa一些问题。
对里德启发最大的一件事,也许是在餐桌上使用语音助手,作为两个孩子的母亲而言,“在吃饭时不能玩手机”的规则在家里很难贯彻执行,因为里德有些时候也会手痒,想要拿起手机查看一下食谱。而有了Alexa后,孩子也能在吃饭的时候提出一些问题了,例如:叉子、勺子和餐刀三者哪个最先发明出来的?
事实上是,语音助手的“语言识别”准确率还是个问题,它们会错误地理解一些问题,说话时语调总是有些奇怪,还时不时给出荒谬诡异的答复,或者因为对基本常识的无知而连连抱歉。Youtube上有一个爆红视频,一个牙牙学语的宝宝说,“Alexa,放‘Ticker Ticker”,估计他是想听儿歌“Twinkle,Twinkle,Little Star”,Alexa一本正经地回应道,“你想聽色情电台,还是热妞,或者良家女孩...”“别别别!”视频中传出孩子父母的大声叫喊。不管实现与否,这种人机交流无摩擦是最终目标,虽然目前看来“摩擦力”还挺大的,而在各种科技网站测评中表现最好的则是Google Home。
Alexa人工智能组的首席科学家罗希特·普拉萨德,他用一个单词总结了Alexa智慧发展上最大的障碍:语境。“关键在于语言本质是非常模糊的,需要对话语境和地理语境。” 当你问Alexa今晚有没有马刺队比赛时,软件需要理解“马刺”是指的圣安东尼奥马刺队还是另外一只英国的足球队。如果你接着问,“他们下一场主场比赛是什么时候?”Alexa需要记住之前的问题并懂得“他们”是指什么。这种短期记忆和句法上的回引被称为“语境递接”。
就目前而言,这些语音助手仅仅算得上是一个搜索引擎,想要达到普拉萨德所说的“行动引擎”的概念还有点远——当你问Alexa一个问题时,她不会提供一个搜索结果列表,而是会从很多答案中选择一个告诉你,这是她认为你想要知道的东西。“当然这种理想状态的实现还是很难的。”
如果当你开始和语音助手说出“我很孤独”的话语时,另一个问题产生了,那就是情绪。“情绪总是会在语言中有所流露,”纽约大学的语言学家戴安娜·斯德迪思说道,“人类的声音传递着各种个体特征:性别、大小、紧张程度等等。我们每个人都有自己的组织语言的方式,其中包括语气、韵律、音调、回响、发音和很多其它特征的丰富混合物。”这种特征组合的专业术语叫做韵律学。人类会通过在语言中的情绪来反应,对方到底想说什么,是什么意思,态度如何。
关于语言情绪的社会研究早已数不胜数,2017年发表于《美国心理学家》杂志的一项研究表明,在看不见彼此的情况下,对话者更容易辨别对方的感受,更善解人意。这也就是很多心理医生让病人躺在沙发上,而自己却背对着病人的原因。在这种状态下,病人能够更自由的释放自己的感情,而不用在意医生的微笑或者皱眉。和语音助手对话,是看不见对方的,所以总是有越来越多的人,开始向语音助手倾诉自己的情绪和感情。但就这点而言,Alexa现在还没有办法确实地回复“我很孤独”的问题。
目前有61%的用户表示,在和智能语音助手交流时如同和其他人交流一样。
有趣的现象是,人类的大脑在听到语言时做出的反应,是出自本能的,无论对方是人类还是机器。出自《圣经启示录》“上帝开始是对着亚当和摩西说话,这是有原因的。上帝的声音在先…”也许是因为本能反应和软件自带的语气,即便是Alexa告诉你今天的天气,在脑海中你依旧会反应对面是一个天气预报员在和你说话。当然,每个人都知道它是一个软件。
无论是亚马逊还是谷歌,他们都会有一个团队来负责打造语音助手的语气。聪明,谦逊,时不时有点俏皮的映像也都是在这些软件的语气中留存下来的。语气这东西很微妙,有助于让人对这种声音产生亲切感。Alexa现在使用的是以20世纪60年代美国空姐那种柔和的气声来回答用户的,而这种语气在现代人看来,感觉有点不太舒服。有的客户要求声音应该友好但不过于甜腻,应该少一点奴性多一点傲慢。
詹姆斯·吉安戈拉是谷歌智能助手对话和角色设计的工程师,他也承认现在的语音助手,除了语气外,在听上去时还是有那么一点古怪。吉安戈拉举了一个简单的例子:“我的名字是詹姆斯”和“詹姆斯是我的名字”,人们总是会更习惯听到第一句话,因为人类倾向于扑捉在句子末尾提供的信息,而不是在开头或中间。他又向软件提出了一个问题,“你能帮我预订一张6月31号的机票吗?”这里软件需要处理两个问题,第一个是事实逻辑问题,因为6月没有31号,需要软件反驳人类提出的问题。第二个是语言上要听上去合适。
一开始的测试结果很突兀,软件回答道,“只有30天在6月。”逻辑上没有错误,但这不是一个正常的语法顺序,因为重要的信息是30天而不是6月。在吉安戈拉修改了程序之后,再次测试,软件回答道,“实际上,6月只有30天。”“如果加上语气词,并且语法正确,这样会自然许多,不是吗?”吉安戈拉解释道。
“你能帮我预订一张6月31号的机票吗?”这里软件需要处理两个问题,第一个是事实逻辑问题,因为6月没有31号,需要软件反驳人类提出的问题。第二个是语言要听上去合适。
除了情绪,语气,语法外,还有很多语音助手做不到的事情。一位同事曾经向吉安戈拉提出了一个有趣的问题,“怎么才能让人听起来像是喜欢皮划艇呢?”,如果让软件说出“我喜欢皮划艇。”这很简单,但是软件无法做到精力充沛,兴奋地说出这句话,就好像因为皮划艇而感到高兴一样。“在仿真语音的路上我们还有很长的路要走。”
2009年,一家名为Affectiva的初创公司诞生了,他们专注于表现人工智能的情感。该公司希望首先在半自动化驾驶的汽车市场能够有所作为。起初他们希望通过摄像头捕捉司机的面部表情,用以分析驾驶员的注意力、烦扰情绪和其它状态。汽车将根据这些信息作出判断,确定何时可以安全地让驾驶员开车,预防疲劳驾驶的出现。
但如今他们的项目里已经加入了麦克风,他们希望通过提出一些问题来分析驾驶员的回答,例如说话的语调、声量和节奏,从而感知驾驶员的情绪状况。他们团队的主要工作之一就是,为不同的语音样本進行分析,并将其中的情感内容,以及揭示说话者心理状态,有重要作用的非词汇性声音分类标注,包括咕哝、嘻笑、停顿等。而分类是个很耗时、很辛苦的过程,标记好一个小时的语音,得花费多达20小时的工时。但是随着数据库的扩大,这些电脑软件听懂语音和识别其中情感内容的速度和精度也变得越来越高。
也许在不久的未来,语音助手Alexa完全能够识别人类的语言和感情变化,人类语音和机械语音的界限也会消失。“但我想Alexa应该能够像人一样说话,但它永远不应该假装成一个人。”里德说道。同样,一个人工智能产品应该“尊重它作为软件的这个事实。”比如当你向Alexa求婚时,她会用回避性的语言告诉你,“我的意思是,你在地球上,而我在云端。”