人机交互的革命: 语音智能识别

2018-04-18 12:12若怡
检察风云 2018年6期
关键词:语音智能系统

若怡

随着计算机、“互联网+”、大数据应用、人工智能等技术在生活与工作中的深度运用,人类越来越迫切地冀望以“操作指令与机器执行相互配合”的模式替代传统的机械性劳动,通过人机交互的智能方式进一步促进工作效率的显著提升。因此,近年来,作为理想的人机交互方式之一的“语音识别技术”,正在经历着提速发展的黄金时期。其工作原理是通过捕捉声波的方式,将声波予以数字化,转换成基本语言单位或者音素,再根据音位、语境等要素构建词语,转变为相应的文本或者命令,从而保持与机器听到的词语的一致性,最大限度地降低人力成本,大幅提升应用领域的工作效能。

语音识别

“语音识别”又称为“自动语音识别”,其最基本的功能是将说话人的语音中的词汇内容转换成计算机可读的方式输入(比如:二进制编码、字符序列)。一般而言,“语音识别”的应用涵盖了语音拨号、听写数据录入、语音导航、室内设备控制、语音文档检索等方面。通过与其他自然语言处理技术(比如:机器翻译、语音合成)相结合,“语音识别”还可以构造出更加复杂的应用(譬如:由中文到英文的翻译)。

要追溯语音识别的发展史,就要从“贝尔研究所”(又称为:Bell实验室)说起。1952年,贝尔研究所的Davis等人经多番研究,成功地建立了世界上第一个“语音识别系统”。该系统能够识别9个英文数字的发音,标志着人类探索语音识别技术的大门正式打开。进入20世纪60年代,计算机的应用推动了语音识别的发展。科学家们运用动态规划、线性预测等分析技术,力图从标准模板匹配的视角进行突破,从而破解大范围捕捉声波的难题,即“语音信号产生模型的问题”。时间的年轮来到20世纪80年代,“隐马尔可夫模型”(简称“HMM”)和“人工神经网络”(简称“ANN”)两大理论代替标准模板匹配技术在语音识别领域被广泛应用,加速了语音识别模型的发展。之后,随着多媒体时代的到来,语言识别系统逐渐从“实验室”走向“实用”,从“研究”走向“产品”。日本、美国等技术领先国家亦在这个时期,开始将“语音识别技术”应用至具体的产品研发领域,推出了噪声下的语音识别和会话(口语)识别系统、高级人机口语接口和自动电话翻译系统等智能化产品,在语音识别技术的应用及产品化方面跨出了重大的一步,正式开启了语音识别“产品化”的进程。

语音智能识别

根据人民日报海外版的报道,“语音的交互界面正在成为新的主流,全球的语音产业的智能化已经步入应用的高速增长期。据预测,2017年全球智能语音产业规模或将超过110亿美元,到2020年则将达到200亿美元”。在语音产品智能化的大势所趋下,对语音识别的要求亦在不断地提高。当前,语音识别不仅局限于“语音采集识别”“信息实时录入”等传统功能,更将触角延伸至“语音及文字的相互翻译”“人机智能交互”等深度功能。不但尝试将语音转写为文字,更探索识别或者确认发出语音的说话人,并根据说话人的指令进行下一步的操作。这正是“语音识别”智能化的最大亮点。

尽管语音智能识别在我国的科研推广起步较晚,然而信息化、数字化、智能化(又称为:三化)在我国的产业发展中越来越得到研发企业、政府机构、消费市场的青睐。据工信部赛迪研究院数据显示,“2016年我国人工智能企业已经达到709家,总量高居全球第二,位列美国之后”。乘着这股“东风”,语音智能识别近年来在华夏大地得到了迅猛的发展,尤其是从“实验室系统”到“市场化商品”的演变。自2013年第一届中国电子信息博览会举办至今,我国的智能语音技术在信息通信、司法、刑事侦查、医疗、金融、家用电器等领域的新产品、新应用已初露端倪——

信息通信服务:语音搜索

在移动互联网领域,越来越多的产品亦加入了语音智能识别技术。目前,安卓手机的语音智能识别大多采用了科大讯飞的系统。科大讯飞与中国移动共同推出的语音门户产品“灵犀”,更是具备离线语音识别、识别速度优化等深度功能,用户人数逾百万。又比如:滴滴打车软件采取了地图系统与语音智能识别结合的系统,一经面世便获得了消费者的广泛关注与欢迎。百度力推的搜索界面和导航犬亦引入了语音识别功能,为用户提供了更人性化的服务体验。再比如:在手机上被广泛使用的各类输入法软件。以“讯飞语音输入法”为例。讯飞语音输入法已经可以实时将说话者的普通话语音直接转化为汉字输入,实现了高精准的识别录入。

刑事侦查应用:警务智能语音服务平台

目前,公安部已经成立了“智能语音实验室”,着力研究语音侦控应用系统、声纹识别系统、语音转写系统,致力于智能语音技术在公安机关的研究和应用,将科研成果转化为核心战斗力。地方层面,宁夏、山东、上海、南京、浙江、吉林等地已经开启了警务智能语音应用的先行先试。以“宁夏银川市公安局执法办案区智能化管理系统”为例。银川市公安局结合属地执法办案的实际情况及现实需求,联合天津天地伟业数码科技有限公司和宁夏天佑信息科技有限公司进行深入研发,在办案中心和案件管理中心推出了执法办案区智能化管理系统。该系统引入了人员定位、智能合成录像、智能报警等科技应用。其中,包含了警务智能语音服务平台。平台的基础功能是为民警在办案区讯问室審讯犯罪嫌疑人提供语音内容的快速转写服务,普通话识别率达到95%以上。又比如:浙江省金华市公安局提出建立“智能语音云平台”。平台集成声纹自动识别、语音自动转换文字、在线翻译等功能,建成全局语音应用的统一接口,并探索建设覆盖全警的智能语音助手。交互通过语音、说话能即时转成文字并传送至后台,需要调取的信息也可以语音的方式反馈,民警不用再填写台账,也不用手工输入信息,形成感知和研判环节的语音技术设备基本替代人力。

司法领域应用:语音智能识别系统

以往,人民法院的书记员需全程记录庭审的过程。为配合书记员的录入,诉讼参与人发言时常常要刻意放慢语速,且庭审后需耗费大量时间核对笔录。然而,近年来人民法院受理的案件数量逐年攀升,且法院的工作人员却流失严重,因此“案多人少”是当下法院面临的主要矛盾。在这样的背景下,通过技术手段提高庭审笔录制作的效率成为了法院系统的不二选择。其中,语音智能识别已成为法院审理案件的重要抓手。

以浙江省高级人民法院为例。尽管浙江省高级人民法院于2014年8月探索以“庭审录音录像”取代“传统书面笔录”,庭审节奏变得更加紧凑,但是此种尝试仍然存在弊端,例如法官不易直接采集笔录内容,制作裁判文书;当事人若要上诉或者申请再审,书记员需要重新誊录笔录,更加费时。为此,浙江省高级人民法院于2016年3月正式启动“语音智能识别系统”的研发工作,同年5月在杭州西湖法院等部分基层法院进行试点运行,同年8月底在全省105家法院全面铺开推广应用。据《法制日报》介绍,浙江省高级人民法院的“语音智能识别系统”具备语音自主学习能力,可以自动学习历史案件数据,结合不同法院和诉讼参与人的语音资料进行有针对性的学习。即便带有一定口音的普通话,系统经过反复学习和模型训练,识别率亦可持续提高。同时,法官还可以提前导入案件起诉状等内容,让系统提前“学习”,从而提升当事人姓名、案件特定关键词的识别率。该系统可以用于庭审、调解、合议、听证、审判委员会讨论等各类办案环节,用途更包括语音转写、高频词分析、内容检索、争议焦点归纳、法官庭审习惯分析、当事人画像、案件预判、知识挖掘等诸多方面。据统计,该系统的整体识别准确率可以达到95%以上,既減轻法官、书记员制作笔录的负担,又令审理过程更加顺畅。

值得关注的是,全国各地法院正在借鉴浙江先进经验的做法。比如:海南省高级人民法院于2017年7月与科大讯飞签署战略合作协议,将语音智能识别技术引入海南法院庭审,实现在庭审过程中对法官、原告、被告、犯罪嫌疑人、证人等各方的语音内容自动实时识别成文字。

医疗事业应用:医疗语音识别系统

在欧美国家,“语音识别”已经在医疗领域使用了近十年,主要用于节约医生电子文本录入的时间,降低文本录入工作难度,令医生将更多时间和精力用在与患者及家属沟通交流、为更多患者诊断等事情上。以“美国Nuance公司的英文语音识别技术及电脑辅助病历抄写系统”为例。医生可使用掌上移动型设备将病患看诊状况口述下来,存成语音档案,直接传送至语音识别服务器。此系统可在5分钟内完成转录10小时的语音,极大地缩短音频文件转录文本的时间。据统计,美国临床中使用语音识别录入的应用比例已达10%至20%,有效地控制电子文本记录及诊断报告生成时间和质量。

我国亦在效仿此种先进做法。北京协和医院在国内首先提出使用语音识别技术录入医疗领域电子文本。之后,北京协和医院通过定制医疗领域语言模型、个性化语言模型、部署语音云支持多渠道多终端等方式,探索建立了“医疗语音识别系统”。目前,该系统在协和医院病房、医技科室、手术休息室已经上线使用,尤其对长段信息、自由医嘱录入的成效明显。据统计,超过50%的医生认为语音识别技术每天可节约一小时左右的时间。超过90%的医生希望使用语音录入方式。

金融服务应用:自动语音应答系统

在金融服务的语音智能识别方面,德国无疑走在了产业的前端。德意志银行于2002年就开发了“语音识别电话”,于2009年更采用Nuance的自助语音导航对上述系统进行全面升级。升级后的系统可以正确地引导客户通过语音发出的请求,准确定位客户的交易需求,帮助其寻找到实现交易需求的途径。在英国,巴克莱银行在私人银行分部Wealth推出了“语音智能识别身份鉴定功能”,亦采用Nuance为其提供技术支持。该系统通过比较呼入客户的声音与储存在语音库中的声音,以此来验证客户身份。若验证成功,客户将可以实现自己的交易需求;若验证失败,系统将启用其他的安全认证方式对客户的身份进行进一步的核实、确认。

我国在21世纪开始初探语音智能识别在银行服务层面的产品应用。比如:工商银行于2012年推出了“贵宾服务专线”,并在大连等地投入运营。该专线运用了自动语音应答系统,能对语音进行自动识别和智能判断,并准确定位到客户需要办理的业务。客户无需层层收听电话语音提示,亦不用根据提示层层选择需要办理的业务,只需说出“查余额”“转账”“定期存款”“利率查询”等欲办理的业务名称,即可快速定位进入需要办理的相应业务。据测算,使用自动语音应答系统后,之前用户需按键交互5-8次的业务,现在只需语音交互2-3次即可,平均交互次数较之前大幅缩短。这项技术不仅令客户使用简单的语音办理各项业务,提升客户满意度,而且优化电话银行流程,提高用户呼入成功率,降低运营成本。

家用电器配置:语音操控洗衣机

随着互联网与智能语音操控相结合的实践应用,传统家电厂商的转型升级已经成为必然的趋势,智能空调、智能电视、智能冰箱均陆续上线。以“格兰仕的G+滴滴”为例。该款产品系一款主打语音交互的智能洗衣机。相较于传统的洗衣机,其最大的不同之处在于搭载了“格兰仕G+智慧平台”,为用户提供了语音操控及手机APP远程遥控的叠加功能,并融合了BroadLink DNA system、科大讯飞等一流语音软件技术的资源,可以“听懂”各类方言。在连接无线网络后,用户可以凭借配套的手机APP远程遥控系统,随时随地控制洗衣机的基本操作。尤其对于老人、孩子来讲,仅通过语音就可以简单的对洗衣机进行操控,大大简化了洗衣机的操控难度。

正如百度创始人、董事长兼首席执行官李彦宏给出的答案,“语音智能识别已经不仅局限于将客户需要的信息呈现出来,还会将一些连锁信息进行反馈,并自动生成给客户一套全面的服务。基于这种智能化的技术进化,语音智能识别必将成为日后移动互联网的入口之一”。随着语音技术的逐步成熟,“语音智能识别”在不久的未来必将应用到社会生活的方方面面,更加贴近我们的日常,其产业链覆盖将更加完备。比如:2017年12月初,上海申通地铁集团与阿里巴巴和蚂蚁金服集团举行战略合作意向书签署仪式,成功达成战略合作,将引入多模态智能语音交互技术,在未来实现乘客凭借自身语音在绑定支付宝账户后轻松进出车站的愿景。或许,全领域的语音智能识别时代即将到来!

编辑:黄灵 yeshzhwu@foxmail.com

猜你喜欢
语音智能系统
WJ-700无人机系统
基于PowerPC+FPGA显示系统
魔力语音
基于MATLAB的语音信号处理
基于MQ3与MP3的价廉物美的酒驾语音提醒器
智能前沿
对方正在输入……
智能前沿
智能前沿
智能前沿