智能语音标准体系构建研究

2023-02-26 16:24程鸣何永春
中国标准化 2023年10期
关键词:标准体系框架标准化

程鸣 何永春

摘 要:随着智能化、大数据时代的到来,人工智能行业展现出蓬勃生机。作为智能化行业的前端领域之一,智能语音技术不断成熟,在人们的生活中发挥越来越重要的作用,全球智能语音产业得到快速发展。虽然智能语音产业取得了突破性进展,但依然面临着底层技术难以互联互通、产品与服务良莠不齐,产业规模亟待扩张等问题。为规范智能语音技术和产品的发展与应用,亟需建立一套完整的智能语音标准体系,指导智能语音相关技术标准的研发,为我国智能语音产业高质量发展提供标准支撑。

关键词:智能语音,标准化,标准体系,框架

DOI编码:10.3969/j.issn.1002-5944.2023.10.013

Research on the Standards System Framework of Intelligent Voice

CHENG Ming HE Yongchun

(ifl ytek Co., Ltd.)

Abstract: As the era of intelligence and big data is coming, the artifi cial intelligence industry has displayed vigorous vitality. As one of the front-end fi elds of the intelligence industry, intelligent voice technology is continuously maturing, playing an increasingly important role in peoples lives and bringing fast development to the global intelligent voice industry. Although the intelligent voice industry has seen breakthrough progress, it still faces problems such as the diffi culty of interconnection in underlying technologies, uneven products and services, and the urgent need for industry scale expansion. In order to regulate the development and application of intelligent voice technology and products, it is urgent to establish a complete intelligent voice standards system, and guide the research and development of related technical standards, thus providing standards support for the high-quality development of Chinas intelligent voice industry.

Keywords: intelligent voice, standardization, standards system, framework

0 引 言

人工智能是經济发展的新引擎,并已成为全球竞争的焦点,上升至各国战略层面。在此背景下,人工智能产业得到快速发展,市场规模持续扩大、技术不断突破、应用场景多元化发展。其中,智能语音作为人工智能领域的重要入口引起各国重视,并迎来新的发展机遇。在技术助推、应用加速背景下,全球智能语音产业呈规模化发展趋势,我国智能语音产业也进入新的发展阶段。作为新一代人工智能的重要落地技术,在制造、物流、金融、交通、农业、营销、通信、科研和教育、医疗、法律、个人服务等领域发展前景广阔。随着智能语音技术日益发展,越来越多的互联网巨头和传统终端制造厂商以及初创公司进军智能语音领域,新产品、新技术不断涌现,智能语音产业进入快速发展阶段。智能语音产业发展虽取得了突破性进展,但依然面临着底层技术难以互联互通、产品与服务良莠不齐、产业规模亟待扩张等问题,迫切需要加强智能语音标准化工作。为规范智能语音技术和产品的发展与应用,亟需建立一套完整、科学、可行的智能语音标准体系,指导智能语音相关技术标准的研发,为我国智能语音产业高质量发展提供标准支撑。

本文以构建智能语音标准体系框架为目标,研究了国内外智能语音产业发展和标准化现状,提出了智能语音标准体系结构和框架,明确了后续标准研制的方向和重点。

1 国内外智能语音产业发展现状

当前,人工智能技术迎来加速发展,智能语音作为人工智能三大核心技术之一,是人工智能的重要入口,是最早落地的人工智能技术。最初的智能语音技术源于人类对语音识别技术的探索。1952年,世界上第一个语音识别系统Audry诞生。20世纪80年代,全球智能语音行业迈入技术突破阶段;1984年,计算机第一次开口说话;1988年,Sphinx系统首个非特定人、连续语音识别系统诞生。20世纪90年代至21世纪初,全球智能语音进入产业化阶段;1997年,Viaboice系统发布;2002年,EAR项目实施;2009年,Windows7集成语音功能发布。2010年至2016年,全球智能语音进入快速应用阶段;2011年,苹果推出Siri语音助手,迅速带动整个行业兴起,微软、谷歌、百度、科大讯飞等相继推出自身语音助手应用;2014、2015年,Google Android和Apple Watch发布将可穿戴设备市场推向高潮,市场教育完成;同年,美的、海尔等传统家电厂商开始联网,与阿里、小米等互联网厂商开始跨界合作,智能家居成为行业发展趋势;2016年汽车智能化兴起,专为车设计的芯片落地,推动车联网市场迅速发展。自2017年起,随着语音识别性能的提升和市场教育的完成,基于语音交互的垂直场景应用将日益成熟,全球智能语音产业迈入产业高速发展阶段,行业开始规模化深耕发展。

得益于人工智能技术的成熟发展,全球智能语音产业经过60余年发展迈入规模化深耕期。越来越多的企业和消费者依赖于嵌入到人工智能驱动的应用程序、平台和设备中的智能语音产品,2021年,全球智能语音产业规模继续扩大,全球智能语音产业规模约为263.8亿美元,近年来,我国智能语音及人工智能产业迎来了爆发式增长。近年来,智医助理、电话随访、空中课堂、虚拟会议、虚拟主播等智能语音应用不断兴起,助力疫情防控的同时,也为智能语音产业催生了新消费、新应用、新市场。根据相关数据统计,2021年,我国智能语音市场达到288亿元,同比增长32.8%[1]。我国智能语音产业已成为带动人工智能行业发展的重要力量。(数据来源:《中国智能语音产业发展报告(2021-2022)》)

2 国内外智能语音标准化研究现状

2.1 国际标准化

目前,与智能语音相关的国际标准化组织包括:ISO/IEC JTC 1/SC 35(国际标准化组织和国际电工委员会第一联合技术委员会用户界面分技术委员会);ISO/IEC JTC 1/SC 42(国际标准化组织和国际电工委员会第一联合技术委员会人工智能分技术委员会)和ITU-T/SG 16(国际电信联盟多媒体编码、系统与应用工作组)。目前已发布和在研的智能语音国际标准详见表1。

2.2 國内标准化

2.2.1 全国信息技术标准化技术委员会

全国信息技术标准化技术委员会(SAC/TC 28)对口国际标准化组织ISO/IEC JTC 1 工作,其中下设的用户界面分技术委员会(SAC/TC 28/SC 35)和人工智能分技术委员会(SAC/TC 28/SC 42)负责相关的人机交互、生物特征识别、智能语音等相关标准的研制工作[2]。

2.2.2 全国音频、视频及多媒体系统与设备标准化技术委员会

全国音频、视频及多媒体系统与设备标准化技术委员会(SAC/TC 242)主要负责全国音视频及多媒体技术专业领域标准化工作。已经发布和正在开展《智能电视语音识别通用技术要求》《智能电视语音识别测试方法》《智能录音设备通用技术规范》《智能电视交互应用接口技术要求》等相关国家、行业标准的研制工作(见表2)。

3 智能语音标准体系构建

智能语音标准涉及对象、范围广泛,针对性、实用性强。为了保证智能语音标准的研制工作有序推进、相互协调,需要设计标准体系框架,保证其层次结构和指导关系有序、合理。在对智能语音重点标准化领域进行深入研究分析的基础上,提出了智能语音标准体系结构和框架。

如图1所示,以语音交互产品实现过程涉及的关键要素和相互关系为依据,将智能语音标准体系分成七大类标准:A基础管理标准、B资源标准、C技术标准、D接口标准、E应用标准、F测评标准和G安全标准[3]。

从层次关系来说,基础管理类标准是其他六类标准的底层支撑性标准,其上一级依次是技术标准、接口标准和应用标准,在接口和应用层面均涉及到安全方面的相关标准,在技术、接口和应用三个层面均涉及到资源方面的相关标准,在技术、接口、应用、资源、安全五个层面均涉及到测评标准(见图2)。

4 智能语音标准体系内容

4.1 基础管理标准子体系

该类标准具有指导性和全局性的作用。主要制定行业通用的基础标准和产品实现中的底层应用标准,如基本术语、分类、参考架构、标准体系、方法指南等。该类标准面向各种类型的智能语音交互技术和产品。

4.2 资源标准子体系

该类标准主要针对的是智能语音交互领域的相关资源库。针对语音语料库的标准可细分为识别、合成、理解与评测等。

4.3 技术标准子体系

该类标准主要围绕语音合成、语音识别、语音评测、语义理解、OCR、认知智能等多种领域制定相关的技术规范。

4.4 接口标准子体系

该类标准主要是围绕智能语音交互在互联网等服务端、客户端等的集成接口或协议制定相关标准。

4.5 应用标准子体系

该类标准围绕的是智能语音交互技术在相关行业领域广泛应用所形成的技术规范。划分的依据主要是智能语音交互的典型应用场景(环境)和对象特点,主要包括智能家居、智能客服、移动终端、汽车电子(智能车载)、工业智能、虚拟形象、智慧教育、智慧医疗等。

4.5.1 通用

为智能语音交互技术在智能家居、智能客服、移动终端、车载终端等应用领域和场景提供基础性、通用性、纲领性指导,统一和规范智能语音交互技术和应用的术语、能力、方法等方面的内涵,减少各标准之间内容的重复和冲突。

4.5.2 智能家居

主要涉及家庭环境下应用智能语音交互技术的家用电器、电脑、通讯设备、安防设备等。

4.5.3 智能客服

促使传统以人工服务为主要特征的客服形态不断向自动化、智能化、人性化等方向衍进;也包含客服机器人,它可以向最终用户提供完全基于自然语音的交互式的自助式服务。

4.5.4 移动终端

主要涉及近距离、可手持场景下的移动终端。

4.5.5 汽车电子

主要是在汽车环境下能够独立使用的电子装置,包括汽车信息系统、导航系统、汽车音响及电视娱乐系统、车载通信系统等,在这些功能交互上,都可用智能语音技术进行交互。

4.5.6 工业智能

可围绕工业生产制造场景推出声纹质检方案,通过听“声”智能识别工业品质检缺陷,可应用于家电行业(洗衣机、空调、吸尘器)、汽车配件行业(天窗、空调、驱动桥箱)、机械行业(电动机)等多个行业的产品噪声质检环节。

4.5.7 虚拟形象

推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目生产,创新节目形态,提高制播效率和智能化水平,同时智能语音交互也逐渐向多模态智能交互升级,具有多模感知、多模表達等特点。

4.5.8 智慧教育

可通过多模态识别采集课堂学情信息并做数据精准分析:如通过语音转录、语音识别等技术实现授课语音转录为文字,利用多模态识别进行课堂质量监测等;还可应用于线上口语测评、虚拟教师等领域的应用及平台的发展。

4.5.9 智慧医疗

智能语音技术在医疗行业应用已从单一的语音识别病例及导诊技术向“语音+语义”的智能化语音辅助系统转型,需求正在向导诊机器人、问诊小程序、诊后随访系统、住院病房管理系统、临床决策支持系统(CDSS)等多应用领域扩散。

4.6 测评标准子体系

该类标准主要是制定在智能语音交互领域中,对资源、技术、接口、应用和安全等方面的通用性的测评要求进行规定的标准,针对特定应用场景的测试方法(规范)则在相应的应用领域的技术标准中进行规定。

4.7 安全标准子体系

该类标准主要制定涉及智能语音的应用和接口领域的相关安全标准,包括数据安全、应用安全、通信安全等。

5 结 语

当下,智能语音技术发展面临多语种语言互通、复杂场景人机交互、多模态虚拟世界等多重挑战。面对这些挑战,如何将技术创新到应用落地赋能产业高质量发展成为亟待解决的路径难题,而标准化将为破解这些难题、推动产业高质量发展提供解决方案。标准作为技术创新的基础、贸易交流的规则、质量提升的依据,是智能语音产业发展的重要驱动之一,与技术体系、应用体系共同推动智能语音产业高质量发展。下一步,要围绕智能语音产业发展的重点领域,完善智能语音标准体系结构和框架,加快研制和发布智能语音相关标准,推动智能语音相关重要技术标准的实施和应用,为我国智能语音产业发展提供有力支撑。

参考文献

[1]中国语音产业联盟.中国智能语音产业发展报告(2021-2022)[R].2022.

[2]中国电子技术标准化研究院.人工智能标准化白皮书(2021版)[R].2021.

[3]国家标准化管理委员会等五部门.国家新一代人工智能标准体系建设指南[Z].2020.

作者简介

程鸣,硕士研究生,工程师,研究方向为人工智能技术标准化。

何永春,硕士研究生,副研究员,研究方向为人工智能技术标准化。

(责任编辑:张佩玉)

猜你喜欢
标准体系框架标准化
框架
标准化简述
广义框架的不相交性
标准化是综合交通运输的保障——解读《交通运输标准化体系》
WTO框架下
烟草标准管理体系的现状分析与应用研究
加强出入境检验检疫局认证审核流程探析
会计信息化标准体系构建研究
面向标准全生命周期的企业标准化信息系统研究
一种基于OpenStack的云应用开发框架