基于ChatGPT机理的智能家居语音交互构建研究

2023-03-24 10:44焦利敏曲宗峰李红伟刘泽超胡亚欣
中国标准化 2023年11期
关键词:智能家居耦合

焦利敏 曲宗峰 李红伟 刘泽超 胡亚欣

摘 要:智能家居语音交互作为用户控制家电的重要入口,“听不懂人话”等情况经常发生。以ChatGPT为代表的生成式大语言模型,为解决当前语音交互存在的问题带来了新的曙光。本文提出了语音交互与类GPT大语言模型的耦合构建方案,以及耦合方法、引导式语音交互等技术路径,也给出了评价方法,期望为智能家居行业语音交互提供一种新的解决方案。

关键词:智能家居,语音交互,大语言模型,耦合,引导式交互

DOI编码:10.3969/j.issn.1002-5944.2023.11.008

《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》要求,在学习推理与决策、图像图形、语音视频、自然语言识别处理等新一代人工智能领域创新;应用感应控制、语音控制、远程控制等技术手段,发展智能家电、智能照明等智能家居产业[1]。

语音、图像、触控、体感、手势、体态等交互方式,是智能交互常用的技术手段,是用户使用智能家居产品的第一入口,是影响用户体验的重要因素。智能家居产品采用语音交互方式后,有些产品仅仅具有单纯的特定控制指令交互模式,用户需要记忆这些关键词,随着家庭有语音交互功能的产品增多,记忆不同设备的关键词成为用户头疼的问题;有些行业头部企业采取了强泛化控制指令交互模式,一定程度改善了交互的体驗,但是距离用户期望的自然交互还有一定差距,特别在用户意图判断方面还有很大的提升空间。

2022年11月,美国OpenAI发布ChatGPT(ChatGenerative Pre-trained Transformer),以人工智能技术驱动的自然语言处理方式给智能家居交互体验的提升带来了新的曙光,用户可以用日常自然说话的方式控制家电;可以用多轮对话交流方式控制家电;可以用多模态的方式判断用户意图,提升了用户体验和便利性。

本文围绕语音交互体验的提升,通过分析ChatGPT的底层模型GPT机理,提出一种基于ChatGPT机理的智能家居语音交互方式构建方法,提出了耦合大语言模型、语义引导式交互等技术路线,期望为智能家居语音交互构建提供新的思路和方法。

1 ChatGPT机理及智能家居语音交互现状

1.1 ChatGPT机理

2022年11月,OpenAI推出人工智能聊天原型ChatGPT,ChatGPT 是一种专注于对话生成的语言模型,其通过学习大量的文本、对话等信息,并根据用户的输入信息,智能解答用户的各种需求,比如回答问题、写商业计划书、行业分析等[2]。

2 0 23年3月15日,Open A I正式推出GP T- 4。GPT-4是多模态大模型,即支持图像和文本输入以及文本输出,拥有强大的识图能力,文字输入限制提升到了2.5万字。GPT-4的特点在于,第一,它的训练数量更大;第二,支持多元的输出输入形式;第三,在专业领域的学习能力更强[2]。

总的来说,GPT(Generative Pre-Training)具有以下值得智能家居交互借鉴的特点:

(1)强泛化能力可以帮助用户使用日常说话方式交互,用户与机器的交互更加易学;

(2)从做“选择题”的决策型A I到做“简答题”的生成式AI,用户与智能机器的交互更加高效理解用户意图,相对于传统交互,对用户输入指令的容错能力更加增强;并且可以多轮对话,实现从交互到聊天的进阶,增加对用户使用的吸引力;

(3)多模态、跨模态迁移增强知识获取,实现能力的涌现,实现从原始数据中发现新的、未知的特征和模式,提高学习的有效性;

(4)类似于人的推理方式的思维能力,具有一定逻辑分析能力(比如简单数学问题、符号操作和常识推理等任务),区别于词汇概率逼近模型;

(5)R L HF(Rein forcement L ea r ning fromHuman Feedback):即,使用强化学习的方法,利用人类反馈信号直接优化语言模型,提高模型的学习有效性和效率。

1.2 智能家居语音交互现状

智能家居智能交互包括语音、触控、图像、手势、肢体等多种交互方式。在多种交互方式中,声音信息大约占人类大脑皮层每天处理的信息20%,它是沟通最重要的纽带,人机对话将方便人们的工作与生活。因此,本文举例、分析集中在语音交互方式。当前,智能语音技术发展已经历了萌芽、起步、产业化、应用落地四个阶段,但是在大量词汇连续语音识别性能等方面,技术还不是十分成熟,因此智能家电的回答经常出现“不知道您说的是什么”等情况,其主要原因是:

(1)语音交互主要有关键字识别、命令字识别、连续语音识别等方式,以特定控制指令交互为主,部分头部企业可以通过弱泛化指令进行交互。但是距离用户期望的采用日常说话方式交互还有一定差距;

(2)语音交互训练集仍旧属于有限集合,因此采用的还是“选择题”方式;

(3)智能交互多数采用语音等多模态交互方式,个别采用的App、手势、图像等多模态方式,但是还没实现跨模态、多模态的耦合实施意图判断;

(4)采用多轮对话、引导式交互还处于研究期。

2 基于ChatGPT机理的语音交互构建

本文通过研究当前语音交互存在的问题,以及ChatGPT的基础GP T等大语言模型与智能家居语音交互的耦合为路线,探索、研究语音交互的新方法。

2.1 语音交互与大语言模型的构建

现阶段,多数企业智能家居语音交互系统如图1所示,语音的识别类别包括特定控制指令、弱泛化(弱AI)语音、强泛化(强AI)语音等,但是由于人类习惯的自然语言交互,对智能家居控制的表述方式千差万别,智能家居产品“听不懂人话”的现象仍然存在。

以GPT-3为代表的千亿级数据训练量的大语言模型,具有涌现能力和简单思维能力。但其高额的训练费用、算力需求等原因,每家企业都拥有自己的大语言模型难度比较大,因此未来大语言模型作为一种基础设施的可能性非常大。

GPT大语言模型基础背后的主要技术原理(见图2)是RLHF(Reinforcement Learning from HumanFeedback),即人类反馈强化学习。GPT使用强化学习的方法,利用人类反馈信号直接优化语言模型。

GPT作为一种通用的大语言模型,其涌现能力和简单思维能力,通过生成式预训练提升语言理解能力,接受的輸入信号和输出结果更加接近于人类偏好,对于解决“听不懂人话”的缺点有极大的改善作用。

当然,在生成监督微调模型、训练奖励模型等环节的人类标注、标准修正答案、打分排序等环节,采用智能家居行业领域专业数据进行优化模型,可以进一步提高识别效率和精准度,实现GPT通用向专业的商业化应用,还需企业进一步训练,训练出企业适合的“类GPT等专业大语言模型”。

GPT目前还存在不可解释、鲁棒性差等缺点,有时候胡言乱语的现象仍旧存在。智能家居产品受制于安全等因素要求,GPT直接用于控制智能家居产品还不能被接受。因此本文提出了智能家居语音控制系统与类GPT等专业大语言模型相互耦合的构建方案(见图3)。

2.2 耦合大语言模型

智能家居语音交互与类GP T等专业大语言模型的耦合,可以是语音交互从做“选择题”的决策型AI到做“简答题”的生成式AI,用户与智能家居的交互将更加流畅,可以较大改善“听不懂人话”难题。基于RLHF的人类反馈强化学习,增强交互系统自我学习进化的能力,也可以在引导式交互中不断进化,解决系统用户端“一次不懂,次次不懂”的问题。

如图3所示,当用户请求落入智能家居交互系统已经标注的特定控制指令、泛化控制指令等知识范围内时,意图判断清晰,则执行交互决策模块、器具控制模块,控制智能家电完成用户请求。

当用户请求未落入智能家居领域内时,采取耦合类GPT等专业大语言模型的方式,根据上下文、器具、环境等信息,生成泛化指令,将用户的请求编译为接近特定控制指令、泛化控制指令等知识范围(见图4)。

2.3 语义引导式交互

由于用户对智能家居产品的功能不是很熟悉,用户习惯于按照自己的理解、过去的操作习惯,通过语音控制家电。但是用户语言请求并不能完全吻合特定控制指令、泛化指令,智能家居产品并不能准确理解用户的意图,有些产品标准了一些固定的反馈,虽然满足了用户的交互需求,但是并没有正确按照用户请求,开启对应的智能功能。

为此,本文提出语义引导式交互的方式,引导用户启动期望的智能功能(见图5)。语音引导分为两次分配:

(1)当用户请求的表述内容未在智能家居领域时,通过类GPT等专业语言模型的语义理解,生成泛化的指令,趋近于智能家居领域。

(2)当用户请求的表述内容落入智能家居领域,进行意图判断。如果意图不明确,基于知识库进行语义理解,给出接近的语音反馈建议,引导用户修正自己的请求表述,给出清晰、准确的请求表述,实现控制智能家居的目的。

3 评价的方法

本文建议采用语音测试试验的方法,依据GB∕T 36464.2-2018《信息技术 语音交互系统 第2部分:智能家居》[3]进行测试,本文不再赘述。

3.1 测试集

测试集是测试的重要资料,传统的智能语音测试集主要有特定控制指令和泛化控制指令,测试集的来源由制造商提供,或者检测机构泛化等,也可以采用现成的国家标物。

本文所涉及的测试集更加接近于日常交流用语,因此本文的测试集需要从日常交流中提炼。同时还要构建“语料”与“功能”的对应关系。测试集示例如下(见表1)。

如果需要引导式交互,比如:

用户:我已经把衣服放到洗衣机里面了?

器具:可以开始洗了吗?

用户:是的

器具:好的,已启动。

这类引导式交互,由于其开放性,当前建立测试集还有一定的难度,暂时需要人工测试,等时间成熟再建“语义引导式交互测试集”。

3.2 评价方法

评价的方法采用美国用户体验专家WhitneyQuesenbery提出的5E模型[4]评价,评价指标如下(见表2)。

4 结 语

语音交互与类GPT等大语言模型的耦合方案为提升智能家居的语音交互体验提升提供了新的思路,尚处于探索期。因此本文并没有深入讨论用户数据与大语言模型耦合中的信息安全问题,以及多模态、跨模态的耦合方法,后续将做进一步的研究。

从当前的研究看,语音交互与大语言模型耦合方案,使用户与智能家居的语音交互变得更加接近于自然语言交互;生成泛化指令提高了语义理解结果与用户请求接近度,减少了引导式交互的无效轮次。本文基于ChatGPT机理的语音交互构建研究,是提高用户交互体验的新方法,期望为智能家居智能交互提供可参考的路径。

参考文献

中华人民共和国国务院.《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》[ EB/OL].(2021-03-13)[2023-].http://www.gov.cn/xinwen/2021-03/13/content_5592681.htm.

百度百科. ChatGP T[EB/OL].https://baike.baidu.com/item/ChatGPT/62446358?fr=aladdin.

国家标准化管理委会.信息技术 语音交互系统 第2部分:智能家居: GB∕T 36464.2-2018[S].2018.

陶坚,徐立洋,黄雪冰,等.关于智能家居场景体验评估模型的研究[J].家电科技, 2022(S1):670-673.

作者简介

焦利敏,高级工程师,智能家居试验室主任,主要从事智能家电技术、检测和标准方向的研究。

曲宗峰,教授级高级工程师,副院长,多年从事智能家居标准与质量管理和研究。

李红伟,正高级工程师,检测所副所长,主要从事智能家电技术、检测和标准方向的研究。

刘泽超,智能家居试验室技术人员,主要从事智能家电检测和技术标准方向的研究。

胡亚欣,工程师,智能交互试验室主任,主要从事智能家电检测和技术标准方向的研究。

(责任编辑:张佩玉)

猜你喜欢
智能家居耦合
非Lipschitz条件下超前带跳倒向耦合随机微分方程的Wong-Zakai逼近
基于PLC的智能家居控制系统研究
智能家居发展或将实现弯道超车
基于改进SBELM的耦合故障诊断方法
关于智能家居真正需求的探讨
厌氧氨氧化与反硝化耦合脱氮除碳研究Ⅰ:
基于“壳-固”耦合方法模拟焊接装配
智能家居的发展趋势分析
智能家居更贴心
求解奇异摄动Volterra积分微分方程的LDG-CFEM耦合方法