兰军飞
【摘 要】 随着国内外各种免费LLM大语言模型的推出,高校应用大语言模型的基础条件已经具备。利用微调大语言模型实现AIGC高校智能客服,后逐步进入教学与科研场景是比较合适的路径。文章阐述一种可行的方案,如何收集高校客服数据,选择哪种大语言模型,以及数据微调后试用情况。
【关键词】 大语言模型(LLM);微调(Fine Tune);智能客服;AIGC
一、什么是大语言模型和模型微调
大语言模型(Large Language Model,缩写LLM),也称大型语言模型,是一种基于机器学习和自然语言处理技术的模型,它通过对大量的文本数据进行训练,来学习服务人类语言理解和生成的能力。通常来说,大语言模型指的是那些在大规模文本语料上训练,包含百亿级别(或更多)参数的语言模型,例如GPT-3,GPT-4,LLaMA,chatglm,moss等。
根据模型参数量分成两大类,分别是百亿(10B)参数到千亿(100B)参数模型和大于千亿(100B)参数模型。预训练是大语言模型能力的基础,当语言模型的参数量扩展到超千亿级别时,从头预训练一个大语言模型就成为一件十分困难且有挑战的事情。
模型微调, 给定预训练模型(Pre_trained model),基于模型进行微调(Fine Tune)。相对于从头开始训练(Training a model from scatch),微调省去了大量计算资源和计算时间,提高了计算效率,甚至提高准确率。为什么要微调?普通预训练模型的特点是用了大型数据集做训练,已经具备了提取浅层基础特征和深层抽象特征的能力。
结论:不做微调从头开始训练,需要大量的数据,计算时间和计算资源;存在模型不收敛,参数不够优化,准确率低,模型泛化能力低,容易过拟合等风险。使用微调有效避免了上述可能存在的问题。
AIGC 即 AI Generated Content,利用人工智能技术来生成内容。AIGC技术的核心思想是利用人工智能算法生成具有一定创意和质量的内容。通过训练模型和大量数据的学习,AIGC可以根据输入的条件或指导,生成与之相关的内容。
二、高校AIGC智能客服的应用场景
高校的客服咨询主要有三种方式:第一,电话服务方式。由于高校各部门的客服人数比较少,一般都是1-2人,无法按企业方式搭建呼叫中心,主要还是直线或分机服务为主。第二,网站服务方式。提供网站链接各种文档,可下载自行阅读。第三,各类小程序,服务号,聊天机器人服务方式。这种方式有些带了基于关键字查询的知识库,有一定的AI能力,但后台知识库的维护工作量大。只能用文字方式呈现,无法升级到AIGC。
一般大型服务型企业客服,建设有专门的呼叫中心系统,有历史语音数据和文字数据的积累,从大语言模型训练角度来说有大量的现存数据。高校客服咨询电话缺少类似的配置,大多数还是直线为主,简单的手工服务台账如EXCEL表格管理,需要从头准备大语言模型微调的数据。
高校搭建AIGC智能客服建设有两个明显的优点。第一,基础条件好。国内高校经过20多年信息化建设,有很好的物理基础(万兆骨干,有线无线网络等),人才基础(有一批懂软件,硬件,开发的专家教授),应用基础(广大的大学生,能快速接受新事物)。第二,容错率高。其他行业的智能客服应用,比如金融,政府,完全无法和高校比容错。前期智能客服有些错误,师生可以包容。
三、高校AIGC智能客服整体方案设计
人工智能的三要素是数据、算力和算法相互关联,缺一不可。数据可以产生更多的数据,算力可以加速数据的处理,而算法可以更好地利用数据。只有具备了这三要素,才能更好地发展和应用人工智能。
数据:人工智能需要大量的数据作为基础。数据可以提供AI所需的必要信息,帮助AI更好地分析和预测。
算力:人工智能需要大量的计算来处理这些数据。算力可以加速数据的处理,使得人工智能更快地分析和决策。
算法:人工智能需要有效的算法来分析和利用这些数据。算法可以使得人工智能更准确地分析和预测,提高人工智能的效率和准确性。
(一)高校智能客服数据收集
收集高校大语言模型微调训练数据有两种方式,一种是通过网站摘录,可以使用简单爬虫工具,收集各种校内文档。以上收集完毕后可直接用chatGPT或文心一言生成各类问题及答案(也可以采用类似langchain+chatglm架构,这里不展开描述了)。另一种是将直线客服电话进行改造,增加录音功能。将人工客服电话录音转成文字,人工标注,生成训练数据集。部门单个客服电话的改造方案如图1。
选择电话语音网关改造方案是因为IP电话客服对话录音质量最高,采用云呼叫中心+本地网关IP电话的方案,投入小,改造简单,故障回退快。人工客服录音文件转文字,人工标注后作为LLM微调训练数据集是高校AIGC智能客服的核心环节,使AI回答更像人类的习慣。同样的问题,目前通常的聊天机器人或者关键字搜索,给出的是大段文字。人工客服的交互性以及精炼度远超目前的能看到的业内使用的技术手段,这也是高校AIGC智能客服的发展方向。
(二)算力与算法的选择
高校AIGC智能客服的算力由选择的算法决定。高校AIGC智能客服的算法实际就是选择一款可微调的LLM大模型。由于安全性的考量,目标在国内大模型中选。目前有复旦MOSS,清华chatglm,百川,百度等开源免费大模型。考虑到学习资源的丰富性以及团队的稳定性,建议选择chatglm-6b作为高校AIGC智能客服算法模型。
ChatGLM-6B是一个由清华大学和智谱AI联合研发的开源对话语言模型。它基于General Language Model (GLM)架构,具有62亿参数,并针对中文进行了优化。该模型经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,已经能生成相当符合人类偏好的回答。
ChatGLM-6B可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。它使用了和ChatGLM相同的技术,针对中文问答和对话进行了优化。ChatGLM当前版本模型的能力提升主要来源于独特的千亿基座模型GLM-130B,这是一个包含多目标函数的自回归预训练模型。总的来说,ChatGLM-6B是一个功能强大的对话语言模型,具有在中文和英文两种语言环境下进行问答和对话的能力,并可以进行本地部署。
由于目前大模型的数据量都在10亿参数以上,考虑到单个高校数据量,只能走LLM微调方案才能建设有本校特色的AIGC智能客服。数据集的本地化收集与整理是一个长期的过程,好处在于有多个开源LLM模型可选,哪个好用用哪个。
四、高校AIGC智能客服搭建实践
(一)搭建环境
服务器配置:13900k+128G+2T+4090。
软件环境:Windows11下WSL2 +Ubuntu20.04+ python3.9+cuda11.7.
(二)微调数据整理
客服录音文件通过科大讯飞ASR接口转文字,经过人工校对,根据chatglm-6b微调格式生成train,json和dev.json两个文件。为了增加微调数据集,也可以加入学校常规的各种问题以及各类文档生成问题。以下是各类方法截图。
1. 文档通过chatgpt生成问题:
利用chatgpt的原生能力,将文档输入其中,然后要求生成20-30个问题及回答
2. 爬虫软件爬取学校新闻
利用爬虫工具,爬取校内新闻。
3. 科大讯飞录音文件ASR,录音转文字,如图2
最后根据chatglm-6b微调格式生成train,json和dev.json两个文件进行训练,训练后的AIGC效果如图3:
五、结语
积累本校的各种对话数据,特别是真实场景下的录音文件,通过一系列清洗处理得到的对话数据集,是高校实现AIGC的必经之路。在chatglm-6b微调训练后的实际测试中,GPU负载过高,单人对话约需要占用15G显存。感觉目前本方案的实际商用价值还需要等待各类硬件成本下降。
参考文献:
[1] 张马秋,高杰. 智能客服系统在高校的應用路径研究[J]. 信息与电脑:理论版,2022,34(17):155-157.
[2] 王翼虎,白海燕,孟旭阳. 大语言模型在图书馆参考咨询服务中的智能化实践探索[J]. 情报理论与实践,2023,46(08):96- 103.
[3] 闫硕,付丽琴,邢亚英,等. 基于Seq2Seq的校园招生智能客服设计与实现[J]. 电声技术,2022,46(08):72-74+82.