摘 要:【目的】为了给用户提供个性化健身指导,设计出一种基于LLM大语言模型和计算机视觉(CV)的AI个人健身教练系统。【方法】采用PP-TinyPose进行关键点匹配,并使用微调后的InternLM2大语言模型,使系统能通过摄像头捕捉用户运动姿态并进行分析,从而提供个性化的健身指导。【结果】测试结果表明,该系统能准确识别运动姿态,并提供实时反馈和建议,显著提高健身效果。【结论】基于PP-TinyPose和微调后的InternLM2模型的AI健身教练系统能为用户提供有效的个性化健身指导,具有广泛的应用前景。
关键词:人工智能;PP-TinyPose;XTuner;InternLM2;个人健身教练
中图分类号:TP18;TP391.41" "文献标志码:A" "文章编号:1003-5168(2025)02-0024-05
DOI:10.19968/j.cnki.hnkj.1003-5168.2025.02.005
Abstract:[Purposes] To provide personalized fitness guidance to users, an artificial intelligence (AI) personal fitness coach system based on a large language model (LLM) and computer vision (CV) is proposed. [Methods] The system utilizes PP-TinyPose for key point detection and a fine-tuned InternLM2 large language model. By capturing and analyzing users' exercise postures through the camera, the system generates personalized fitness guidance.[Findings] The test results demonstrate that the system can accurately recognize exercise postures and provide real-time feedback and suggestions, significantly improving fitness outcomes. [Conclusions] The AI fitness coach system proposed in this paper, based on PP-TinyPose and the fine-tuned InternLM2 model, effectively provides users with personalized fitness guidance and shows great potential for wide application.
Keywords: AI; PP-TinyPose; XTuner; InternLM2; certified personal trainer
0 引言
随着健康知识的普及和生活水平的提升,人们越来越重视身体健康。然而,对于缺乏专业指导的初学者,想要掌握正确的运动姿势和有效的训练方法并不容易,而健身教练现场指导的高昂费用和时间、地点的限制一直困扰着健身爱好者。AI个人健身教练系统作为新型的“AI+体育”[1]健身指导方式,能提供个性化、低成本的服务。通过AI和CV技术,可开发出虚拟AI个人健身教练系统,通过嵌入式设备和辅助系统[2]提供实时、个性化的指导,帮助用户纠正动作,制定科学的健身计划,提高训练效果,减少受伤风险。这种方式不仅成本低,还能极大地提高健身的便利性和可达性。
本研究利用大语言模型实现对话功能,提供个性化健身建议和指导。研究内容如下:基于健身训练特点,利用大语言模型原理和实现方法进行优化;构建健身训练对话数据集,利用大语言模型进行训练和优化;根据用户问题和需求,实现个性化回答和建议,提供实时交互和帮助。在实际应用中,健身训练数据的个性化和特殊性可能导致大语言模型无法直接应用。利用XTuner[3]微调技术,对大语言模型进行少量数据集微调,提高用户训练效果和体验。通过以上研究,本研究可实现基于计算机视觉和自然语言处理技术的AI个人健身教练系统,从而为初学者提供个性化、实时和高精度的健身训练指导和帮助。
1 关键技术
PaddlePaddle拥有丰富的模型库和工具链路支持,PP-TinyPose能实时检测人体关键点,InternLM2结合XTuner微调技术,可对健身场景进行场景优化,从而提供自然流畅的多轮对话体验。
1.1 PaddlePaddle
PaddlePaddle是由百度研发并维护的开源深度学习框架。在AI个人健身教练项目中,使用PaddlePaddle对人体姿态估计模型进行训练和部署。
1.2 PP-TinyPose和PPicoDet
PP-TinyPose是一种为移动和实时应用设计的轻量级人体姿态估计模型,是PaddleDetection项目中基于PicoDet优化的实时关键点检测模型,适用于移动设备上的多人姿态估计任务。使用PP-Tinypose[4]算法对人物身体关键点进行检测和匹配,结果如图1所示。该算法用于检测和匹配关键点,并基于匹配结果识别和评估健身动作,为用户提供实时反馈和指导。
PP-PicoDet由百度公司开发,具有低参数量、高效率和高准确率的目标检测性能,其关键技术包括网络架构优化、特征融合策略、动态标签分配策略、损失函数优化、神经网络架构搜索及其他策略。
PP-PicoDet架构如图2所示。PP-PicoDet在移动设备上具有优异的目标检测性能,其小模型(PicoDet-S)在保持0.99 M参数量的同时,达到30.6%的mAP,超越了其他轻量级模型。
1.3 InternLM2大语言模型
InternLM2[5]由上海人工智能实验室、商汤科技集团和香港中文大学联合开发,是一个开源的大型语言模型(LLM),在长文本建模和开放式主观评估方面表现卓越。
1.4 XTuner
XTuner是一个高效、灵活、全能的轻量化大模型微调工具库,支持大语言模型和多模态图文模型的预训练和微调,适用于8 GB显存下的7 B模型和多节点跨设备的更大尺度模型。
2 设计与实现
2.1 系统架构
AI个人健身教练系统由多个模块组成,包括数据采集模块、姿态估计模块、对话生成模块、模型微调模块和反馈模块。系统架构如图3所示。
数据采集模块通过摄像头实时获取用户的健身视频,并将视频帧传输至姿态估计模块中进行处理。
模型微调模块使用Xtuner对预训练的大语言模型进行微调,确保其能准确生成针对健身和营养的建议和对话。
反馈模块结合用户的动作识别结果和对话生成结果,实时提供个性化健身指导和营养建议。该模块通过API与其他模块进行数据交换,实现系统的整体功能。
2.2 姿态估计与识别
2.4 系统实现
系统界面和姿态识别如图5所示。系统采用Qt开发,提供跨平台的图形用户界面,利用模块化设计,各模块通过API通信,保证灵活性和可扩展性。实现过程如下。
①前端界面。使用Qt开发,提供用户友好的交互界面,支持跨平台操作。
②后端服务。采用Python和Flask框架实现处理数据采集、姿态估计和对话生成等功能。
③数据处理。系统不存储用户数据,所有数据处理均在内存中进行,确保用户隐私和数据安全。
系统整体架构保证了高效的数据处理和实时反馈,为用户提供个性化的健身指导和营养建议。
2.5 PP-Tinypose关键点匹配的算法和XTuner微调的实现
在处理骨骼点数据时,首先根据人体检测框对数据进行归一化处理,实现数据的标准化,确保不同尺寸和姿态的人体数据能进行有效比较。其次使用余弦距离计算不同骨骼点数据之间的相似度,从而快速评估两个姿态或动作的相似性。上述过程的实现代码如下。
3.2 结果分析
对LLM个性化对话表现分析后发现,InternLM2模型通过XTuner微调后,在健身指导对话中表现出色,能准确理解用户需求,并提供个性化建议,展示出大语言模型在个性化对话指导中的潜力。未来,可优化对话数据集,增强复杂对话场景表现。
对帕梅拉动作识别表现分析后发现,PP-TinyPose模型在动作识别中具有高精度和实时性的特点,表明其在健身指导中具有广阔的应用前景。然而,在复杂动作或快速运动中,检测精度仍需提升。未来,可引入多样化数据集和改进模型结构,提高动作识别的准确性和鲁棒性。
4 结语
本研究使用Python和计算机视觉技术开发出AI个人健身教练系统,通过PaddlePaddle深度学习框架和PP-Tinypose人体姿态估计算法,完成健身动作的关键点检测和匹配;采用XTuner微调技术,提高大模型的健身动作识别准确性。通过对LLM和PP-TinyPose模型的测试与分析,验证AI个人健身教练系统在个性化对话和动作识别方面的有效性。在项目实现过程中,还设计了用户友好界面,支持自定义健身计划,并提供实时的健身动作反馈和纠错建议。测试结果显示,优化和微调后的模型能提供准确、实时和个性化的健身指导,并带来良好的用户体验。未来,可聚焦于提升模型的泛化能力和用户交互体验,进一步完善AI健身教练系统。
参考文献:
[1]张榜显.“AI+体育”助力全民健身公共服务数字创新发展研究[C]//中国体育科学学会.第十三届全国体育科学大会论文摘要集:墙报交流(体育信息分会).2023:163-165.
[2]王畅.基于人体姿态估计的嵌入式AI健身辅助训练系统研究[D].重庆:西南大学,2024.
[3]HU E J,SHEN Y L,WALLIS P,et al.LoRA: Low-rank adaptation of large language models[J].arXiv,2021.
[4]YU G H,CHANG Q Y,LV W Y,et al.PP-PicoDet: A better real-time object detector on mobile devices[J].arXiv,2021.
[5]CAI Z,CAO M S,CHEN H J,et al.Internlm2 technical report[J].arXiv,2024.