面向Transformer 模型的轻量化方法研究

2024-04-28 17:20徐慧超徐海文刘丽娜

电脑知识与技术 2024年4期

徐慧超徐海文刘丽娜

摘要：随着Transformer模型的改进与发展，模型的参数数量显著增加，使得Transformer模型及其衍生模型需要消耗大量的计算资源和存储资源。文章提出一种基于知识蒸馏的新的Transformer模型轻量化方法：使用预训练好的BERT模型（Bidirectional Encoder Representation from Transformers）作为教师模型，设计学生模型卷积神经网络（Convolutional NeuralNetwork，CNN），加入注意力机制的循环神经网络（Recurrent Neural Network，RNN）和全連接神经网络（Full Connect Neu?ral Network，DNN），并采用logits和matching logits两种蒸馏方法，实现模型的轻量化。实验结果表明，当将BERT模型蒸馏给CNN时，参数数量减少93.46%，运行速度提升30余倍，在小规模数据集上准确率仅下降0.70%；当将BERT蒸馏给加入注意力机制的RNN时，参数数量减少了93.38%，速度提升100余倍，模型准确率轻微下降；当将DNN作为学生模型时，参数数量减少了93.77%，速度提升了200余倍，在大规模数据集上，准确率仅下降0.02%。

关键词：深度学习；Transformer模型；注意力机制；轻量化方法；知识蒸馏

中图分类号：TP301 文献标识码：A

文章编号：1009-3044（2024）04-0025-04