大语言模型微调方法研究综述

吴春志赵玉龙刘鑫
yyylx@263.net
司念文张鲁飞范昊

数学工程与先进计算国家重点实验室航天工程大学士官学校国家并行计算机工程技术研究中心信息工程大学信息系统工程学院

摘要：近年来，大语言模型成为人工智能领域非常受关注的技术，引发了自然语言处理领域新的研究范式。在大语言模型训练实践中，参数微调是其中非常重要的一个环节，它允许用户在资源受限条件下，通过调整少部分参数来提升模型理解用户指令、解决下游任务的能力。该文全面回顾了2019—2024年间50余种主要的大语言模型微调方法，从全新的角度进行了系统性的整理和概括，分为全参数微调、部分参数微调、新增参数微调和无参数微调方法，对每种方法的原理、微调位置及方法特点作了总结归纳和比较；接着，从计算的视角出发，着重分析比较了各类方法的参数量、内存消耗和计算量；最后，基于该文的微调方法调研及相关的参数微调实践，对大语言模型微调策略给出建议，以促进该领域的发展。

关键词：

人工智能; 大语言模型; 微调; Adapter; LoRA;

专辑：
电子技术及信息科学
专题：
计算机软件及计算机应用; 自动化技术
分类号：
TP18;TP391.1

手机阅读

即刻使用手机阅读

第一步
扫描二维码下载

"移动知网-全球学术快报"客户端

第二步
打开“全球学术快报”

点击首页左上角的扫描图标

第三步
扫描二维码

手机同步阅读本篇文献
下载
- PDF
- CAJ
在线阅读
- HTML阅读
- 原版阅读
BETABETA英文HTML阅读（机翻）
AI辅助阅读