大语言模型微调方法研究综述
吴春志赵玉龙刘鑫司念文张鲁飞范昊
数学工程与先进计算国家重点实验室 航天工程大学士官学校 国家并行计算机工程技术研究中心 信息工程大学信息系统工程学院
摘要:近年来,大语言模型成为人工智能领域非常受关注的技术,引发了自然语言处理领域新的研究范式。在大语言模型训练实践中,参数微调是其中非常重要的一个环节,它允许用户在资源受限条件下,通过调整少部分参数来提升模型理解用户指令、解决下游任务的能力。该文全面回顾了2019—2024年间50余种主要的大语言模型微调方法,从全新的角度进行了系统性的整理和概括,分为全参数微调、部分参数微调、新增参数微调和无参数微调方法,对每种方法的原理、微调位置及方法特点作了总结归纳和比较;接着,从计算的视角出发,着重分析比较了各类方法的参数量、内存消耗和计算量;最后,基于该文的微调方法调研及相关的参数微调实践,对大语言模型微调策略给出建议,以促进该领域的发展。
- 专辑:
电子技术及信息科学
- 专题:
计算机软件及计算机应用; 自动化技术
- 分类号:
TP18;TP391.1
引文网络
相关推荐
- 相似文献
- 读者推荐
- 关联作者
- [1]基于大语言模型的智能产线的设计[J]. 曹元. 智慧中国. 2024(10)
- [2]大语言模型的剪枝算法综述[J]. 黄海新,徐成龙. 通信与信息技术. 2025(01)
- [3]结构化思维提示增强大语言模型推理能力综述[J]. 陶江垚,奚雪峰,盛胜利,崔志明,左严. 计算机工程与应用. 2025(06)
- [4]大语言模型技术赋能档案数字资源治理转型:路径方法与应用场景[J]. 林空. 浙江档案. 2025(03)
- [5]大语言模型在信息化中的应用研究[J]. 王玉平. 中国教育网络. 2023(06)
- [6]大规模语言模型的跨云联合训练关键技术[J]. 潘囿丞,侯永帅,杨卿,余跃,相洋. 中兴通讯技术. 2023(04)
- [7]大型语言模型:原理、实现与发展[J]. 舒文韬,李睿潇,孙天祥,黄萱菁,邱锡鹏. 计算机研究与发展. 2024(02)
- [8]大语言模型评测综述[J]. 罗文,王厚峰. 中文信息学报. 2024(01)
- [9]基于自适应量化的大语言模型微调方法[J]. 黄星晨. 信息技术与信息化. 2024(09)
- [10]面向高校图书馆智慧服务的大语言模型探索性研究——以命名实体识别任务为例[J]. 刘思得,李东升. 现代情报. 2024(12)