文献知网节

大语言模型微调方法研究综述

吴春志赵玉龙刘鑫

yyylx@263.net

司念文张鲁飞范昊

  数学工程与先进计算国家重点实验室    航天工程大学士官学校    国家并行计算机工程技术研究中心    信息工程大学信息系统工程学院  

摘要:近年来,大语言模型成为人工智能领域非常受关注的技术,引发了自然语言处理领域新的研究范式。在大语言模型训练实践中,参数微调是其中非常重要的一个环节,它允许用户在资源受限条件下,通过调整少部分参数来提升模型理解用户指令、解决下游任务的能力。该文全面回顾了2019—2024年间50余种主要的大语言模型微调方法,从全新的角度进行了系统性的整理和概括,分为全参数微调、部分参数微调、新增参数微调和无参数微调方法,对每种方法的原理、微调位置及方法特点作了总结归纳和比较;接着,从计算的视角出发,着重分析比较了各类方法的参数量、内存消耗和计算量;最后,基于该文的微调方法调研及相关的参数微调实践,对大语言模型微调策略给出建议,以促进该领域的发展。 
  • 专辑:

    电子技术及信息科学

  • 专题:

    计算机软件及计算机应用; 自动化技术

  • 分类号:

    TP18;TP391.1

下载手机APP用APP扫此码同步阅读该篇文章

温馨提示:阅读CAJ格式原文,请使用CAJ浏览器

下载:1065 页码:1-26 页数:26 大小:2094K

相关推荐
  • 相似文献
  • 读者推荐
  • 相关法规
  • 关联作者