大语言模型综述与展望
秦小林古徐李弟诚徐海文
中国科学院成都计算机应用研究所 中国科学院大学计算机科学与技术学院 中国民用航空飞行学院理学院
摘要:大语言模型(LLM)是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练,是当前生成式人工智能(AI)技术的核心。与传统语言模型相比,LLM通过大量的算力、参数和数据支持,展现出更强的语言理解与生成能力,广泛应用于机器翻译、问答系统、对话生成等众多任务中并表现卓越。现有的综述大多侧重于LLM的理论架构与训练方法,对LLM的产业级应用实践及技术生态演进的系统性探讨仍显不足。因此,在介绍LLM的基础架构、训练技术及发展历程的基础上,分析当前通用的LLM关键技术和以LLM为底座的先进融合技术。通过归纳总结现有研究,进一步阐述LLM在实际应用中面临的挑战,包括数据偏差、模型幻觉和计算资源消耗等问题,并对LLM的持续发展趋势进行展望。
- 专辑:
电子技术及信息科学
- 专题:
计算机软件及计算机应用; 自动化技术
- 分类号:
TP391.1;TP18
引文网络
相关推荐
- 相似文献
- 读者推荐
- 关联作者
- [1]基于大语言模型的语料库查询自动生成方法[J]. 张成辉,罗景,涂新辉,陈雨霖. 计算机工程.
- [2]面向闭源大语言模型的增强研究综述[J]. 刘华玲,张子龙,彭宏帅. 计算机科学与探索.
- [3]基于大型语言模型的检索增强生成综述[J]. 刘雪颖,云静,李博,史晓国,张钰莹. 计算机工程与应用.
- [4]论大语言模型时代的法律科技[J]. 许多奇. 数字法治. 2025(01)
- [5]大语言模型技术赋能档案数字资源治理转型:路径方法与应用场景[J]. 林空. 浙江档案. 2025(03)
- [6]基于大语言模型的知识图谱构建及在灾害应急中的应用[J]. 徐欢,吴梦飞,孙文学. 现代信息科技. 2025(08)
- [7]大语言模型构建路径与应用拓展[J]. 李松柏,孙贺明,李佳航. 辽宁经济. 2025(03)
- [8]大语言模型在信息化中的应用研究[J]. 王玉平. 中国教育网络. 2023(06)
- [9]大语言模型中的统计方法[J]. 房祥忠. 中国统计. 2023(09)
- [10]大规模语言模型的跨云联合训练关键技术[J]. 潘囿丞,侯永帅,杨卿,余跃,相洋. 中兴通讯技术. 2023(04)