大语言模型的偏见挑战:识别、评估与去除
徐月梅叶宇齐何雪怡
北京外国语大学信息科学技术学院 北京外国语大学国际商学院
摘要:针对大语言模型(LLM)输出内容存在偏见而导致LLM不安全和不可控的问题,从偏见识别、偏见评估和偏见去除3个角度出发深入梳理和分析现有LLM偏见的研究现状、技术与局限。首先,概述LLM的三大关键技术,从中分析LLM不可避免存在内隐偏见(Intrinsic Bias)的根本原因;其次,总结现有LLM存在的语言偏见、人口偏见和评估偏见三类偏见类型,并分析这些偏见的特点和原因;再次,系统性回顾现有LLM偏见的评估基准,并探讨这些通用型评估基准、特定语言评估基准以及特定任务评估基准的优点及局限;最后,从模型去偏和数据去偏2个角度出发深入分析现有LLM去偏技术,并指出它们的改进方向,同时,分析指出LLM偏见研究的3个方向:偏见的多文化属性评估、轻量级的偏见去除技术以及偏见可解释性的增强。
- 专辑:
电子技术及信息科学
- 专题:
计算机软件及计算机应用; 自动化技术
- 分类号:
TP391.1;TP18
引文网络
相关推荐
- 相似文献
- 读者推荐
- 关联作者
- [1]大语言模型的偏见挑战:识别、评估与去偏[J]. 徐月梅,叶宇齐,何雪怡. 计算机应用.
- [2]大语言模型推荐技术综述[J]. 叶春阳. 电子元器件与信息技术. 2023(12)
- [3]基于大语言模型的个性化实验报告评语自动生成与应用[J]. 翟洁,李艳豪,李彬彬,郭卫斌. 计算机工程. 2024(07)
- [4]大语言模型发展综述[J]. 闫啸彤,唐晓彬,沈童,雷诺. 统计学报. 2024(04)
- [5]大语言模型在无锚题等值中的应用——以阅读素养测评为例[J]. 杜君磊,郑勤华,宋义深. 武汉大学学报(理学版).
- [6]基于大语言模型的语料库查询自动生成方法[J]. 张成辉,罗景,涂新辉,陈雨霖. 计算机工程.
- [7]基于大语言模型的人文社会科学汉英机器翻译研究[J]. 孙光耀,赵志枭,沈思,王东波. 数据分析与知识发现.
- [8]基于译文易错词纠正机制的大语言模型机器翻译[J]. 李博,季佰军,段湘煜. 计算机工程.
- [9]基于思维代码的大语言模型多工具协调调用提示方法[J]. 江志英,黄震宇,宋晨炜,张泽宇,韩众和,谷伟伟,龚启航,刘思叶,赵妍. 北京化工大学学报(自然科学版).
- [10]基于大语言模型微调的少样本方面级情感分析研究[J]. 朱侯,谭雅文,魏文韬. 现代情报.