大语言模型的偏见挑战：识别、评估与去除

徐月梅
xuyuemei@bfsu.edu.cn
叶宇齐何雪怡

北京外国语大学信息科学技术学院北京外国语大学国际商学院

摘要：针对大语言模型（LLM）输出内容存在偏见而导致LLM不安全和不可控的问题，从偏见识别、偏见评估和偏见去除3个角度出发深入梳理和分析现有LLM偏见的研究现状、技术与局限。首先，概述LLM的三大关键技术，从中分析LLM不可避免存在内隐偏见（Intrinsic Bias）的根本原因；其次，总结现有LLM存在的语言偏见、人口偏见和评估偏见三类偏见类型，并分析这些偏见的特点和原因；再次，系统性回顾现有LLM偏见的评估基准，并探讨这些通用型评估基准、特定语言评估基准以及特定任务评估基准的优点及局限；最后，从模型去偏和数据去偏2个角度出发深入分析现有LLM去偏技术，并指出它们的改进方向，同时，分析指出LLM偏见研究的3个方向：偏见的多文化属性评估、轻量级的偏见去除技术以及偏见可解释性的增强。

关键词：

大语言模型; 偏见溯源; 偏见识别; 偏见评估; 偏见去除;

专辑：
电子技术及信息科学
专题：
计算机软件及计算机应用; 自动化技术
分类号：
TP391.1;TP18

手机阅读

即刻使用手机阅读

第一步
扫描二维码下载

"移动知网-全球学术快报"客户端

第二步
打开“全球学术快报”

点击首页左上角的扫描图标

第三步
扫描二维码

手机同步阅读本篇文献
下载
- PDF
- CAJ
在线阅读
- HTML阅读
- 原版阅读
BETABETA英文HTML阅读（机翻）
AI辅助阅读

下载手机APP用APP扫此码同步阅读该篇文章

温馨提示：阅读CAJ格式原文，请使用CAJ浏览器。

下载：122 页码：697-708 页数：12 大小：1793K

文章目录

大语言模型的偏见挑战：识别、评估与去除

徐月梅
xuyuemei@bfsu.edu.cn
叶宇齐何雪怡

北京外国语大学信息科学技术学院北京外国语大学国际商学院

即刻使用手机阅读

引文网络

相关推荐

文章目录

大语言模型的偏见挑战：识别、评估与去除

徐月梅xuyuemei@bfsu.edu.cn叶宇齐何雪怡

北京外国语大学信息科学技术学院 北京外国语大学国际商学院

即刻使用手机阅读

引文网络

相关推荐

徐月梅
xuyuemei@bfsu.edu.cn
叶宇齐何雪怡

北京外国语大学信息科学技术学院北京外国语大学国际商学院