大语言模型的偏见挑战:识别、评估与去偏
徐月梅叶宇齐何雪怡
北京外国语大学信息科学技术学院 北京外国语大学国际商学院
摘要:针对大语言模型(LLM)输出内容存在偏见而导致其不安全和不可控的问题,从偏见识别、偏见评估和偏见去除3个角度,深入梳理和分析现有大语言模型偏见的研究现状、技术与局限。首先,概述大语言模型的三大关键技术,从中分析其不可避免存在内隐偏见(Intrinsic Bias)的根本原因;其次,总结现有大语言模型存在的偏见类型,分为语言偏见、人口偏见和评估偏见,分析这些偏见的特点和原因;再次,系统回顾现有大语言模型偏见的评估基准,探讨这些通用型评估基准、特定语言评估基准、和特定任务评估基准的优点及局限;最后,从模型去偏和数据去偏两个角度对现有大语言模型偏见的去除技术进行深入分析,指出其改进方向。分析指出大语言模型偏见研究的三个方向:偏见的多文化属性评估、轻量级的偏见去除技术以及增强偏见的可解释性。
- 专辑:
电子技术及信息科学
- 专题:
计算机软件及计算机应用; 自动化技术
- 分类号:
TP391.1;TP18
中国知网独家网络首发,未经许可,禁止转载、摘编。
引文网络
相关推荐
- 相似文献
- 读者推荐
- 关联作者
- [1]大语言模型的偏见挑战:识别、评估与去除[J]. 徐月梅,叶宇齐,何雪怡. 计算机应用. 2025(03)
- [2]大语言模型对图书馆数字人文工作的挑战及应对思考[J]. 张宏玲,沈立力,韩春磊,付雅明. 图书馆杂志. 2023(11)
- [3]大语言模型的偏见挑战:识别、评估与去除[J]. 徐月梅,叶宇齐,何雪怡. 计算机应用. 2025(03)
- [4]大语言模型在无锚题等值中的应用——以阅读素养测评为例[J]. 杜君磊,郑勤华,宋义深. 武汉大学学报(理学版).
- [5]基于大语言模型的语料库查询自动生成方法[J]. 张成辉,罗景,涂新辉,陈雨霖. 计算机工程.
- [6]基于大语言模型的人文社会科学汉英机器翻译研究[J]. 孙光耀,赵志枭,沈思,王东波. 数据分析与知识发现.
- [7]基于译文易错词纠正机制的大语言模型机器翻译[J]. 李博,季佰军,段湘煜. 计算机工程.
- [8]基于思维代码的大语言模型多工具协调调用提示方法[J]. 江志英,黄震宇,宋晨炜,张泽宇,韩众和,谷伟伟,龚启航,刘思叶,赵妍. 北京化工大学学报(自然科学版).
- [9]基于大语言模型微调的少样本方面级情感分析研究[J]. 朱侯,谭雅文,魏文韬. 现代情报.
- [10]基于大语言模型和事件融合的电信诈骗事件风险分析[J]. 斯彬洲,孙海春,吴越. 数据分析与知识发现.