文献知网节
(录用定稿)网络首发时间:2024-12-24 10:54:19

大语言模型的偏见挑战:识别、评估与去偏

徐月梅

xuyuemei@bfsu.edu.cn

叶宇齐何雪怡

  北京外国语大学信息科学技术学院    北京外国语大学国际商学院  

摘要:针对大语言模型(LLM)输出内容存在偏见而导致其不安全和不可控的问题,从偏见识别、偏见评估和偏见去除3个角度,深入梳理和分析现有大语言模型偏见的研究现状、技术与局限。首先,概述大语言模型的三大关键技术,从中分析其不可避免存在内隐偏见(Intrinsic Bias)的根本原因;其次,总结现有大语言模型存在的偏见类型,分为语言偏见、人口偏见和评估偏见,分析这些偏见的特点和原因;再次,系统回顾现有大语言模型偏见的评估基准,探讨这些通用型评估基准、特定语言评估基准、和特定任务评估基准的优点及局限;最后,从模型去偏和数据去偏两个角度对现有大语言模型偏见的去除技术进行深入分析,指出其改进方向。分析指出大语言模型偏见研究的三个方向:偏见的多文化属性评估、轻量级的偏见去除技术以及增强偏见的可解释性。 
  • 专辑:

    电子技术及信息科学

  • 专题:

    计算机软件及计算机应用; 自动化技术

  • 分类号:

    TP391.1;TP18

中国知网独家网络首发,未经许可,禁止转载、摘编。

下载手机APP用APP扫此码同步阅读该篇文章

温馨提示:阅读CAJ格式原文,请使用CAJ浏览器

下载:671 页数:14 大小:610K

相关推荐
  • 相似文献
  • 读者推荐
  • 相关法规
  • 关联作者