文献知网节
印刷版

基于大语言模型的中文实体链接实证研究

徐正斐辛欣

xxin@bit.edu.cn

  北京理工大学计算机学院    北京理工大学北京市海量语言信息处理与云计算应用工程技术研究中心  

摘要:近年来,大语言模型(Large language model, LLM)在自然语言处理中取得重大进展.在模型足够大时,大语言模型涌现出传统的预训练语言模型(Pre-trained language model, PLM)不具备的推理能力.为了探究如何将大语言模型的涌现能力应用于中文实体链接任务,适配了以下四种方法:知识增强、适配器微调、提示学习和语境学习(In-context learning, ICL).在Hansel和CLEEK数据集上的实证研究表明,基于Qwen-7B/ChatGLM3-6B的监督学习方法超过基于小模型的方法,在Hansel-FS数据集上提升3.9%~11.8%,在Hansel-ZS数据集上提升0.7%~4.1%,在CLEEK数据集上提升0.6%~3.7%.而当模型参数量达到720亿时, Qwen-72B的无监督方法实现与监督微调Qwen-7B相近的结果 (-2.4%~+1.4%).此外,大语言模型Qwen在长尾实体场景下有明显的优势(11.8%),且随着参数量的增加,优势会更加明显(13.2%).对错误案例进行分析(以下简称错误分析)发现,实体粒度和实体类别相关... 更多
  • DOI:

    10.16383/j.aas.c240069

  • 专辑:

    电子技术及信息科学

  • 专题:

    计算机软件及计算机应用; 自动化技术

  • 分类号:

    TP391.1;TP18

下载手机APP用APP扫此码同步阅读该篇文章

温馨提示:阅读CAJ格式原文,请使用CAJ浏览器

下载:624 页码:327-342 页数:16 大小:1082K

相关推荐
  • 相似文献
  • 读者推荐
  • 相关法规
  • 关联作者