基于大语言模型的中文实体链接实证研究
徐正斐辛欣
北京理工大学计算机学院 北京理工大学北京市海量语言信息处理与云计算应用工程技术研究中心
摘要:近年来,大语言模型(Large language model, LLM)在自然语言处理中取得重大进展.在模型足够大时,大语言模型涌现出传统的预训练语言模型(Pre-trained language model, PLM)不具备的推理能力.为了探究如何将大语言模型的涌现能力应用于中文实体链接任务,适配了以下四种方法:知识增强、适配器微调、提示学习和语境学习(In-context learning, ICL).在Hansel和CLEEK数据集上的实证研究表明,基于Qwen-7B/ChatGLM3-6B的监督学习方法超过基于小模型的方法,在Hansel-FS数据集上提升3.9%~11.8%,在Hansel-ZS数据集上提升0.7%~4.1%,在CLEEK数据集上提升0.6%~3.7%.而当模型参数量达到720亿时, Qwen-72B的无监督方法实现与监督微调Qwen-7B相近的结果 (-2.4%~+1.4%).此外,大语言模型Qwen在长尾实体场景下有明显的优势(11.8%),且随着参数量的增加,优势会更加明显(13.2%).对错误案例进行分析(以下简称错误分析)发现,实体粒度和实体类别相关... 更多
- DOI:
10.16383/j.aas.c240069
- 专辑:
电子技术及信息科学
- 专题:
计算机软件及计算机应用; 自动化技术
- 分类号:
TP391.1;TP18
引文网络
相关推荐
- 相似文献
- 读者推荐
- 关联作者
- [1]基于大语言模型的材料科学信息抽取[J]. 时宗彬,乐小虬. 软件导刊.
- [2]基于反馈的大语言模型内容与行为对齐方法综述[J]. 张钰莹,云静,刘雪颖,史晓国. 计算机工程与应用.
- [3]基于大语言模型的目标情感分析数据增强研究[J]. 武川,苏杭. 情报理论与实践.
- [4]一种基于知识图谱关系池的大语言模型增强方法[J]. 符海东,任翔宇,齐凤亮,光晓俐,顾进广. 计算机技术与发展. 2025(08)
- [5]大语言模型对齐研究综述[J]. 刘昆麟,屈新纪,谭芳,康红辉,赵少伟,施嵘. 电信科学. 2024(06)
- [6]基于大型语言模型指令微调的心理健康领域联合信息抽取[J]. 蔡子杰,方荟,刘建华,徐戈,龙云飞. 中文信息学报. 2024(08)
- [7]大语言模型领域意图的精准性增强方法[J]. 任元凯,谢振平. 计算机应用研究. 2024(10)
- [8]基于大语言模型和数据增强的通感隐喻分析[J]. 盛坤,王中卿. 计算机应用. 2025(03)
- [9]基于大语言模型微调的少样本方面级情感分析研究[J]. 朱侯,谭雅文,魏文韬. 现代情报. 2025(06)
- [10]大语言模型在无锚题等值中的应用——以阅读素养测评为例[J]. 杜君磊,郑勤华,宋义深. 武汉大学学报(理学版).