文献知网节

基于大语言模型和数据增强的通感隐喻分析

盛坤王中卿

Wangzq.antong@gmail.com

  苏州大学计算机科学与技术学院  

摘要:中文通感隐喻分析任务是隐喻领域的一个特定细分任务。由于通感语料中感觉词的分布不均匀,中文通感隐喻数据集存在数据稀疏的问题。为解决这一问题,利用真实训练数据中的稀疏感觉词数据作为提示,并使用大语言模型生成额外的合成样本进行数据增强。为避免合成数据的引入造成的额外噪声影响模型性能,构建基于大语言模型的数据增强框架,并采用评分机制和标签误差优化机制减小合成数据和真实数据之间的分布差异。实验结果表明,所提框架可以生成高质量的合成数据来扩充数据集,在感觉词抽取和感觉领域分类任务上的总体F1值达到68.5%,比仅使用真实训练数据的基线模型T5(Text-To-Text Transfer Transformer)提升了2.7个百分点。 
  • 专辑:

    电子技术及信息科学

  • 专题:

    计算机软件及计算机应用; 自动化技术

  • 分类号:

    TP391.1;TP18

下载手机APP用APP扫此码同步阅读该篇文章

温馨提示:阅读CAJ格式原文,请使用CAJ浏览器

下载:380 页码:794-800 页数:7 大小:1550K

相关推荐
  • 相似文献
  • 读者推荐
  • 相关法规
  • 关联作者