文献知网节
(录用定稿)网络首发时间:2024-10-11 09:32:01

基于大语言模型的语料库查询自动生成方法

张成辉罗景

luojing@wust.edu.cn

涂新辉陈雨霖

  武汉科技大学计算机科学与技术学院    智能信息处理与实时工业系统湖北省重点实验室    华中师范大学计算机学院  

摘要:语料库查询语言(Corpus Query Language,CQL)是一种用于在语料库中进行检索和分析的查询语言,自然语言自动生成CQL指将用户以自然语言表达的查询需求自动转换为标准的CQL语句,从而大大降低了用户使用语料库的门槛。虽然大语言模型可以较好的完成自然语言生成任务,但是在CQL生成任务中效果还不是很理想。为此,提出一种基于大语言模型上下文学习的语料库查询自动生成方法T2CQL。首先,基于CQL的编写规则总结出一套简洁全面的Text-to-CQL语法知识,作为大语言模型实现Text-to-CQL的自动转换的基础,以弥补大语言模型在此领域知识储备的不足。然后,基于选定的嵌入模型,选取与当前自然语言查询最接近的前k个Text-CQL样本对,以帮助大语言模型理解语法知识并作为参照。最后, 采用生成结果校准策略来减轻大语言模型在生成CQL时的偏差,通过校准模型偏差以提升模型生成CQL的性能。实验使用多个大语言模型在包含1177条数据的测试集上进行测试。实验结果表明,T2CQL方法显著提升了大语言模型在完成Text-to-CQL自动转换任务时的性能,最优的EX达到了85.13%。 
  • DOI:

    10.19678/j.issn.1000-3428.0070118

  • 专辑:

    电子技术及信息科学

  • 专题:

    计算机软件及计算机应用; 自动化技术

  • 分类号:

    TP18;TP391.1

中国知网独家网络首发,未经许可,禁止转载、摘编。

下载手机APP用APP扫此码同步阅读该篇文章

温馨提示:阅读CAJ格式原文,请使用CAJ浏览器

下载:697 页数:11 大小:743K

相关推荐
  • 相似文献
  • 读者推荐
  • 相关法规
  • 关联作者