基于预训练语言模型的互联网开源信息抽取与情报分析应用研究——以“学术、讲座、论坛”等会议活动为例

王宇琪周庆山

北京大学信息管理系

摘要：[目的/意义]互联网开源信息具有海量、多源异构等特点，如何从中及时发现有价值的信息，并对信息加以情报利用一直是情报研究和实践应用的重点领域之一。文章提出一套开源的学术会议领域信息抽取框架，解决信息抽取语义理解和关联融合的问题，并将其应用于情报研究中，为解决情报分析的智能应用提供工具和方法。[方法/过程]采集网络上新闻报道的内容，采用预训练语言模型方法挖掘学术会议事件信息，提出面向特定领域的信息抽取框架，实现会议名称及其举办时间、地点、出席人、发言人信息的抽取，并进行实际的情报利用研究案例分析。[结果/结论]相较于单一抽取实体的方法，抽取会议核心元素更具有情报关联性和准确性，可以更好地对开源热点事件发现和跟踪监测、目标人物轨迹动向分析等研究提供方法，为情报分析应用和情报研判奠定基础。

关键词：

互联网开源信息; 学术会议事件信息; 信息抽取框架; 预训练语言模型; 情报分析应用;

DOI：
10.16353/j.cnki.1000-7490.2024.01.019
专辑：
电子技术及信息科学
专题：
计算机软件及计算机应用; 自动化技术; 图书情报与数字图书馆
分类号：
TP391.1;TP18;G350.7

手机阅读

即刻使用手机阅读

第一步
扫描二维码下载

"移动知网-全球学术快报"客户端

第二步
打开“全球学术快报”

点击首页左上角的扫描图标

第三步
扫描二维码

手机同步阅读本篇文献
下载
- PDF
- CAJ
在线阅读
- HTML阅读
- 原版阅读
AI辅助阅读

下载手机APP用APP扫此码同步阅读该篇文章

温馨提示：阅读CAJ格式原文，请使用CAJ浏览器。

下载：563 页码：154-163 页数：10 大小：2292K

文章目录

基于预训练语言模型的互联网开源信息抽取与情报分析应用研究——以“学术、讲座、论坛”等会议活动为例

王宇琪周庆山

北京大学信息管理系

即刻使用手机阅读

引文网络

相关推荐