一种基于汉字笔顺特征的关键词变体匹配方法
王红雨杜刚朱艳云张晨杜雪涛
中国移动通信集团设计院有限公司
摘要:近年来,垃圾短消息呈现出包含大量拆分字和形近字的现象,这种短消息可以绕过监控系统的关键词审查。由于拆分字和形近字数量众多,变化灵活,将其全部加入关键词库将令关键词库变得冗余。对此,本文提出了一种基于汉字笔顺特征的关键词变体匹配方法。基于汉字笔顺特征,首先合并垃圾短消息中的拆分字;然后通过建立索引表,快速查找出短消息中包含的疑似关键词;最后提出了"金字塔匹配法"匹配关键词。本文提出的方法有效降低了关键词库的冗余度,提高了关键词匹配效率。
- DOI:
10.13992/j.cnki.tetas.2020.12.003
- 专辑:
电子技术及信息科学; 哲学与人文科学
- 专题:
中国语言文字; 计算机软件及计算机应用
- 分类号:
TP391.1;H122
引文网络
相关推荐
- 相似文献
- 读者推荐
- 关联作者
- [1]一种有效的多关键词词频统计方法[J]. 马志柔,叶屹. 计算机工程. 2006(10)
- [2]规范关键词的选择[J]. 山西大学学报(自然科学版). 2008(02)
- [3]论文“关键词”的编写[J]. 实验室科学. 2010(06)
- [4]科技论文中的关键词[J]. 陆艾五. 安徽农学院学报. 1986(01)
- [5]科技论文的“关键词”[J]. 平顶山师专学报. 1995(S1)
- [6]科技论文中关键词的选取[J]. 刘春林. 徐州师范学院学报(自然科学版). 1996(04)
- [7]关键词的含义[J]. 政法论坛. 1999(02)
- [8]谈谈关于关键词堆砌的那些事儿[J]. xiong wei. 计算机与网络. 2013(22)
- [9]关键词提取技术在撒拉族文献数据库的应用[J]. 赵建飞,段新文,安守春. 现代电子技术. 2013(24)
- [10]2018年度6大医美热词[J]. 本刊编辑部,洛云悠,Issey. 医学美学美容. 2018(Z2)