系列笔谈之四：智能时代古籍OCR技术

王军刘成林金连文刘永革张弛宜王胤斐朱慧韩静雯徐璇

北京大学数字人文研究中心北京大学信息管理系中国科学院自动化研究所华南理工大学电子与信息学院安阳师范学院北京书同文数字化有限公司北京大学外国语学院四川师范大学文学院武汉大学文学院清华大学《数字人文》编辑部

摘要：＜正＞王军（北京大学信息管理系）：OCR技术是古籍数字化技术的核心和基础OCR技术是古籍数字化技术的核心和基础，现代汉语常用汉字约七八千字，而古籍中所包含的文字最高达8万。由于文字量庞大，异体字众多，字形多变，版式多样，而且年代久远，页面模糊，再加上缺乏充足的训练数据，这使得古籍OCR比一般的OCR任务更具有挑战性。近年来，深度学习技术在这个领域的应用显著提高了OCR的准确率，大大降低了应用门槛。它现在是古籍数字化领域受关注度最高，应用面最广，需求量最大的一门技术。

专辑：
教育与社会科学综合; 电子技术及信息科学
专题：
图书情报与数字图书馆
分类号：
G255.1

手机阅读

即刻使用手机阅读

第一步
扫描二维码下载

"移动知网-全球学术快报"客户端

第二步
打开“全球学术快报”

点击首页左上角的扫描图标

第三步
扫描二维码

手机同步阅读本篇文献
下载
- PDF
- CAJ
在线阅读
- HTML阅读
- 原版阅读

下载手机APP用APP扫此码同步阅读该篇文章

温馨提示：阅读CAJ格式原文，请使用CAJ浏览器。

下载：403 页码：95-125 页数：31 大小：1913K

文章目录

系列笔谈之四：智能时代古籍OCR技术

王军刘成林金连文刘永革张弛宜王胤斐朱慧韩静雯徐璇

即刻使用手机阅读

引文网络

相关推荐