文献知网节

系列笔谈之四:智能时代古籍OCR技术

王军刘成林金连文刘永革张弛宜王胤斐朱慧韩静雯徐璇

  北京大学数字人文研究中心    北京大学信息管理系    中国科学院自动化研究所    华南理工大学电子与信息学院    安阳师范学院    北京书同文数字化有限公司    北京大学外国语学院    四川师范大学文学院    武汉大学文学院    清华大学《数字人文》编辑部  

摘要:<正>王军(北京大学信息管理系):OCR技术是古籍数字化技术的核心和基础OCR技术是古籍数字化技术的核心和基础,现代汉语常用汉字约七八千字,而古籍中所包含的文字最高达8万。由于文字量庞大,异体字众多,字形多变,版式多样,而且年代久远,页面模糊,再加上缺乏充足的训练数据,这使得古籍OCR比一般的OCR任务更具有挑战性。近年来,深度学习技术在这个领域的应用显著提高了OCR的准确率,大大降低了应用门槛。它现在是古籍数字化领域受关注度最高,应用面最广,需求量最大的一门技术。 
  • 专辑:

    教育与社会科学综合; 电子技术及信息科学

  • 专题:

    图书情报与数字图书馆

  • 分类号:

    G255.1

下载手机APP用APP扫此码同步阅读该篇文章

温馨提示:阅读CAJ格式原文,请使用CAJ浏览器

下载:403 页码:95-125 页数:31 大小:1913K

相关推荐
  • 相似文献
  • 读者推荐
  • 相关法规
  • 关联作者