系列笔谈之四:智能时代古籍OCR技术
王军刘成林金连文刘永革张弛宜王胤斐朱慧韩静雯徐璇
北京大学数字人文研究中心 北京大学信息管理系 中国科学院自动化研究所 华南理工大学电子与信息学院 安阳师范学院 北京书同文数字化有限公司 北京大学外国语学院 四川师范大学文学院 武汉大学文学院 清华大学《数字人文》编辑部
摘要:<正>王军(北京大学信息管理系):OCR技术是古籍数字化技术的核心和基础OCR技术是古籍数字化技术的核心和基础,现代汉语常用汉字约七八千字,而古籍中所包含的文字最高达8万。由于文字量庞大,异体字众多,字形多变,版式多样,而且年代久远,页面模糊,再加上缺乏充足的训练数据,这使得古籍OCR比一般的OCR任务更具有挑战性。近年来,深度学习技术在这个领域的应用显著提高了OCR的准确率,大大降低了应用门槛。它现在是古籍数字化领域受关注度最高,应用面最广,需求量最大的一门技术。
- 专辑:
教育与社会科学综合; 电子技术及信息科学
- 专题:
图书情报与数字图书馆
- 分类号:
G255.1
引文网络
相关推荐
- 相似文献
- 读者推荐
- 关联作者
- [1]海外古籍回归与利用的模式及思考[J]. 李伟,马静. 古籍保护研究. 2016(00)
- [2]浅论微信平台中的古籍推广与利用[J]. 杨煜. 旅顺博物馆学苑. 2020(00)
- [3]贵州少数民族口碑古籍的界定、分类与定级[J]. 印金成. 贵州世居民族文献与文化研究. 2016(00)
- [4]评某些材质对古籍长期保存的影响:水、纸板与木材[J]. 刘家真. 古籍保护研究. 2018(00)
- [5]围绕胶东乡邦文化而开展的古籍普查保护工作——以烟台图书馆为例[J]. 刘树伟. 古籍保护研究. 2015(00)
- [6]谈中华宗教古籍的保护与整理[J]. 方廣錩. 藏外佛教文献. 2011(01)
- [7]竹簾在古籍修復中的妙用[J]. 葛瑞華. 文津学志. 2020(02)
- [8]利用楚簡文字訛書校讀古籍舉隅[J]. 張峰. 古籍研究. 2020(02)
- [9]古籍數字化中計算機自然語言處理應用現狀分析[J]. 馬海麗,王曦. 古籍研究. 2020(02)
- [10]武汉大学图书馆利用RFID管理古籍的设想[J]. 吴芹芳,谢泉. 古籍保护研究. 2021(01)