民国报纸文本基准真值制作的挑战与思考——以《晶报》为例
谢佳叶淑敏
德国海德堡大学跨文化研究中心 德国海德堡大学汉学系
摘要:欧洲和北美众多研究学者已对机器学习在光学字符识别中的应用进行了探索,许多项目也正在为此创建基准真值(ground truth, GT)数据。但对于非拉丁文本(non-Latin script)阅读材料来说,情况则有所不同。德国海德堡大学的“中国早期报刊在线数据库”(ECPO)项目于2021年开始研究如何基于中国报刊史料生成机器可读文本。ECPO采用多种机器学习方法(如卷积神经网络)开发了一个半自动流程来生成机器可读的全文文本,并选取民国时期娱乐小报《晶报》(1919—1940年)作为实验基础。文章聚焦于两方面:一是对基准真值编辑工作流程作详细阐述,包括组建编辑团队、组织工作流程、建立操作规范和确保质量控制;二是探讨制作基准真值时遇到的具体困难,包括字符编码问题、与Unicode相关的异体字符问题等。该研究项目创建了两个基准真值数据集,分别是文本型/结构化数据(全文基准真值,full-text GT)和版面分割数据(几何基准真值,geometry GT)。此外,文章还指出研究项目发现的问题及应对方案,期望提高机器学习效率,并为其他从事非拉丁文阅读材料研究的同仁提供借鉴。
- 专辑:
教育与社会科学综合; 哲学与人文科学; 电子技术及信息科学
- 专题:
中国近现代史; 新闻与传媒
- 分类号:
K258;G219.29
引文网络
相关推荐
- 相似文献
- 读者推荐
- 关联作者
- [1]“她者”镜像:小报中的近代上海女性画像研究——以《晶报》为例[J]. 金梦圆. 中国报业. 2023(06)
- [2]把都市报锻造成党报集团的和谐力量——深圳《晶报》创建和谐报业的探索与实践[J]. 陈寅. 新闻战线. 2006(09)
- [3]《晶报》:创新则强[J]. 陈寅. 传媒. 2007(02)
- [4]创新则强 重在内容——《晶报》的追求与实践[J]. 陈寅. 新闻战线. 2007(06)
- [5]《晶报》对《立报》的模仿及其败因探究[J]. 李时新. 阅江学刊. 2011(01)
- [6]地方媒体的“新锐”特色——以《晶报》“深耕本土”为例[J]. 焦守林. 青年记者. 2015(04)
- [7]“小报大报化”:《晶报》的革新与失败[J]. 李时新. 浙江传媒学院学报. 2015(02)
- [8]论《晶报》的编辑特色[J]. 王静,段勃. 传媒观察. 2018(08)
- [9]香港《晶报》:曾领香港报坛风骚[J]. 庄向阳. 青年记者. 2018(35)
- [10]包天笑《晶报》活动考论——以《钏影楼日记》为线索[J]. 黄诚. 南方文坛. 2024(04)