中文古籍OCR学术版源自北京市海淀区龙泉寺藏经办公室与深度学习与视觉计算实验室的学术性合作。工作起步于2017年,初始训练数据为前者提供的汉文大藏经的高清图片,双方共同完成数据标注,后者负责模型的设计与训练。
历经若干次数据扩充和模型升级,这里发布的版本完成于2020年,包含三项基础功能:单字识别,单列识别,检测。
训练数据来自真实古籍图像,多数是佛教文献。可用作古籍OCR的对比基准。
Recognition of Chinese Text in Historical Documents with Page-Level Annotations
Dense and Tight Detection of Chinese Charactersin Historical Documents: Datasets and a Recognition Guided Detector
Weakly Supervised Precise Segmentation for Historical Document Images
Precise Detection of Chinese Characters in Historical Documents with Deep Reinforcement Learning
A Joint OCR and Layout Analysis Framework for Historical Document Digitization
学术版模型缺少版面分析的功能,识别过程需要人工介入,无法实现全自动化。由于训练数据主要来自佛教文献,对于其他古籍类型的覆盖面不足。
着眼于以上问题,贤超 在学术版模型的基础上,结合自身的学术积累和开发经验,自主研发了版面分析、文字校正等多项核心算法,提高了原模型在生产环境中的准确率,实现了识别过程的全自动化、无人工介入。
鉴于融合新算法后的模型在古籍、近现代文献、现代出版物等各类生产环境上都具有良好的适用性,故将其命名为“工业版”,以区别于偏重佛教文献的“学术版”。
1、版面分析:解决了古籍双行夹注的定位与识别。兼容竖排横排,实现了中文OCR的古今通用。
2、文字校正:字识别与列识别融合。通过外部语言模型弥补了原模型在语料覆盖面上的短板。
3、版面提取:针对拼版、表格等特殊版式,分离提取子版面。
4、双层PDF:利用在线工具,可以对识别结果进行编辑修正,生成双层PDF。
为专注于研究与开发工作,作者授权北京籍智达数字科技有限公司处理商业性合作事宜。 有意合作者敬请垂询:jizhida@jzd.cool
古文自动标点项目由北京市海淀区龙泉寺藏经办公室于2017年发起,率先将深度学习应用于古文现代标点。截至2021年一共产生了L1、T1、T2三个版本。目前运行的版本是T2,其他版本已经下线。
L1:完成于2018年初,训练数据包括CBETA、佛光大藏经、全唐文,采用6层残差双向长短时记忆(bi-LSTM),可以对古文标注7种现代标点并输出概率,技术支持为北京彩彻区明科技有限公司。此成果首先在2018年12月第九届数位典藏与数位人文国际研讨会上发表,并刊载于2019年《数位典藏与数位人文》。
T1:完成于2020年初,训练数据范围广泛,采用端到端Transformer结构,模型作者为深度学习与视觉计算实验室。适用于各种古籍文献类型,标点准确率较L1大幅提升,已接近人类专业水平。
T2:完成于2021年初,训练数据范围广泛,采用基于fairseq框架的端到端改进版Transformer结构,技术支持为frankang。相较于T1模型,准确率略有提升,同时运行速度更快,并增加了概率输出功能。
考虑到自动标点的特殊性,本网站有必要向用户声明以下观点:
1、对古文进行现代标点通常并不存在唯一答案,体现的是标点者对原文的理解,不能视同作者本意。
2、根据现行法律与司法实践,古文的现代标点作品具有著作权,受到法律保护。
3、不同人对一定数量以上的相同古文内容独力进行现代标点,其结果之间具有较高的一致性属于合理现象(经验值大约为60%-90%)。一致性高到什么程度才属于抄袭的范畴,尚缺乏明确的界定标准。
4、根据截至目前人工智能领域的司法实践,不能排除自动标点日后被界定为“自动标点模型作者的一种创作行为”的可能性。
5、本网站和模型作者都无意主张自动标点结果的著作权,用户可以自由选择是否注明来源。
6、由于用户不当使用自动标点(包括但不限于:大规模将自动标点结果用于盈利目的;在可能触犯第三方著作权的情况下,不注明来源、不经修改的直接使用自动标点结果)而导致的法律后果,皆与本网站和模型作者无关。
1、2017年,北京市海淀区龙泉寺藏经办公室继自动标点之后,开始着手自建“文言文-白话文”平行语料库,人工进行句子对齐。后来进展缓慢,一度搁置。
2、2020年,藏经办公室主任贤超法师在研究文本比对算法的时候获得启发,基于文白语料的语言特征,提出了一种基于句子相似度的对齐算法,用于构建文白平行语料,并集成于古文工具箱。
3、2021年,贤超采用动态规划对原算法加以改进,对齐准确率达到99.9%,使得构建大规模文白平行语料库成为可能。在一年左右时间里,自建文白平行语料库的规模从数十万句迅速增长至数百万句。基于简化版算法的文本对齐工具,发布于“古籍酷”网站 。
4、2022年,贤超与深度学习与视觉计算实验室开展合作,后者利用前者提供的文白平行语料库,训练“文言文-白话文”神经网络翻译引擎。截至10月,取得了重要进展,达到实用水平。