摘要:本发明公开了一种PDF文档乱码的检测、校正的方法,包括:提取PDF文档内所有字体特征;根据字体特征将字体分为正常字体、乱码字体和待定字体;提取待定字体中字符的点阵图像,并基于图像统计特征的乱码检测算法计算点阵图像与对应编码的相似度,根据相似度判断待定字体中的正常字符或乱码字符;将所述待定字体中的乱码字符和乱码字体中的乱码字符进行纵向和横向编改校正;通过校正结果修正PDF文档,去除乱码字符。本发明采用字体特征和字符的图像特征相结合的方式实现了乱码的自动检测,纵向和横向编改相结合减少了乱码校正的人工耗时,有效地去除了乱码,排除了乱码对后续碎片化加工的干扰,提高了加工效率和质量,降低了加工成本。
- 专利类型发明专利
- 申请人同方知网数字出版技术股份有限公司;同方知网(北京)技术有限公司;
- 发明人邹季英;梁洵;袁仁慧;
- 地址100084 北京市海淀区清华大学华业大厦
- 申请号CN201510181385.0
- 申请时间2015年04月16日
- 申请公布号CN104732228A
- 申请公布时间2015年06月24日
- 分类号G06K9/32(2006.01)I;