摘要:本发明提供了一种版式文档中复合图的提取装置,包括:文档解析单元,对版式文档进行解析,确定构成所述版式文档的图元及所述图元的类型;图层生成单元,提取文字图元以构成文字图层,并利用其余的非文字图元构成非文字图层;版面分析单元,分别对文字图层和非文字图层进行版面分析处理;区块生成单元,生成文字图层中的文字区块和非文字图层中的图像区块;关联区块确定单元,确定与每个图像区块相关联的文字区块,以合并为复合图区块;标识存储单元,存储复合图区块包含的所有图元的标识。本发明还提出了一种版式文档中复合图的提取方法。通过本发明的技术方案,可以在复杂的文档版面布局中,尤其是图文混排版面中,实现对复合图的准确提取。
- 专利类型发明专利
- 申请人北大方正集团有限公司;北京方正阿帕比技术有限公司;北京大学;
- 发明人许灿辉;汤帜;陶欣;史操;
- 地址100871 北京市海淀区成府路298号方正大厦9层
- 申请号CN201310343908.8
- 申请时间2013年08月08日
- 申请公布号CN104346615A
- 申请公布时间2015年02月11日
- 分类号G06K9/46(2006.01)I;