摘要:本发明提供一种文字行提取方法和装置,属于光学字符识别领域。包括:对全景二值图像的各连通域统计,得到字符宽度和字符高度,根据字符宽度和字符高度对各连通域合并;将得到各第一尺度块间的参考水平间距,根据参考水平间距将各第一尺度块合并;将得到各第二尺度块间的第二参考水平间距,根据第二参考水平间距将各第二尺度块合并;将得到的第三尺度块排序后将第三尺度块左右两端既定数目的第一尺度块作延长线,根据延长线将各第三尺度块合并为文字行。本发明分别对应字符、单词和词段进行多尺度合并,再以得到的文字行为基础自顶向下将被排除的尺度块添加回文字行中,减少了不完整字符对文字行提取的干扰,保证了得到的文字行的有效性和准确性。
- 专利类型发明专利
- 申请人汉王科技股份有限公司;
- 发明人李永彬;
- 地址100193 北京市海淀区东北旺西路8号5号楼三层
- 申请号CN201010568411.2
- 申请时间2010年11月30日
- 申请公布号CN102063619B
- 申请公布时间2013年03月13日
- 分类号G06K9/20(2006.01)I;