摘要:本发明公开了一种PDF文档表格识别的方法,包括:获取页面中字符集,并将所述字符集合并成行,建立行集合;提取页面路径中水平线与垂直线,建立线集合;检测行集合中的疑似表标题与线集合中的疑似表格线;若同时存在疑似表标题和疑似表格线,则采用基于表标题和线集合的区域生长法识别表格;若仅存在疑似表格线,则用线集合和行集合先检测全线表再检测三线表;若仅存在疑似表标题,则用基于表标题和行集合的区域生长法识别表格;若既无疑似表格线也无疑似表标题,则判定该页无表格;检测表头、表注表格附属元素,输出该页表格识别结果。本发明将表标题、表格线及表格字符排布特点视为表格三大特征,采用区域并行生长的思想能在多表并存一页的复杂版面中准确定位表格。
- 专利类型发明专利
- 申请人同方知网(北京)技术有限公司;
- 发明人邹季英;袁仁慧;梁洵;
- 地址100084 北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室
- 申请号CN201610025529.8
- 申请时间2016年01月15日
- 申请公布号CN105589841A
- 申请公布时间2016年05月18日
- 分类号G06F17/24(2006.01)I;