教育装备采购网首页 > 知识产权 > 专利 > CN105589841A

一种PDF文档表格识别的方法

　　摘要：本发明公开了一种PDF文档表格识别的方法，包括：获取页面中字符集，并将所述字符集合并成行，建立行集合；提取页面路径中水平线与垂直线，建立线集合；检测行集合中的疑似表标题与线集合中的疑似表格线；若同时存在疑似表标题和疑似表格线，则采用基于表标题和线集合的区域生长法识别表格；若仅存在疑似表格线，则用线集合和行集合先检测全线表再检测三线表；若仅存在疑似表标题，则用基于表标题和行集合的区域生长法识别表格；若既无疑似表格线也无疑似表标题，则判定该页无表格；检测表头、表注表格附属元素，输出该页表格识别结果。本发明将表标题、表格线及表格字符排布特点视为表格三大特征，采用区域并行生长的思想能在多表并存一页的复杂版面中准确定位表格。

专利类型发明专利
申请人同方知网（北京）技术有限公司;
发明人邹季英;袁仁慧;梁洵;
地址100084 北京市海淀区清华园清华大学36区华业大厦B1410、1412、1414室
申请号CN201610025529.8
申请时间2016年01月15日
申请公布号CN105589841A
申请公布时间2016年05月18日
分类号G06F17/24(2006.01)I;

该申请人其他专利（共54）

一种学术指数体系及其发布方法

一种英文文献关键短语自动抽取方法与系统

一种动态更新的网站内容制作方法

一种智能问答系统

一种基于句法特征的学术定义自动抽取系统及方法

动态数据采集装置

一种参考文献审校的方法

应用于抄袭检测的信息指纹索引方法

一种基于专家坐诊与自助问答制的专家在线系统

一种基于结构概要的数据恢复方法

该分类其它专利（共77）

版式表格的结构处理方法和系统

测试分析报告生成方法和测试分析报告生成装置

版式表格的结构处理方法和系统

基于Java的高效PDF报表测试方法

基于在线网络的特殊符号与公式编辑方法

基于Flex编辑XBRL实例文档的工具和方法

基于Flex扩展XBRL分类标准的方法

协同文档处理系统及方法

大数据报表导出方法和装置

报表校验公式的生成方法及装置

关于网站联系我们网络广告刊例会员服务项目新手入门会员协议网站地图我要投稿

校体购服务号

采购网服务号

采购网公众号

教育装备采购网在线客服
客服电话：010-50972181/50972182
E-mail：42113232@qq.com
地址：北京市海淀区永嘉南路9号院西院4层408A房间

公安备案号：

京公网安备11010802043465号　京ICP备2025106657号-1　营业执照

Copyright © 2004-2025 www.caigou.com.cn 云智采（北京）文化传媒有限责任公司版权所有