摘要:本发明公开了一种基于页面分块的图片摘要提取系统,包括页面预处理模块、页面分类模块、页面分块模块、主题块识别模块和信息提取模块。本发明还公开了一种基于页面分块的图片摘要提取方法,具体包括:步骤S1、从Internet上把页面抓取下来;步骤S2、页面预处理模块对页面进行预处理;步骤S3、页面分类模块对预处理后的页面分类;步骤S4、页面分块模块进行语义块划分;步骤S5、页面分块模块将主题型页面发送到主题块识别模块,主题块识别模块识别出主题块,并发送给信息提取模块;页面分块模块将非主题型页面发送到信息提取模块;步骤S6、信息提取模块下载图片并与页面关联。本发明具有提取速度快、准确度高、效果好的优点。
- 专利类型发明专利
- 申请人华南理工大学;广州数园网络有限公司;
- 发明人董守斌;张朝斌;张凌;李粤;袁华;
- 地址510640 广东省广州市天河区五山路381号
- 申请号CN201010275844.9
- 申请时间2010年09月06日
- 申请公布号CN101944109A
- 申请公布时间2011年01月12日
- 分类号G06F17/30(2006.01)I;