摘要:本发明属信息检索领域,公开一种快速比对文本内容的方法与系统,分为文档注册和文档比对两个部分。文档注册部分使用一种迭代式学习方法从待注册文档的文本中学习新关键词,构造关键词库,并基于关键词库建立文本语义和文字结构两种表达方式表示的注册文档库。文档比对部分基于关键词库建立待比对文档文本语义表达方式,与注册文档一一进行文本语义相似性比对,获取相似度最高的、很少数量的注册文档,再基于二部图分割算法与待比对文档一一进行文字结构相似性比对,输出文字结构相似度最高的若干篇注册文档及其与待比对文档的文字结构匹配关系。采用本发明所述方法,可以大幅提高文档的文本内容比对效率,并提供文档间相似文本内容的对应关系。
- 专利类型发明专利
- 申请人厦门优芽网络科技有限公司;
- 发明人陈春蓉;阳嫔虹;张委员;黄艺煌;
- 地址361000 福建省厦门市思明区莲前西路595号益马国际二楼
- 申请号CN201510989166.5
- 申请时间2015年12月28日
- 申请公布号CN105630751A
- 申请公布时间2016年06月01日
- 分类号G06F17/22(2006.01)I;