摘要:本发明公开了一种基于元数据去除重复对象的方法,涉及元数据清理领域,解决了现有去除重复数据工作量大的问题,本发明先对待录入的元数据进行规范化处理。在比较时通过缩小比较范围,减少工作量,提高工作效率。在数据集合记录中,选取与待录入元数据的出版社字段相同的记录;在选定的记录中,选取isbn、书名、作者、出版社、出版时间、价格字段,作为比较范围。利用带权重值的相似度比较函数,计算待录入元数据与数据集合中对应字段的属性值之间的相似度值;将各个字段相似度值乘以权重值,相加得到复合相似度值;将复合相似度值与预设阈值进行比较;如果复合相似度值不小于阈值,则数据集合中的当前记录与待录入元数据为重复数据。
- 专利类型发明专利
- 申请人北大方正集团有限公司;北京方正阿帕比技术有限公司;
- 发明人高飞;
- 地址100871北京市海淀区成府路298号方正大厦5层
- 申请号CN200710106024.5
- 申请时间2007年05月29日
- 申请公布号CN101286156A
- 申请公布时间2008年10月15日
- 分类号G06F17/30(2006.01);G06F19/00(2006.01);