• 首页
  • 装备资讯
  • 热点专题
  • 人物访谈
  • 政府采购
  • 产品库
  • 求购库
  • 企业库
  • 品牌排行
  • 院校库
  • 案例·技术
  • 会展信息
  • 教育装备采购网首页 > 知识产权 > 专利 > CN101286156A

    基于元数据去除重复对象的方法

      摘要:本发明公开了一种基于元数据去除重复对象的方法,涉及元数据清理领域,解决了现有去除重复数据工作量大的问题,本发明先对待录入的元数据进行规范化处理。在比较时通过缩小比较范围,减少工作量,提高工作效率。在数据集合记录中,选取与待录入元数据的出版社字段相同的记录;在选定的记录中,选取isbn、书名、作者、出版社、出版时间、价格字段,作为比较范围。利用带权重值的相似度比较函数,计算待录入元数据与数据集合中对应字段的属性值之间的相似度值;将各个字段相似度值乘以权重值,相加得到复合相似度值;将复合相似度值与预设阈值进行比较;如果复合相似度值不小于阈值,则数据集合中的当前记录与待录入元数据为重复数据。
    • 专利类型发明专利
    • 申请人北大方正集团有限公司;北京方正阿帕比技术有限公司;
    • 发明人高飞;
    • 地址100871北京市海淀区成府路298号方正大厦5层
    • 申请号CN200710106024.5
    • 申请时间2007年05月29日
    • 申请公布号CN101286156A
    • 申请公布时间2008年10月15日
    • 分类号G06F17/30(2006.01);G06F19/00(2006.01);