• 首页
  • 装备资讯
  • 热点专题
  • 人物访谈
  • 政府采购
  • 产品库
  • 求购库
  • 企业库
  • 品牌排行
  • 院校库
  • 案例·技术
  • 会展信息
  • 教育装备采购网首页 > 知识产权 > 专利 > CN102081642A

    搜索引擎检索结果聚类的中文标签提取方法

      摘要:本发明公开了一种搜索引擎检索结果聚类的中文标签提取方法,包括以下步骤:S1、用户输入查询词,形成输入文档;S2、选取候选词,对所有候选词评分;S3、判断是否存在未作标记的候选词,若否,则跳转到步骤S8;若是,则选出得分最高的候选词;把这个选中的候选词拓展成为包含该词的有序词序列的集合,进入步骤S4;S4、计算各个有序词序列的频率,抽取高频词序列;S5、对高频词序列评分,并选取候选词序列;S6、判断选词序列是否被接受为标签,若是,则进入步骤S7;若否,则返回步骤S3;S7、根据生成的标签进行聚类;S8、结束操作。本发明可以减少噪音标签,使标签具有更好的代表性、简明性和完整性。
    • 专利类型发明专利
    • 申请人华南理工大学;广州数园网络有限公司;
    • 发明人董守斌;张丽平;张凌;李粤;袁华;
    • 地址510640 广东省广州市天河区五山路381号
    • 申请号CN201010527341.6
    • 申请时间2010年10月28日
    • 申请公布号CN102081642A
    • 申请公布时间2011年06月01日
    • 分类号G06F17/30(2006.01)I;