摘要:本发明公开了一种搜索引擎检索结果聚类的中文标签提取方法,包括以下步骤:S1、用户输入查询词,形成输入文档;S2、选取候选词,对所有候选词评分;S3、判断是否存在未作标记的候选词,若否,则跳转到步骤S8;若是,则选出得分最高的候选词;把这个选中的候选词拓展成为包含该词的有序词序列的集合,进入步骤S4;S4、计算各个有序词序列的频率,抽取高频词序列;S5、对高频词序列评分,并选取候选词序列;S6、判断选词序列是否被接受为标签,若是,则进入步骤S7;若否,则返回步骤S3;S7、根据生成的标签进行聚类;S8、结束操作。本发明可以减少噪音标签,使标签具有更好的代表性、简明性和完整性。
- 专利类型发明专利
- 申请人华南理工大学;广州数园网络有限公司;
- 发明人董守斌;张丽平;张凌;李粤;袁华;
- 地址510640 广东省广州市天河区五山路381号
- 申请号CN201010527341.6
- 申请时间2010年10月28日
- 申请公布号CN102081642A
- 申请公布时间2011年06月01日
- 分类号G06F17/30(2006.01)I;