摘要:一种应用于信息技术领域中的一种大规模文本数据的外部聚类方法及系统,设计的聚类系统,包括一候选分析器、关系生成器、关系选取和聚类部件,每个样本点都作为一个簇,通过检索技术为每个样本挑选出候选的具有联系的候选点集合,利用关系生成器计算样本与候选关系样本间的关系,按递增/递减顺序输出到外部存储空间;方法的主要步骤包括:对输入文本集的预处理,生成文本集的倒排索引和特征向量;采用检索技术检索每一文档的候选关系集合;利用关系计算方法对有候选关系的文档进行关系计算;排序输出大于一定阈值的计算结果;聚类算法再依照排序结果,反复迭代合并具有第一直接关系的文本对,最终达到对文本集合的聚类输出。该装置构思新颖科学、聚类过程占用空间小、容量大的外部存储器,对处理过程进行分化处理。
- 专利类型发明专利
- 申请人沈阳格微软件有限责任公司;
- 发明人季铎;蔡东风;张桂平;尹宝生;苗雪雷;周俏丽;白羽;
- 地址110034辽宁省沈阳市黄河北大街52号202信箱
- 申请号CN200810012141.X
- 申请时间2008年07月04日
- 申请公布号CN101308496A
- 申请公布时间2008年11月19日
- 分类号G06F17/30(2006.01);