摘要:本发明公开了一种文本相似度计算方法及装置,涉及数据处理技术领域,用于解决现有文本相似度计算效率低的问题,本发明的主要技术方案为:在文本中滚动预置长度的窗口,每滚动一次获取一个字符长度与窗口长度相同的窗口特征词向量;根据所述窗口特征词向量生成与所述文本对应的唯一标识数据;通过对不同文本的唯一标识数据的比较,确定不同文本之间的相似度结果。本发明主要用于计算文本相似度。
- 专利类型发明专利
- 申请人东软集团股份有限公司;
- 发明人张明亮;齐勇;王明强;
- 地址110179 辽宁省沈阳市浑南新区新秀街2号
- 申请号CN201610751935.2
- 申请时间2016年08月29日
- 申请公布号CN106469144A
- 申请公布时间2017年03月01日
- 分类号G06F17/27(2006.01)I;G06F17/30(2006.01)I;