摘要:本发明是有关一种词语联想方法及装置,涉及信息处理领域,方法包括:获取文档集合,所述文档集合中包含至少一个文档;将所述文档中的语句进行分词处理,得到至少一个词语信息;对每个所述词语信息进行分析,得到所述词语信息的分析信息,将所述词语信息以及所述分析信息保存;从所述保存的词语信息中选出目标词语,计算所述目标词语的TF-IDF;计算除所述目标词语外其他词语的TF-IDF;循环所述目标词语外其他所有词语,计算其他所有词语与所述目标词语的关联度;依据所述关联度,将排名前N的词语作为与所述目标词组相关的词组。本发明公开基于TF-IDF的词语联想分析方法,可以从给定文档集合中挖掘出与目标词语最相关词语。
- 专利类型发明专利
- 申请人科大讯飞股份有限公司;
- 发明人易中华;徐波;汪磊;
- 地址230088 安徽省合肥市高新开发区望江西路666号
- 申请号CN201410673771.7
- 申请时间2014年11月21日
- 申请公布号CN105677633A
- 申请公布时间2016年06月15日
- 分类号G06F17/27(2006.01)I;