摘要:本发明为了弥补现有汉语分词技术的不足,提出了一种实现智能联想的行业词语关联度分词方法。利用基于语义距离的概念相似度计算公式来获得任一概念的相关概念,从而给出了属于此行业领域的语义词典完整的自动构建方法。建立分布式递归模型,将本地词库写入云端词库,检索行业文章并存数据库,用云端词库过滤出属于本行业的词汇,根据队列中消息读取云端数据,对数据进行去噪并分词,取出出现次数最多的N个词,或取出出现次数最多的一个词,统计单据数量和词语出现的次数。之后,计算词语在每张单据中出现的平均次数。最后,计算词语出现次数的标准差,从而实现快速、准确联想。
- 专利类型发明专利
- 申请人上海博科资讯股份有限公司;
- 发明人周小伟;商杰;
- 地址200333 上海市静安区延安西路376弄22号5楼
- 申请号CN201310430100.3
- 申请时间2013年09月22日
- 申请公布号CN104462052A
- 申请公布时间2015年03月25日
- 分类号G06F17/27(2006.01)I;G06F17/30(2006.01)I;