摘要:本发明公开了一种快速内容分析的多关键词匹配方法。所述发明方法包括预处理阶段和模式匹配阶段。其中,所述的预处理阶段包括关键词特征串裁剪和关键词特征分片集合的构建、基于关键词特征分片集合的Bloom Filte(布隆过滤器)构造,以及原始关键词集合线性表构造,所述关键词匹配阶段包括:依据Bloom Filter实现当前窗口中文本串不与任何关键词特征分片匹配的快速判定;只在判定失败情况下通过字符串比较操作实现与候选关键词的精确匹配;将文本匹配窗口连续多字节快速跳跃。本发明充分利用了待匹配文本与关键词匹配成功概率异常低的特点,可实现大数量关键词场景下的高速匹配,非常适合病毒检测等在线病毒扫描应用。
- 专利类型发明专利
- 申请人北京启明星辰信息技术股份有限公司;
- 发明人叶润国;华东明;李博;胡振宇;
- 地址100094 北京市海淀区东北旺西路8号中关村软件园21号启明星辰大厦
- 申请号CN200710119845.2
- 申请时间2007年08月01日
- 申请公布号CN101359325B
- 申请公布时间2010年06月16日
- 分类号G06F17/30(2006.01)I;