摘要:本发明提供一种多语文档分离的方法和系统,其主要原理是:对文档字符进行扫描;根据字符属性信息为当前扫描字符确定语种标识;将当前扫描字符的语种标识与需分离语种标识进行比较,并当二者相同时,记录当前扫描字符为句首字符;将扫描到的下一个字符与句尾符号进行比较,并当二者相同时,记录其为句尾字符;将自句首字符至句尾字符的所有字符定位为当前句,并为当前句分配存放指针;根据所述存放指针,将当前句写入到与该语种标识对应的文件中。通过本发明,能够实现对WORD文档中的多语混杂内容进行分离,不仅方便了用户操作,而且能够大大节约人力资源和时间。
- 专利类型发明专利
- 申请人传神联合(北京)信息技术有限公司;
- 发明人赵国伟;
- 地址100086 北京市海淀区青云里满庭芳园小区9号楼青云当代大厦十七层1707A1房间
- 申请号CN201010285962.8
- 申请时间2010年09月19日
- 申请公布号CN101996164A
- 申请公布时间2011年03月30日
- 分类号G06F17/22(2006.01)I;