专利内容由知识产权出版社提供
专利名称:中文分词方法及装置专利类型:发明专利发明人:王启明
申请号:CN200710102082.0申请日:20070514公开号:CN101071421A公开日:20071114
摘要:本发明公开了一种中文分词方法,包括:为分词集合中的分词赋权值,所述分词集合中的分词按照分词在句子中的位置排序;从所述分词集合的最后一个分词开始,记录当前分词的权值与其在前分词到句尾的距离的和,作为当前分词到句尾的距离,标记该在前分词与当前分词的拼接关系,直到得到分词集合中第一个分词到句尾的距离,及所述第一个分词与其在前分词的拼接关系;从所述分词集合的第一个分词开始,选择所述到句尾的距离最短的句首分词,所述句首分词的第一个字为所述句子的第一个字;从所述句首分词开始,根据所述拼接关系,依次获取拼接关系中所标记的在前分词,直到句子结束。本发明还公开一种中文分词装置。上述方法或装置降低了分词的复杂度。
申请人:腾讯科技(深圳)有限公司
地址:518044 广东省深圳市福田区振兴路赛格科技园2栋东410室
国籍:CN
代理机构:北京集佳知识产权代理有限公司
代理人:逯长明
更多信息请下载全文后查看