专利内容由知识产权出版社提供
专利名称:一种文本数据清洗方法及装置专利类型:发明专利发明人:钟新斌
申请号:CN202011621579.5申请日:20201230公开号:CN112613317A公开日:20210406
摘要:本申请公开了一种文本数据清洗方法及装置,该方法包括:获取预设数量个待清洗机构名。对目标机构名进行分词操作,获得目标机构名的各个词;目标机构名为待清洗机构名中的任意一个。根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注,获得目标机构名的各个词所对应的词性模式。将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,将各个事件按照词的先后顺序进行排序,获得事件流。按照匹配规则表对事件流进行清洗,获得保留下来的事件流,进而确定保留下来的机构名。通过该方法,将待清洗机构名进行分词和词性标注,将其封装成事件流,并结合CEP模式对待清洗机构名清洗,解决了待清洗机构名噪声多的问题。
申请人:中国农业银行股份有限公司
地址:100005 北京市东城区建国门内大街69号
国籍:CN
代理机构:北京集佳知识产权代理有限公司
代理人:刘晓菲
更多信息请下载全文后查看