您好,欢迎来到步遥情感网。
搜索
您的当前位置:首页一种文本数据清洗方法及装置[发明专利]

一种文本数据清洗方法及装置[发明专利]

来源:步遥情感网
专利内容由知识产权出版社提供

专利名称:一种文本数据清洗方法及装置专利类型:发明专利发明人:钟新斌

申请号:CN202011621579.5申请日:20201230公开号:CN112613317A公开日:20210406

摘要:本申请公开了一种文本数据清洗方法及装置,该方法包括:获取预设数量个待清洗机构名。对目标机构名进行分词操作,获得目标机构名的各个词;目标机构名为待清洗机构名中的任意一个。根据词性设定模式和自定义词库对目标机构名的各个词进行词性标注,获得目标机构名的各个词所对应的词性模式。将目标机构名的各个词所对应的词性模式转换成复杂事件处理CEP中的各个事件,将各个事件按照词的先后顺序进行排序,获得事件流。按照匹配规则表对事件流进行清洗,获得保留下来的事件流,进而确定保留下来的机构名。通过该方法,将待清洗机构名进行分词和词性标注,将其封装成事件流,并结合CEP模式对待清洗机构名清洗,解决了待清洗机构名噪声多的问题。

申请人:中国农业银行股份有限公司

地址:100005 北京市东城区建国门内大街69号

国籍:CN

代理机构:北京集佳知识产权代理有限公司

代理人:刘晓菲

更多信息请下载全文后查看

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- obuygou.com 版权所有 赣ICP备2024042798号-5

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务