备注 | 修改日期 | 修改人 |
格式调整 | 2021-05-27 09:38:08[当前版本] | 系统管理员 |
CREAT | 2021-05-26 17:34:47 | 系统管理员 |
(1)介绍
FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。github 上 5K
星,它依据 Levenshtein Distance 算法 计算两个序列之间的差异。
Levenshtein Distance 算法,又叫 Edit Distance
算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
(2)应用场景
在客户名称不规范场景下,对相似客户名称进行匹配
(3)常见用法
简单匹配(Simple Ratio):>>> fuzz.ratio("this
is a test", "this is a test!")
97
非完全匹配(Partial Ratio)
>>> fuzz.partial_ratio("this is a test",
"this is a test!")
100
忽略顺序匹配(Token Sort Ratio)
>>> fuzz.ratio("fuzzy wuzzy was a bear",
"wuzzy fuzzy was a bear")
91
>>> fuzz.token_sort_ratio("fuzzy wuzzy was a
bear", "wuzzy fuzzy was a bear")
100
去重子集匹配(Token Set Ratio)
>>> fuzz.token_sort_ratio("fuzzy was a
bear", "fuzzy fuzzy was a bear")
84
>>> fuzz.token_set_ratio("fuzzy was a
bear", "fuzzy fuzzy was a bear")
100
(4)安装及使用
安装:pip install fuzzywuzzy
使用:>>> from
fuzzywuzzy import fuzz
>>> from
fuzzywuzzy import process
(1)介绍
jieba是优秀的中文分词第三方库
-
中文文本需要通过分词获得单个的词语
- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果
- 除了分词,用户还可以添加自定义的词组
(2)应用场景
统计某字符串中出现某些词语出现的频率,比如美国总统发言中提到了多少次中国
(3)常用方法
统计三国演义中词语次数最多的十五个名词
(4)安装及使用
安装:pip install jieba
使用:import jieba