(1)介绍
FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。github 上 5K 星,它依据 Levenshtein Distance 算法 计算两个序列之间的差异。
Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
(2)应用场景
在客户名称不规范场景下,对相似客户名称进行匹配
(3)常见用法
简单匹配(Simple Ratio):>>> fuzz.ratio("this is a test", "this is a test!")
97
非完全匹配(Partial Ratio)
>>> fuzz.partial_ratio("this is a test", "this is a test!")
100
忽略顺序匹配(Token Sort Ratio)
>>> fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
91
>>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
100
去重子集匹配(Token Set Ratio)
>>> fuzz.token_sort_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
84
>>> fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
100
(4)安装及使用
安装:pip install fuzzywuzzy
使用:>>> from fuzzywuzzy import fuzz
>>> from fuzzywuzzy import process
(1)介绍
jieba是优秀的中文分词第三方库
- 中文文本需要通过分词获得单个的词语
- 利用一个中文词库,确定汉字之间的关联概率
- 汉字间概率大的组成词组,形成分词结果
- 除了分词,用户还可以添加自定义的词组
(2)应用场景
统计某字符串中出现某些词语出现的频率,比如美国总统发言中提到了多少次中国
(3)常用方法
统计三国演义中词语次数最多的十五个名词
(4)安装及使用
安装:pip install jieba
使用:import jieba