2021-05-27 09:38:08 版本 : UIBOT常用python第三方库(持续更新)
作者: 周杨 于 2021年05月26日 发布在分类 / 计算机应用 / RPA 下,并于 2021年05月27日 编辑
 历史版本

备注 修改日期 修改人
格式调整 2021-05-27 09:38:08[当前版本] 系统管理员
CREAT 2021-05-26 17:34:47 系统管理员

1.简单易用的字符串模糊匹配工具:fuzzywuzzy 

(1)介绍

FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。github 上 5K 星,它依据 Levenshtein Distance 算法 计算两个序列之间的差异
Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
(2)应用场景

在客户名称不规范场景下,对相似客户名称进行匹配

(3)常见用法

简单匹配(Simple Ratio):>>> fuzz.ratio("this is a test", "this is a test!") 
        97

非完全匹配(Partial Ratio)
>>> fuzz.partial_ratio("this is a test", "this is a test!")
        100
忽略顺序匹配(Token Sort Ratio)
>>> fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
        91
    >>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
        100
去重子集匹配(Token Set Ratio)
>>> fuzz.token_sort_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
        84
    >>> fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
        100

(4)安装及使用

安装:pip install fuzzywuzzy

使用:>>> from fuzzywuzzy import fuzz
          >>> from fuzzywuzzy import process

2.中文分词:jieba

(1)介绍

         jieba是优秀的中文分词第三方库
         - 中文文本需要通过分词获得单个的词语
         - 利用一个中文词库,确定汉字之间的关联概率
         - 汉字间概率大的组成词组,形成分词结果
         - 除了分词,用户还可以添加自定义的词组

(2)应用场景

统计某字符串中出现某些词语出现的频率,比如美国总统发言中提到了多少次中国

(3)常用方法

统计三国演义中词语次数最多的十五个名词

# -*- coding: utf-8 -*-
import jieba

txt = open("d: \\ 三国演义.txt""r"encoding='utf-8').read()
words = jieba.lcut(txt)     # 使用精确模式对文本进行分词
counts = {}     # 通过键值对的形式存储词语及其出现的次数

for word in words:
    if len(word) == 1:    # 单个词语不计算在内
        continue
    else:
        counts[word] = counts.get(word0) + 1    # 遍历所有词语,每出现一次其对应的值加 1

items = list(counts.items())
items.sort(key=lambda xx[1], reverse=True)    # 根据词语出现的次数进行从大到小排序

for i in range(50):
    wordcount = items[i]
    print("{0:<5}{1:>5}".format(wordcount))

(4)安装及使用

安装:pip install jieba

使用:import jieba


3.词云可视化:WordCloud


历史版本-目录  [回到顶端]
    知识分享平台 -V 5.1.4 -大信谛威