UIBOT常用python第三方库（持续更新）-知识分享平台

2021-05-27 09:38:08 版本 : UIBOT常用python第三方库（持续更新）

作者: 周杨于 2021年05月26日 发布在分类 / 计算机应用 / RPA 下,并于 2021年05月27日编辑

历史版本

备注	修改日期	修改人
格式调整	2021-05-27 09:38:08[当前版本]	系统管理员
CREAT	2021-05-26 17:34:47	系统管理员

1.简单易用的字符串模糊匹配工具：fuzzywuzzy

（1）介绍

FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。github 上 5K 星，它依据 Levenshtein Distance 算法计算两个序列之间的差异。
Levenshtein Distance 算法，又叫 Edit Distance 算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。
（2）应用场景

在客户名称不规范场景下，对相似客户名称进行匹配

（3）常见用法

简单匹配（Simple Ratio）：>>> fuzz.ratio("this is a test", "this is a test!")
97

非完全匹配（Partial Ratio）
>>> fuzz.partial_ratio("this is a test", "this is a test!")
100
忽略顺序匹配（Token Sort Ratio）
>>> fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
91
>>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
100
去重子集匹配（Token Set Ratio）
>>> fuzz.token_sort_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
84
>>> fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
100

（4）安装及使用

安装：pip install fuzzywuzzy

使用：>>> from fuzzywuzzy import fuzz
>>> from fuzzywuzzy import process

2.中文分词:jieba

（1）介绍

jieba是优秀的中文分词第三方库
- 中文文本需要通过分词获得单个的词语
- 利用一个中文词库，确定汉字之间的关联概率
- 汉字间概率大的组成词组，形成分词结果
- 除了分词，用户还可以添加自定义的词组

（2）应用场景

统计某字符串中出现某些词语出现的频率，比如美国总统发言中提到了多少次中国

（3）常用方法

统计三国演义中词语次数最多的十五个名词

          # -*- coding: utf-8 -*-

          import jieba

          txt = open("d:
          \\
          三国演义.txt", "r", encoding='utf-8').read()   

          words = jieba.lcut(txt)     # 使用精确模式对文本进行分词

          counts = {}     # 通过键值对的形式存储词语及其出现的次数

          for word in words:   
        if len(word) == 1:    # 单个词语不计算在内
            continue
        else:   
            counts[word] = counts.get(word, 0) + 1    # 遍历所有词语，每出现一次其对应的值加 1

          items = list(counts.items())   

          items.sort(key=lambda x: x[1], reverse=True)    # 根据词语出现的次数进行从大到小排序

          for i in range(50):   
        word, count = items[i]   
        print("{0:<5}{1:>5}".format(word, count))

（4）安装及使用

安装：pip install jieba

使用：import jieba

3.词云可视化:WordCloud

历史版本-目录 [回到顶端]

[Title]

1.简单易用的字符串模糊匹配工具：fuzzywuzzy

2.中文分词:jieba

3.词云可视化:WordCloud