UIBOT常用python第三方库（持续更新）-知识分享平台

查询码: 00000277

UIBOT常用python第三方库（持续更新）

作者: 周杨于 2021年05月26日 发布在分类 / 计算机应用 / RPA ,于 2021年05月27日编辑

1.简单易用的字符串模糊匹配工具：fuzzywuzzy

（1）介绍

FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。github 上 5K 星，它依据 Levenshtein Distance 算法计算两个序列之间的差异。
Levenshtein Distance 算法，又叫 Edit Distance 算法，是指两个字符串之间，由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符，插入一个字符，删除一个字符。一般来说，编辑距离越小，两个串的相似度越大。
（2）应用场景

在客户名称不规范场景下，对相似客户名称进行匹配

（3）常见用法

简单匹配（Simple Ratio）：>>> fuzz.ratio("this is a test", "this is a test!")
97

非完全匹配（Partial Ratio）
>>> fuzz.partial_ratio("this is a test", "this is a test!")
100
忽略顺序匹配（Token Sort Ratio）
>>> fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
91
>>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
100
去重子集匹配（Token Set Ratio）
>>> fuzz.token_sort_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
84
>>> fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
100

（4）安装及使用

安装：pip install fuzzywuzzy

使用：>>> from fuzzywuzzy import fuzz
>>> from fuzzywuzzy import process

2.中文分词:jieba

（1）介绍

jieba是优秀的中文分词第三方库
- 中文文本需要通过分词获得单个的词语
- 利用一个中文词库，确定汉字之间的关联概率
- 汉字间概率大的组成词组，形成分词结果
- 除了分词，用户还可以添加自定义的词组

（2）应用场景

统计某字符串中出现某些词语出现的频率，比如美国总统发言中提到了多少次中国

（3）常用方法

统计三国演义中词语次数最多的十五个名词

 
     # -*- coding: utf-8 -*-
    
 
     import 
     jieba
    

 
     txt = 
     open(
     "d: 
     \\ 
     三国演义.txt", 
     "r", 
     encoding=
     'utf-8').
     read() 
    
 
     words = 
     jieba.
     lcut(
     txt)     
     # 使用精确模式对文本进行分词
    
 
     counts = {}     
     # 通过键值对的形式存储词语及其出现的次数
    

 
     for 
     word 
     in 
     words: 
    

          
     if 
     len(
     word) == 
     1:    
     # 单个词语不计算在内
    

              
     continue
    

          
     else: 
    

              
     counts[
     word] = 
     counts.
     get(
     word, 
     0) + 
     1    
     # 遍历所有词语，每出现一次其对应的值加 1
    

 
     items = 
     list(
     counts.
     items()) 
    
 
     items.
     sort(
     key=
     lambda 
     x: 
     x[
     1], 
     reverse=
     True)    
     # 根据词语出现的次数进行从大到小排序
    

 
     for 
     i 
     in 
     range(
     50): 
    

          
     word, 
     count = 
     items[
     i] 
    

          
     print(
     "{0:<5}{1:>5}".
     format(
     word, 
     count)) 
    

（4）安装及使用

安装：pip install jieba

使用：import jieba

备注	修改日期	修改人
格式调整	2021-05-27 09:38:08[当前版本]	系统管理员
CREAT	2021-05-26 17:34:47	系统管理员

附件类型	PNG
1358881-20180816143426803-566451906.png(118472.0b)

[Title]

1.简单易用的字符串模糊匹配工具：fuzzywuzzy

2.中文分词:jieba

3.词云可视化:WordCloud