64  
查询码: 00000277
UIBOT常用python第三方库(持续更新)
作者: 周杨 于 2021年05月26日 发布在分类 / 计算机应用 / RPA ,于 2021年05月27日 编辑

1.简单易用的字符串模糊匹配工具:fuzzywuzzy 

(1)介绍

FuzzyWuzzy 是一个简单易用的模糊字符串匹配工具包。github 上 5K 星,它依据 Levenshtein Distance 算法 计算两个序列之间的差异
Levenshtein Distance 算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
(2)应用场景

在客户名称不规范场景下,对相似客户名称进行匹配

(3)常见用法

简单匹配(Simple Ratio):>>> fuzz.ratio("this is a test", "this is a test!") 
        97

非完全匹配(Partial Ratio)
>>> fuzz.partial_ratio("this is a test", "this is a test!")
        100
忽略顺序匹配(Token Sort Ratio)
>>> fuzz.ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
        91
    >>> fuzz.token_sort_ratio("fuzzy wuzzy was a bear", "wuzzy fuzzy was a bear")
        100
去重子集匹配(Token Set Ratio)
>>> fuzz.token_sort_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
        84
    >>> fuzz.token_set_ratio("fuzzy was a bear", "fuzzy fuzzy was a bear")
        100

(4)安装及使用

安装:pip install fuzzywuzzy

使用:>>> from fuzzywuzzy import fuzz
          >>> from fuzzywuzzy import process

2.中文分词:jieba

(1)介绍

         jieba是优秀的中文分词第三方库
         - 中文文本需要通过分词获得单个的词语
         - 利用一个中文词库,确定汉字之间的关联概率
         - 汉字间概率大的组成词组,形成分词结果
         - 除了分词,用户还可以添加自定义的词组

(2)应用场景

统计某字符串中出现某些词语出现的频率,比如美国总统发言中提到了多少次中国

(3)常用方法

统计三国演义中词语次数最多的十五个名词

# -*- coding: utf-8 -*-
import  jieba

txt =  open( "d: \\ 三国演义.txt""r"encoding= 'utf-8'). read()
words =  jieba. lcut( txt)      # 使用精确模式对文本进行分词
counts = {}      # 通过键值对的形式存储词语及其出现的次数

for  word  in  words:
     if  len( word) ==  1:     # 单个词语不计算在内
         continue
     else:
         counts[ word] =  counts. get( word0) +  1     # 遍历所有词语,每出现一次其对应的值加 1

items =  list( counts. items())
items. sort( key= lambda  xx[ 1],  reverse= True)     # 根据词语出现的次数进行从大到小排序

for  i  in  range( 50):
     wordcount =  items[ i]
     print( "{0:<5}{1:>5}". format( wordcount))

(4)安装及使用

安装:pip install jieba

使用:import jieba


3.词云可视化:WordCloud




 历史版本

备注 修改日期 修改人
格式调整 2021-05-27 09:38:08[当前版本] 系统管理员
CREAT 2021-05-26 17:34:47 系统管理员

 附件

附件类型

PNGPNG

  目录
    知识分享平台 -V 5.1.4 -大信谛威