亚洲免费在线-亚洲免费在线播放-亚洲免费在线观看-亚洲免费在线观看视频-亚洲免费在线看-亚洲免费在线视频

詳解Python 字符串相似性的幾種度量方法

系統 1840 0

字符串的相似性比較應用場合很多,像拼寫糾錯、文本去重、上下文相似性等。

評價字符串相似度最常見的辦法就是:把一個字符串通過插入、刪除或替換這樣的編輯操作,變成另外一個字符串,所需要的最少編輯次數,這種就是編輯距離(edit distance)度量方法,也稱為Levenshtein距離。海明距離是編輯距離的一種特殊情況,只計算等長情況下替換操作的編輯次數,只能應用于兩個等長字符串間的距離度量。

其他常用的度量方法還有 Jaccard distance、J-W距離(Jaro?CWinkler distance)、余弦相似性(cosine similarity)、歐氏距離(Euclidean distance)等。

python-Levenshtein 使用

使用 pip install python-Levenshtein 指令安裝 Levenshtein

            
# -*- coding: utf-8 -*-
 
import difflib
# import jieba
import Levenshtein
 
str1 = "我的骨骼雪白 也長不出青稞"
str2 = "雪的日子 我只想到雪中去si"
 
# 1. difflib
seq = difflib.SequenceMatcher(None, str1,str2)
ratio = seq.ratio()
print 'difflib similarity1: ', ratio
 
# difflib 去掉列表中不需要比較的字符
seq = difflib.SequenceMatcher(lambda x: x in ' 我的雪', str1,str2)
ratio = seq.ratio()
print 'difflib similarity2: ', ratio
 
# 2. hamming距離,str1和str2長度必須一致,描述兩個等長字串之間對應位置上不同字符的個數
# sim = Levenshtein.hamming(str1, str2)
# print 'hamming similarity: ', sim
 
# 3. 編輯距離,描述由一個字串轉化成另一個字串最少的操作次數,在其中的操作包括 插入、刪除、替換
sim = Levenshtein.distance(str1, str2)
print 'Levenshtein similarity: ', sim
 
# 4.計算萊文斯坦比
sim = Levenshtein.ratio(str1, str2)
print 'Levenshtein.ratio similarity: ', sim
 
# 5.計算jaro距離
sim = Levenshtein.jaro(str1, str2 )
print 'Levenshtein.jaro similarity: ', sim
 
# 6. Jaro?CWinkler距離
sim = Levenshtein.jaro_winkler(str1 , str2 )
print 'Levenshtein.jaro_winkler similarity: ', sim

          

輸出:

difflib similarity1:? 0.246575342466
difflib similarity2:? 0.0821917808219
Levenshtein similarity:? 33
Levenshtein.ratio similarity:? 0.27397260274
Levenshtein.jaro similarity:? 0.490208958959
Levenshtein.jaro_winkler similarity:? 0.490208958959

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。


更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索:z360901061

微信掃一掃加我為好友

QQ號聯系: 360901061

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。

【本文對您有幫助就好】

您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描上面二維碼支持博主2元、5元、10元、自定義金額等您想捐的金額吧,站長會非常 感謝您的哦!!!

發表我的評論
最新評論 總共0條評論
主站蜘蛛池模板: 99久久国产 | 四虎2020 | 欧美日韩一区二区视频免费看 | 4hu四虎| 久热精品免费 | 免费观看久久 | 天天插天天射天天操 | 国内精品久久久久激情影院 | 五月色婷婷综合激情免费视频 | 一区二区三区不卡免费视频97 | 亚洲精品久久久久久下一站 | 色偷偷综合 | 欧美国产精品一区二区免费 | 五月婷婷伊人 | 精品国产96亚洲一区二区三区 | 欧美久久天天综合香蕉伊 | 亚洲桃色视频 | 免费国产精品视频 | 草草福利影院 | 亚洲日韩欧洲无码av夜夜摸 | 国产亚洲精品一区999 | 99久久综合狠狠综合久久 | 久久精品国产丝袜 | 日本久久一区二区 | 999精品免费视频 | 国产a自拍| 日韩在线 中文字幕 | 成人短视频网站 | 老色鬼久久综合第一 | 色综合久久综合欧美综合 | 国产在线观看一区二区三区 | 干一干操一操 | 狠色狠狠色狠狠狠色综合久久 | 国产精品热久久毛片 | 日韩视频在线一区 | 波多野吉衣一区二区三区在线观看 | 亚洲精品aⅴ一区二区三区 亚洲精品ccc | 99最新网址 | 国产亚洲一区二区三区在线观看 | 日本精品夜色视频一区二区 | 久久女人|