您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關Python如何實現杰卡德距離以及環比算法,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
NLP-字符串相似性計算、集合相似性度量
杰卡德距離(Jaccard Distance) 是用來衡量兩個集合差異性的一種指標,它是杰卡德相似系數的補集,被定義為1減去Jaccard相似系數。而杰卡德相似系數(Jaccard similarity coefficient),也稱杰卡德指數(Jaccard Index),是用來衡量兩個集合相似度的一種指標。
Jaccard相似指數用來度量兩個集合之間的相似性,它被定義為兩個集合交集的元素個數除以并集的元素個數。
Jaccard距離用來度量兩個集合之間的差異性,它是Jaccard的相似系數的補集,被定義為1減去Jaccard相似系數。
代碼如下:
# -*- encoding:utf-8 -*- import jieba def Jaccard(model, reference): # terms_reference為源句子,terms_model為候選句子 terms_reference = jieba.cut(reference) # 默認精準模式 terms_model = jieba.cut(model) grams_reference = set(terms_reference) # 去重;如果不需要就改為list grams_model = set(terms_model) temp = 0 for i in grams_reference: if i in grams_model: temp = temp + 1 fenmu = len(grams_model) + len(grams_reference) - temp # 并集 try: jaccard_coefficient = float(temp / fenmu) # 交集 except ZeroDivisionError: print(model, reference) return 0 else: return jaccard_coefficient
環比的發展速度是報告期水平與前一時期水平之比,表明現象逐期的發展速度。如計算一年內各月與前一個月對比,即2月比1月,3月比2月,4月比3月……12月比11月,說明逐月的發展程度。如分析抗擊“非典”期間某些經濟現象的發展趨勢,環比比同比更說明問題。
學過統計或者經濟知識的人都知道,統計指標按其具體內容、實際作用和表現形式可以分為總量指標、相對指標和平均指標。由于采用基期的不同,發展速度可分為同比發展速度、環比發展速度和定基發展速度。簡單地說,就是同比、環比與定基比,都可以用百分數或倍數表示。
定基比發展速度,也簡稱總速度,一般是指報告期水平與某一固定時期水平之比,表明這種現象在較長時期內總的發展速度。同比發展速度,一般指是指本期發展水平與上年同期發展水平對比,而達到的相對發展速度。環比發展速度,一般是指報告期水平與前一時期水平之比,表明現象逐期的發展速度。
同比和環比,這兩者所反映的雖然都是變化速度,但由于采用基期的不同,其反映的內涵是完全不同的;一般來說,環比可以與環比相比較,而不能拿同比與環比相比較;而對于同一個地方,考慮時間縱向上發展趨勢的反映,則往往要把同比與環比放在一起進行對照。 [1]
代碼如下:
def month_on_month_ratio(data_list): mid = 0 length = len(data_list) res = [] while mid < length-1: a, b = data_list[mid:mid+2] res.append((b-a)/a) mid += 1 return res
關于“Python如何實現杰卡德距離以及環比算法”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。