您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關pytorch怎么計算kl散度,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
小編偶然從pytorch討論論壇中看到的一個問題,kl divergence 在TensorFlow中和pytorch中計算結果不同,平時沒有注意到,記錄下。
KL散度( Kullback–Leibler divergence),又稱相對熵,是描述兩個概率分布 P 和 Q 差異的一種方法。計算公式:
可以發現,P 和 Q 中元素的個數不用相等,只需要兩個分布中的離散元素一致。
兩個離散分布分布分別為 P 和 Q
P 的分布為:{1,1,2,2,3}
Q 的分布為:{1,1,1,1,1,2,3,3,3,3}
我們發現,雖然兩個分布中元素個數不相同,P 的元素個數為 5,Q 的元素個數為 10。但里面的元素都有 “1”,“2”,“3” 這三個元素。
當 x = 1時,在 P 分布中,“1” 這個元素的個數為 2,故 P(x = 1) = 2/5 = 0.4,在 Q 分布中,“1” 這個元素的個數為 5,故 Q(x = 1) = 5/10 = 0.5
同理,
當 x = 2 時,P(x = 2) = 2/5 = 0.4 ,Q(x = 2) = 1/10 = 0.1
當 x = 3 時,P(x = 3) = 1/5 = 0.2 ,Q(x = 3) = 4/10 = 0.4
至此,就計算完成了兩個離散變量分布的KL散度。
pytorch中有用于計算kl散度的函數 kl_div
torch.nn.functional.kl_div(input, target, size_average=None, reduce=None, reduction='mean')
計算 D (p||q)
與手算結果相同
(這是計算正確的,結果有差異是因為pytorch這個函數中默認的是以e為底)
注意:
1、函數中的 p q 位置相反(也就是想要計算D(p||q),要寫成kl_div(q.log(),p)的形式),而且q要先取 log
2、reduction 是選擇對各部分結果做什么操作,默認為取平均數,這里選擇求和
好別扭的用法,不知道為啥官方把它設計成這樣
補充:pytorch 的KL divergence的實現
import torch.nn.functional as F
# p_logit: [batch, class_num]
# q_logit: [batch, class_num]
def kl_categorical(p_logit, q_logit):
p = F.softmax(p_logit, dim=-1)
_kl = torch.sum(p * (F.log_softmax(p_logit, dim=-1)
- F.log_softmax(q_logit, dim=-1)), 1)
return torch.mean(_kl)
關于“pytorch怎么計算kl散度”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。