91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Adam優化算法的示例分析

發布時間:2021-12-27 09:43:20 來源:億速云 閱讀:198 作者:小新 欄目:大數據

這篇文章主要介紹Adam優化算法的示例分析,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

據牛津字典的定義,優化是指最好或最有效地利用一種情況或資源,或者簡單地使自己的事物達到最佳狀態的行為。通常,如果可以對某事進行數學建模,則很有可能可以對其進行優化。這在深度學習領域起著至關重要的作用(可能是整個人工智能),因為您選擇的優化算法可能是在數分鐘,數小時或數天(有時甚至是數周)內獲得高質量結果的區別。

Adam優化算法的示例分析

什么是Adam Optimizer?

Adam Optimizer是對SGD的擴展,可以代替經典的隨機梯度下降法來更有效地更新網絡權重。

請注意,Adam這個名字并不是首字母縮寫詞,實際上,作者(OpenAI的Diederik P. Kingma和多倫多大學的Jimmy Lei Ba)在論文中指出,該論文首次在ICLR 2015上作為會議論文發表,標題為Adam: A method for Stochastic Optimization, that the name is derived from adaptive moment estimation.。

作者毫不猶豫地列出了將Adam應用于非凸優化問題的許多迷人好處,我將繼續分享以下內容:

簡單地實現(我們將在本文的稍后部分中實現Adam,并且您將直接看到如何利用強大的深度學習框架以更少的代碼行使實現變得更加簡單。)

  1. 計算效率高

  2. 很少的內存需求

  3. 梯度的對角線重縮放不變(這意味著亞當將梯度乘以僅帶正因子的對角矩陣是不變的,以便更好地理解此堆棧交換)

  4. 非常適合數據和/或參數較大的問題

  5. 適用于非固定目標

  6. 適用于非常嘈雜和/或稀疏梯度的問題

  7. 超參數具有直觀的解釋,通常需要很少的調整(我們將在配置部分中對此進行詳細介紹)

Adam是如何工作的

簡而言之,Adam使用動量和自適應學習率來加快收斂速度。

Momentum (動量)

在解釋動量時,研究人員和從業人員都喜歡使用比球滾下山坡而向局部極小值更快滾動的類比法,但從本質上講,我們必須知道的是,動量算法在相關方向上加速了隨機梯度下降,如 以及抑制振蕩。

為了將動量引入我們的神經網絡,我們將時間元素添加到過去時間步長的更新向量中,并將其添加到當前更新向量中。這樣可以使球的動量增加一定程度。可以用數學表示,如下圖所示。

Adam優化算法的示例分析

動量更新方法,其中θ是網絡的參數,即權重,偏差或激活值,η是學習率,J是我們要優化的目標函數,γ是常數項,也稱為動量。Vt-1(注意t-1是下標)是過去的時間步長,而Vt(注意t是下標)是當前的時間步長。

動量項γ通常被初始化為0.9或類似于Sebastian Ruder的論文《An overview of gradient descent optimization algorithm》中提到的項。

適應性學習率

通過將學習率降低到我們在AdaGrad,RMSprop,Adam和AdaDelta中看到的預定義時間表(schedule),可以將自適應學習率視為訓練階段的學習率調整。這也稱為學習率時間表 有關該主題的更多詳細信息,Suki Lau撰寫了一篇有關該主題的非常有用的博客文章,稱為“ Learning Rate Schedules and Adaptive Learning Rate Methods for Deep Learning.”。

在不花太多時間介紹AdaGrad優化算法的情況下,這里將解釋RMSprop及其在AdaGrad上的改進以及如何隨時間改變學習率。

RMSprop(即均方根傳播)是由Geoff Hinton開發的,如《An Overview of Gradient Descent Optimization Algorithms》所述,其目的是解決AdaGrad的學習率急劇下降的問題。簡而言之,RMSprop更改學習速率的速度比AdaGrad慢,但是RMSprop仍可從AdaGrad(更快的收斂速度)中受益-數學表達式請參見下圖

Adam優化算法的示例分析

E [g2] t的第一個方程是平方梯度的指數衰減平均值。Geoff Hinton建議將γ設置為0.9,而學習率η的默認值為0.001

這可以使學習率隨著時間的流逝而適應,這很重要,因為這種現象也存在于Adam中。當我們將兩者(Momentum 和RMSprop)放在一起時,我們得到了Adam —下圖顯示了詳細的算法。

Adam優化算法的示例分析

如果你聽過吳恩達老師的深度學習課程,吳恩達老師說過“Adam可以理解為加了Momentum 的 RMSprop” ,上圖的公式就是吳恩達老師這句話的由來。

以上是“Adam優化算法的示例分析”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

高清| 石楼县| 平阴县| 百色市| 松潘县| 凤山县| 宁阳县| 墨玉县| 互助| 东阿县| 城步| 大英县| 周宁县| 固原市| 建平县| 长宁县| 贵德县| 陈巴尔虎旗| 阳泉市| 汝阳县| 永昌县| 金沙县| 太原市| 济源市| 罗源县| 鄂州市| 江北区| 青海省| 陇西县| 临高县| 萨嘎县| 大名县| 太仓市| 苏尼特左旗| 沛县| 景洪市| 柞水县| 怀集县| 乌兰浩特市| 巨鹿县| 盱眙县|