您好,登錄后才能下訂單哦!
https://www.toutiao.com/a6707483763141509643/
當地時間 6 月 23 日,今年的 ACM 圖靈獎得主、“深度學習三巨頭”中的 Geoffrey Hinton、Yann LeCun 在 ACM FCRC 2019上發表演講,分享了他們對于深度學習的最新觀點。
Geoffrey Hinton 演講題目為《深度學習革命》。他表示,截至目前,人工智能有兩種典型例證。第一種是 1950 年代基于邏輯啟發的智能,在那時,智能的本質是使用符號規則來做出符號表達。這種方法注重的是推理,主要側重于解決如何讓計算機像人類一樣能根據推理做出反應。第二種是基于生物啟發的人工智能。它所代表的智能的本質是學習神經網絡中的聯系優勢。這種方法注重的是學習和感知。
(來源:Geoffrey Hinton)
由此看來,人工智能的這兩個范例有很大的不同,而且,它們在內部表征(internal representations)方面的觀點也不相同。
(來源:Geoffrey Hinton)
基于邏輯的人工智能,其內部表征是符號表達。程序員可以用明確的語言把這些符號輸入計算機;計算機通過應用規則使現有的符號產生新的表示。而基于生物的人工智能,它的內部表征與語言沒有任何關系。它們就像是神經活動一樣,充滿了大量向量,這些向量是直接從數據中學習得到的,而且對神經活動有著直接的因果影響。
這就分別產生了兩種計算機執行任務的方式。
第一種是編程(programming),Hinton 也將它稱為智能設計(intelligent design)。編程時,程序員已經想清楚了處理任務的方法步驟,他需要做的是精確計算,并將所有細節輸入計算機,然后讓計算機去執行。
第二種是學習,這時只需要向計算機提供大量輸入輸出的例子,讓計算機學習如何將輸入與輸出聯系起來,根據輸入映射出輸出。當然這也需要編程,但是所用的程序是簡化的通用學習程序。
五十多年來,人類一直在努力讓符號型人工智能(symbolic AI)實現“看圖說話”的功能。針對這項任務,人類用兩種方式都嘗試了很長時間,最后神經網絡成功完成了這一任務,神經網絡正是基于純學習的方法。
(來源:Geoffrey Hinton)
這就引出了神經網絡的核心問題:包含數百萬權重參數和多層非線性神經元的大型神經網絡是非常強大的計算設備,那么神經網絡能否從隨機權重參數開始,并從訓練數據中獲取所有知識,從而學會執行一項困難的任務 (比如物體識別或機器翻譯) 呢?
接下來,Hinton 回顧了前人的種種努力成果。
(來源:Geoffrey Hinton)
神經網絡是如何工作的呢?Hinton 做了簡短的介紹。
(來源:Geoffrey Hinton)
研究人員首先對一個真實的神經元做了一個粗略的理想化,這樣就可以研究神經元是如何協作完成那些難度很高的計算。
神經網絡由大量的節點(或稱神經元)之間相互聯接構成。每個節點代表一種特定的輸出函數,稱為激勵函數(activation function)。每兩個節點間的連接都代表一個對于通過該連接信號的加權值,稱之為權重,這相當于人工神經網絡的記憶。網絡的輸出則依網絡的連接方式、權重值和激勵函數的不同而不同。而網絡自身通常都是對自然界某種算法或者函數的逼近,也可能是對一種邏輯策略的表達。
(來源:Geoffrey Hinton)
那么,如何訓練神經網絡呢?Hinton 認為分為兩大方法,分別是監督訓練和無監督訓練。
監督訓練:向網絡展示一個輸入向量,并告訴它正確的輸出,通過調整權重,減少正確輸出與實際輸出之間的差異。
無監督訓練:僅向網絡顯示輸入,通過調整權重,更好地從隱含神經元的活動中重建輸入(或部分輸入),最后產生輸出。
其中,監督學習是很好理解的訓練方式,但是它使用的“突變”方法的效率很低。
(來源:Geoffrey Hinton)
相較而言,反向傳播(backpropagation algorithm)只是計算權重變化如何影響輸出錯誤的一種有效方法。它不是一次一個地擾動權重并測量效果,而是使用微積分同時計算所有權重的誤差梯度。當有一百萬個權重時,反向傳播方法要比變異方法效率高出一百萬倍。
(來源:Geoffrey Hinton)
然而,反向傳播算法的發展卻又不盡如人意。
在 20 世紀 90 年代,雖然反向傳播算法的效果還算不錯,但并沒有達到人們所期待的那樣,訓練深度網絡仍然非常困難;在中等規模的數據集上,一些其他機器學習方法甚至比反向傳播更有效。
(來源:Yann LeCun)
符號型人工智能的研究人員稱,想要在大型深層神經網絡中學習困難的任務是愚蠢的,因為這些網絡從隨機連接開始,且沒有先驗知識。
于是深度學習經歷了一段時間的“寒冬”,到 2012 年之后,人們才意識到深度學習是有用的,深度學習才有了大量應用。例如圖像識別和機器翻譯等。
最后,Hinton 談到了神經網絡視覺的未來。Hinton 認為,幾乎所有人工神經網絡只使用兩個時間尺度:對權重的緩慢適應和神經活動的快速變化。突觸在多個不同的時間尺度上都可以適應,針對短時記憶(short-term memory)的快速權重適應(fast weight)將使神經網絡變得更好。
Yann LeCun 則在演講中表示,監督學習在數據量很大時效果很好,可以做語音識別、圖像識別、面部識別、從圖片生成屬性、機器翻譯等。
如果神經網絡具有某些特殊架構,比如上世紀八九十年代提出的那些架構,就能識別手寫文字,而且效果很好,到上世紀 90 年代末時,Yann LeCun 在貝爾實驗室研發的這類系統承擔了全美 10%-20% 手寫文字的識別工作,這不僅在技術上,而且在商業上都取得了成功。
(來源:Yann LeCun)
到后來,整個學界一度幾乎拋棄了神經網絡。這一方面是因為缺乏大型數據庫,還有些原因是當時編寫的軟件過于復雜,需要很大投資,另一方面,當時的計算機速度也不夠快,不足以運行其他應用。
卷積神經網絡其實是受到了生物學的很多啟發,但它并不是照搬生物學。Yann LeCun 從生物學的觀點和研究成果中受到啟發,他發現可以利用反向傳播訓練神經網絡來實現這些現象。卷積網絡的理念是,世界上的物體是由各個部分構成的,其各個部分由圖案構成,而圖案是材質和邊緣的基本組合,邊緣是由分布的像素組成。如果一個系統能夠檢測到有用的像素組合,再依次到邊緣、圖案、最后到物體的各個部分,這就是一個目標識別系統。這不僅適用于視覺識別,也適用于語音、文本等自然信號。我們可以使用卷積網絡識別面部、識別路上的行人。
在上世紀 90 年代到 2010 年左右,出現了一段所謂的“AI寒冬”,但像 Yann LeCun 這樣的人依然繼續著自己的研究。他們繼續著人臉識別、行人識別等研究。他們還將機器學習用在機器人技術上,使用卷積網絡自動標記整個圖像,每個像素都會標記為“能”或“不能”穿越,指引機器人的前進。
(來源:Yann LeCun)
幾年之后,他們使用類似的系統完成目標分割任務,整個系統可以實現 VGA 實時部署,對圖像上的每個像素進行分割。這個系統可以檢測行人、道路、樹木,但當時這個結果并未馬上得到計算機視覺學會的認可。
卷積神經網絡在近幾年有很多應用,例如醫療成像、自動駕駛、機器翻譯,以及游戲等領域。卷積神經網絡需要大量的訓練。但這種海量重復試驗的方式在現實中是不可行的。例如你想教一臺自動駕駛車學會駕駛,在真實世界如此重復訓練是不行的。純粹的強化學習只能適用于虛擬世界。
那么,為什么人和動物的學習速度可以如此之快?
和自動駕駛系統不同的是,人類能夠建立直覺上真實的模型,所以不會把車開下懸崖。這是人類掌握的內部模型,那么人類是怎么學習這個模型的?又如何讓機器學會這個模型呢?
動物身上也存在類似的機制。預測是智能的不可或缺的組成部分,當實際情況和預測出現差異時,實際上就是學習的過程。
以視頻內容預測為例,給定一段視頻數據,需要從其中一段視頻內容預測另外一段空白處的內容。自監督學習的典型場景是,事先不公布要空出哪一段內容,實際上根本不用真地留出空白,只是讓系統根據一些限制條件來對輸入進行重建。系統只通過觀察來完成任務,無需外部交互,學習效率更高。
機器學習的未來在于自監督和半監督學習,而非監督學習和純強化學習。自監督學習就像填空,在 NLP 任務上表現很好,但在圖像識別和理解任務上就表現一般。這是因為世界并不全是可預測的。對于視頻預測任務,結果可能有多重可能,訓練系統做出的預測結果往往會得到唯一的“模糊”結果,即對未來所有結果的“平均值”。這并不是理想的預測。
最后,Yann LeCun 表示,幾百年以來,理論的提出往往伴隨著之后的偉大 發明和創造。深度學習和智能理論在未來會帶來什么?值得我們拭目以待。
(來源:Yann LeCun)
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。