您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關怎樣解決AI的小數據問題,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
解決AI的小數據問題對深度學習算法,如果沒有足夠多的數據進行訓練,有兩種方法可以解決這個問題:生成合成數據,或者開發可利用小數據展開工作的 AI 模型。
眾所周知,深度學習需要數據,其模型訓練都是在大量標記數據的基礎上進行的,比如,利用數以百萬計的動物標記圖像訓練 AI 學會識別。但大量標記數據對某些應用來說并不適用,在這種情況下,從頭開始訓練一個 AI 模型,即使可能,也充滿了困難。
一個潛在的解決方案是用合成數據擴充真實數據集。這在自動駕駛領域得到了廣泛的應用。自動駕駛汽車在逼真的模擬環境中行駛數百萬英里,會面臨暴風雪以及行人突發行為等各種情況,而針對這些情況,我們很難獲取到真實數據。
圍繞數據問題的另一種解決方案是開發能夠基于小數據集進行學習的 AI 模型。一種名為遷移學習(transfer learning)的方法已在計算機視覺任務中得到應用。該方法使用預先訓練的 AI 算法來執行一個有大量標記數據的任務(如識別圖像中的汽車),然后將該知識轉移到另一個數據很少的不同任務上(如識別卡車)。使用預先訓練的模型就像包餃子時使用現成的餃子皮,免去了和面的步驟。
雖然預先訓練的模型在計算機視覺領域已經取得了長足的發展,但在自然語言處理(NLP)領域,由于缺乏標記數據,到目前為止,一直是一項極具挑戰的工作。不過,一種名為自我監督預訓練(self-supervised pre-training)的方法在自然語言處理領域中逐漸流行起來。
所謂自我監督預訓練,首先要根據網絡上的大量數據訓練 AI 模型。例如,OpenAI 進行了一項計算極其密集的任務:用 800 萬個網頁作為訓練數據,訓練一個基于給定文本預測下一文本詞匯的 AI 模型。這一方法被稱為自我監督學習,因為這里不涉及“標簽”:AI 通過基于句子中的其他單詞預測一個隱藏的單詞來學習語言。
另一個典型的例子是谷歌 BERT,其 AI 語言模型不僅可以根據前文內容進行預測,還可以基于后文展開,也就是說該模型采用了雙向語言模型的方式,能夠更好的融合前后文的知識。
由 Yann LeCun 領導的 Facebook AI 研究部門一直都看好自我監督。比如,他們首先會訓練出一個語言模型,然后進行預訓練,并對其進行微調以進行仇恨言論的識別。Facebook 還開源了其自我監督語音識別模型,很好地解決了小型研究項目對人工標記文本的需求問題。非英語語言的標注訓練數據往往數量有限,針對這個問題, Facebook 開源了代碼 wav2vec,這對非英語語言的語音識別尤其有用。
以上就是怎樣解決AI的小數據問題,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。