您好,登錄后才能下訂單哦!
這篇文章主要介紹了r語言中如何使用reshape2包將寬型數據轉換成長型數據的相關知識,內容詳細易懂,操作簡單快捷,具有一定借鑒價值,相信大家閱讀完這篇r語言中如何使用reshape2包將寬型數據轉換成長型數據文章都會有所收獲,下面我們一起來看看吧。
對于寬型數據,每列代表一個不同的變量。例如datasets包中的mtcars數據集就是寬型數據:
# Wide format mpg cyl disp hp drat wt qsec vs am gear carb Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4 Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4 Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1 Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2 Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
對于長型數據,一列包含了所有可能的變量,另一列是對應的取值。上面的數據可以用長型數據來表示:
# Long format variable value 1 mpg 21.0 2 mpg 21.0 3 mpg 22.8 4 mpg 21.4 5 mpg 18.7 6 mpg 18.1 ... variable value 347 carb 2 348 carb 2 349 carb 4 350 carb 6 351 carb 8 352 carb 2
長型數據可以包含兩個以上的列,尤其是提供ID變量的時候。如下所述。
在實際應用中,寬型數據更具可讀性,長型數據則更適合做分析。因此,知道如何在它們之間進行轉換非常有用。
reshape2包中兩個主要的函數是:
melt——將寬型數據融合成長型數據
cast——將長型數據轉成寬型數據
接下來,我們在datasets包中的mtcars數據集上進行操作。它一開始是上面展示的寬型數據。我們要把它融合成下面的長型數據:
mtcars$car <- rownames(mtcars) mtcarsMelt <- melt(mtcars) head(mtcarsMelt) car variable value 1 Mazda RX4 mpg 21.0 2 Mazda RX4 Wag mpg 21.0 3 Datsun 710 mpg 22.8 4 Hornet 4 Drive mpg 21.4 5 Hornet Sportabout mpg 18.7 6 Valiant mpg 18.1
注:譯者在R里得到的是melt自動選取car作為ID變量,原文是選取car和cyl作為ID變量。要得到相同結果只需在參數id.vars中指定相應變量即可。
我們可以通過參數variable.name和value.name分別對variable和value列重命名。例如,我們想對所有的汽車根據它的汽缸數和齒輪數做分類。可以像下面這樣:
mtcarsMelt <- melt(mtcars, id.vars = c('cyl', 'gear'), variable.name = 'carVariable', value.name = 'carValue') head(mtcarsMelt) cyl gear carVariable carValue 1 6 4 mpg 21 2 6 4 mpg 21 3 4 4 mpg 22.8 4 6 3 mpg 21.4 5 8 3 mpg 18.7 6 6 3 mpg 18.1 tail(mtcarsMelt) cyl gear carVariable carValue 315 4 5 car Porsche 914-2 316 4 5 car Lotus Europa 317 8 5 car Ford Pantera L 318 6 5 car Ferrari Dino 319 8 5 car Maserati Bora 320 4 4 car Volvo 142E
通常,使用變量組合來唯一的識別每個數據點個好辦法,但是這里有多個點的cyl和gear組合值卻是相同的,這不是好的辦法。當你需要把數據轉回寬型數據時會有點問題了(下面會看到)。
cast函數的作用是將長型數據轉成寬型數據。cast函數的兩種主要類型是:
dcast——返回的結果是一個數據框
acast——返回的結果可以是向量、矩陣或者數組
由于數據框對象是最常見的,我將演示如何使用dcast。下面展示的是長型數據轉回成寬型數據:
mtcarsMelt <- melt(mtcars) mtcarsCast <- dcast(mtcarsMelt, car ~ variable) head(mtcarsCast) car mpg cyl disp hp drat wt qsec vs am gear carb 1 AMC Javelin 15.2 8 304 150 3.15 3.435 17.30 0 0 3 2 2 Cadillac Fleetwood 10.4 8 472 205 2.93 5.250 17.98 0 0 3 4 3 Camaro Z28 13.3 8 350 245 3.73 3.840 15.41 0 0 3 4 4 Chrysler Imperial 14.7 8 440 230 3.23 5.345 17.42 0 0 3 4 5 Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1 6 Dodge Challenger 15.5 8 318 150 2.76 3.520 16.87 0 0 3 2
dcast函數通過一個式子來把數據轉成寬型數據。在本篇譯文中,由于我在R上自動的到ID變量只有car,所以我給出的式子是car ~ variable。這里car是ID變量,variable變量列的名稱。要想跟原文一樣只需在melt時指定id.vars參數即可。
如果我們指定cyl和gear作為ID變量融合數據后,再轉回寬型變量時,會得到如下所示的結果:
mtcarsCast <- dcast(mtcarsMelt, cyl + gear ~ variable) head(mtcarsCast) cyl gear mpg disp hp drat wt qsec vs am carb car 1 4 3 1 1 1 1 1 1 1 1 1 1 2 4 4 8 8 8 8 8 8 8 8 8 8 3 4 5 2 2 2 2 2 2 2 2 2 2 4 6 3 2 2 2 2 2 2 2 2 2 2 5 6 4 4 4 4 4 4 4 4 4 4 4 6 6 5 1 1 1 1 1 1 1 1 1 1
會得到警告信息:Aggregation function missing: defaulting to length。數據集顯示的是每個cyl和gear組合的總的觀測數。這是因為dcast函數不能唯一標識每個數據點。然而,它還有其他用處。例如,我們通過如下所示的fun.aggregate參數可以得到每個cyl和gear組合值所對應的所有變量的平均值。
mtcars$car <- NULL mtcarsMelt <- melt(mtcars, id.vars = c('cyl', 'gear')) mtcarsCast <- dcast(mtcarsMelt, cyl + gear ~ variable, fun.aggregate = mean) head(mtcarsCast) cyl gear mpg disp hp drat wt qsec vs am carb 1 4 3 21.500 120.100 97.0 3.70 2.465000 20.0100 1.0 0.00 1.0 2 4 4 26.925 102.625 76.0 4.11 2.378125 19.6125 1.0 0.75 1.5 3 4 5 28.200 107.700 102.0 4.10 1.826500 16.8000 0.5 1.00 2.0 4 6 3 19.750 241.500 107.5 2.92 3.337500 19.8300 1.0 0.00 1.0 5 6 4 19.750 163.800 116.5 3.91 3.093750 17.6700 0.5 0.50 4.0 6 6 5 19.700 145.000 175.0 3.62 2.770000 15.5000 0.0 1.00 6.0
這里,我們刪除了car列。這是因為我們不希望在mtcarsMelt的value列里存在非數值型數據,否則會得到錯誤。
關于“r語言中如何使用reshape2包將寬型數據轉換成長型數據”這篇文章的內容就介紹到這里,感謝各位的閱讀!相信大家對“r語言中如何使用reshape2包將寬型數據轉換成長型數據”知識都有一定的了解,大家如果還想學習更多知識,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。