您好,登錄后才能下訂單哦!
使用R語言怎么生成頻數表?很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。
R語言是用于統計分析、繪圖的語言和操作環境,屬于GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用于統計計算和統計制圖的優秀工具。
列聯表不僅可以用來做簡單的描述性統計,還可以在機器學習中用來比較識別正確率,FPR,TPR等等數據,以便我們比較不同的ML模型 or 調參。
Total Observations in Table: 143 | test_cancer$diagnosis lda.class | 0 | 1 | Row Total | -------------|-----------|-----------|-----------| 0 | 82 | 11 | 93 | | 0.882 | 0.118 | 0.650 | | 0.988 | 0.183 | | | 0.573 | 0.077 | | -------------|-----------|-----------|-----------| 1 | 1 | 49 | 50 | | 0.020 | 0.980 | 0.350 | | 0.012 | 0.817 | | | 0.007 | 0.343 | | -------------|-----------|-----------|-----------| Column Total | 83 | 60 | 143 | | 0.580 | 0.420 | | -------------|-----------|-----------|-----------|
推薦使用R中“gmodels”包的CrossTable()函數來做。
## 使用knn模型做預測 knn_pred_1 = knn(train_cancer[,2:4], test_cancer[,2:4], train_cancer$diagnosis, k=1) ## 創建列聯表看預測效果 CrossTable(x = knn_pred_1, y = test_cancer$diagnosis, prop.chisq = FALSE) > Cell Contents |-------------------------| | N | | N / Row Total | | N / Col Total | | N / Table Total | |-------------------------| Total Observations in Table: 143 | test_cancer$diagnosis knn_pred_1 | 0 | 1 | Row Total | -------------|-----------|-----------|-----------| 0 | 77 | 8 | 85 | | 0.906 | 0.094 | 0.594 | | 0.928 | 0.133 | | | 0.538 | 0.056 | | -------------|-----------|-----------|-----------| 1 | 6 | 52 | 58 | | 0.103 | 0.897 | 0.406 | | 0.072 | 0.867 | | | 0.042 | 0.364 | | -------------|-----------|-----------|-----------| Column Total | 83 | 60 | 143 | | 0.580 | 0.420 | | -------------|-----------|-----------|-----------|
在crosstable函數中,prop.chisq 這個argument默認是true,但實際上大部分使用場景不需要這個卡方概率,所以可以單獨在函數中設置prop.chisq = FALSE
CrossTable(x, y, digits=3, max.width = 5, expected=FALSE, prop.r=TRUE, prop.c=TRUE, prop.t=TRUE, prop.chisq=TRUE, chisq = FALSE, fisher=FALSE, mcnemar=FALSE, resid=FALSE, sresid=FALSE, asresid=FALSE, missing.include=FALSE, format=c("SAS","SPSS"), dnn = NULL, ...)
x,y:列聯表的兩個特征向量
digit:指定結果小數位數
prop.r:行比例是否加入
prop.c:列比例是否加入
prop.t:表比例是否加入
prop.chisq:每個單元的卡方值是否加入
chisq:卡方檢驗結果是否加入
頻數表給出了各個特征值出現的頻數,下面使用R自帶的數據集“CO2”舉例
head(CO2) #得到“conc”特征的頻數表 table(CO2$conc)
結果:
95 175 250 350 500 675 1000
12 12 12 12 12 12 12
補充:R--生成各種列聯表
library(vcd) head(Arthritis) table(Arthritis$Treatment,Arthritis$Improved) with(Arthritis,table(Treatment,Improved)) mytable <- xtabs(~Treatment+Improved,data = Arthritis) with(Arthritis,xtabs(~Treatment+Improved,data = Arthritis)) margin.table(mytable,2) # sum by row prop.table(mytable,2) #proportion by column prop.table(mytable) #proportion by total addmargins(mytable) addmargins(mytable,1) addmargins(prop.table(mytable,2),1) library(gmodels) CrossTable(Arthritis$Treatment,Arthritis$Improved) ##SAS format
看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。