您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關R語言入門及描述性統計分析的方法是什么,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
今天要給大家講講R語言,主要是入門基礎及簡單的統計分析入門。
R語言其實算是我正式接觸編程語言的第一門語言,大學學的C++,matlab簡直是水到家了。所以剛開始學R語言的時候,我很痛苦,你知道嗎。大約經歷了1個月的磨合期,逐漸對R有了點認識,知道怎么去學了,都有哪些東西,當然最開始還是找度娘,看什么書,怎么安裝等等之類的abc的問題。和大多數人學習的入門書籍一樣,我也是從《R語言實戰》這本書開始的,但是現在看來,我覺得這本書,只需要看前7章的內容就可以了,因為后面的是涉及到具體模型的內容,如果你沒有一個具體的實際問題去解決的話,學了也作用不大,畢竟我們不是為了考試。好了,先扯這么多,下面進入正題。
# 如何使用R
## 安裝
Windows
下載地址:
https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/windows/
Windows的安裝比較簡單了,.exe文件,基本都是next就ok了。
需要說的是,有時候我們需要使用某個package的時候,R報錯說不支持當前R版本,這時候,就需要安裝比較老的R版本,這里給一個舊版本的R鏈接,需要哪個版本的可以直接下。
https://cran.r-project.org/bin/windows/base/old/
還有一個問題,就是怎么更新R,現在R的最新版本是3.4.1.那么當下一個版本出來的時候,怎么更新呢。最笨的辦法就是下載新版本,然后把舊版本卸載了。但是當你使用了一段時間R以后,必然會安裝很多個packages,R安裝包并不大,但是加上packages的話,總共就很大了,我記得我最多的時候,安裝了好幾百個packages。這里要教大家一招是,在卸載R之前,把R安裝目錄中的library文件夾先復制出來另存,然后安裝完新版本的R以后,在把其中的文件復制到新安裝的library文件夾下面。一般在windows中,R的安裝目錄默認為:
C:\ProgramFiles\R\R-3.4.0\library
然后是怎么在Ubuntu中安裝,也可以參考文檔:
https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/linux/ubuntu/README.html
依次執行下面三條命令,就ok了。
sudo apt-get update
sudo apt-get install r-base
sudo apt-get install r-base-dev
然后,在Ubuntu中安裝完R之后,直接在shell里面輸入R,就會進入到R環境中,但是這樣寫代碼是很累的,所以這里推薦大家使用Sublim Text 作為R的Ubuntu中的IDE。環境搭建也很簡單,主要是安裝SublimeREPL這個拓展包,在sublim中快捷鍵Ctrl+shift+P輸入install,會出來install package,然后輸入SublimeREPL就可以安裝了。安裝完了以后,在
Preferences > Package Settings >SublimeREPL > Settings-User
輸入以下內容:
{
"default_extend_env": {"PATH": "{PATH}; 這里寫你的安裝目錄"},
"show_transferred_text": true
}
在windows在還有一個工具可以使用,就是R的IDE,相比于Python的IDE數量,比較好用的IDE也就是Rstudio了。,直接下載安裝就對了。
地址:https://www.rstudio.com/products/rstudio/download/
關于Rstudio的使用,我就想說一個問題,怎么設置R的編譯器。選擇
Tools—>Global options
可以選擇不同的R版本,尤其是對于安裝了不同版本的R用戶來說,就很關鍵。當然如果你只安裝了一個版本的R,是不需要設置的,Rstudio在安裝的時候,會自動幫我們設置好。
好,其他的都可以先不用管,到這里環境就搭好了。
然后對于入門來說,基本的R概念,變量,數據結構等今天就不展開講了,下面講幾種R中進行描述性統計分析的方法。什么是描述性統計分析呢?簡單說就是根據樣本計算樣本統計量。比如均值,最大值,最小值,方差,分位數,偏度,蜂度等。然后通過例子,你也可以大致了解一下,R語言的一些使用方法和特點。
R中單行注釋用#來表示,不支持多行注釋,如果要多行注釋,只能使用多個#。還有一個要說的是,Rstudio中多行注釋的快捷鍵是Ctrl+Shift+C,取消注釋也是Ctrl+Shift+C。關于快鍵鍵,強烈推薦大家自己去百度一下,把常用的記住,可以提高效率。
# 設置R工作目錄,setwd
setwd("F:/R_learn/")
# R語言的強大之處很重要的原因是R有很多packages,
# 這些Packages給我們提供了非常便利的工具。所以首先要
# 學會怎么安裝 packages,用下面這個命令,相當于Python的pip install 。
install.packages("psych")
# 安裝好了以后,就需要加載進來,相當于Python的import。
library(psych)
# 讀取csv文件,R
test_data <-read.csv("da.csv", header = F, sep = ",")
# 查看數據類型
class(test_data)
# [1] "data.frame"
# 查看數據前5行
head(test_data)
# V1 V2 V3
# 1 25 26 27
# 2 36 37 38
# 3 47 48 49
# 4 58 59 60
# 5 69 70 71
# 6 80 81 82
# R中數據框的索引,使用美元符號,后面加列名。
col1 <- test_data$V1
# 描述性統計分析
summary(col1)
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 25.00 44.25 63.50 63.50 82.75 102.00
summary(test_data)
# V1 V2 V3
# Min. : 25.00 Min. : 26.00 Min. : 27.00
# 1st Qu.: 44.25 1st Qu.: 45.25 1st Qu.: 46.25
# Median : 63.50 Median : 64.50 Median : 65.50
# Mean : 63.50 Mean : 64.50 Mean : 65.50
# 3rd Qu.: 82.75 3rd Qu.: 83.75 3rd Qu.: 84.75
# Max. :102.00 Max. :103.00 Max. :104.00
# 然后我們使用psych包提供的另外一個函數,看一下
describe(col1)
# vars n mean sd median trimmed mad min max range skew kurtosis se
# 1 1 8 63.5 26.94 63.5 63.5 32.62 25 102 77 0 -1.65 9.53
describe(test_data)
# vars n mean sd median trimmed mad min max range skew kurtosis se
# V1 1 8 63.5 26.94 63.5 63.5 32.62 25 102 77 0 -1.65 9.53
# V2 2 8 64.5 26.94 64.5 64.5 32.62 26 103 77 0 -1.65 9.53
# V3 3 8 65.5 26.94 65.5 65.5 32.62 27 104 77 0 -1.65 9.53
# 可以看到describe比summary多了幾個,trimmed表示截尾均值,skew表示偏# 度, kurtosis表示峰度,se表示標準誤差;
以上就是R語言入門及描述性統計分析的方法是什么,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。