您好,登錄后才能下訂單哦!
這篇文章給大家介紹用Python代碼實現5種最好的、簡單的數據可視化分別是怎樣的,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
數據可視化是數據科學家工作的重要組成部分。在項目的早期階段,您通常會進行探索性數據分析(EDA)以獲得對數據的一些見解。創建可視化確實有助于使事情更清晰、更容易理解,尤其是對于更大、更高維度的數據集。在項目即將結束時,能夠以清晰、簡潔和引人注目的方式呈現您的最終結果非常重要,以便您的受眾(通常是非技術客戶)能夠理解。
Matplotlib是一個流行的Python庫,可用于輕松創建數據可視化。但是,每次執行新項目時,設置數據、參數、數字和繪圖都會變得相當混亂和乏味。在這篇博文中,我們將看看6個數據可視化,并使用Python的Matplotlib為它們編寫一些快速簡便的函數。與此同時,這是一個很好的圖表,可以為工作選擇正確的可視化!
散點圖
散點圖非常適合顯示兩個變量之間的關系,因為您可以直接查看數據的原始分布。您還可以通過對組進行顏色編碼來簡單地查看不同數據組的這種關系,如下圖所示。想要想象三個變量之間的關系?沒問題!只需使用另一個參數(如點大小)來編碼第三個變量,我們可以在下面的第二個圖中看到。
現在來看代碼。我們首先使用別名“plt”導入Matplotlib的pyplot。為了創建一個新的情節圖,我們調用plt.subplots()。將x軸和y軸數據傳遞給函數,然后將它們傳遞給ax.scatter()以繪制散點圖。我們還可以設置磅值、點顏色和Alpha透明度。您甚至可以將y軸設置為對數刻度。然后專門為圖形設置標題和軸標簽。這很容易使用一個端到端創建散點圖的函數!
線形圖
當您可以清楚地看到一個變量與另一個變量差異很大,即它們具有高協方差時,最好使用線圖。我們來看看下圖來說明,可以清楚地看到,所有專業的百分比隨時間變化很大。使用散點圖繪制這些圖形會非常混亂,這使得我們很難真正理解并看到發生了什么。線圖非常適合這種情況,因為它們基本上可以快速總結兩個變量的協方差(百分比和時間)。同樣,我們也可以通過顏色編碼進行分組。
這是線形圖的代碼。它與上面的散點非常相似。只有一些變量的微小變化。
直方圖
直方圖可用于查看(或實際發現)數據點的分布。查看下面的直方圖,我們繪制頻率與IQ直方圖。我們可以清楚地看到中心的濃度和中位數。我們還可以看到它遵循高斯分布。使用條(而不是散點)確實可以清楚地看到每個箱的頻率之間的相對差異。使用分檔(離散化)確實有助于我們看到“更大的圖像”,而如果我們使用所有數據點而沒有離散分檔,可視化中可能會有很多噪聲,這使得很難看到真正發生了什么。
Matplotlib中直方圖的代碼如下所示。有兩個參數需要注意。首先,n_bins參數控制我們的直方圖所需的離散區數。更多的bins會給我們更好的信息,但也可能會引入噪音;另一方面,較少的bins給我們提供了更多的“鳥瞰圖”,并且沒有更精細的細節,更能了解正在發生的事情。其次,累積參數是一個布爾值,它允許我們選擇我們的直方圖是否累積。這基本上是選擇概率密度函數(PDF)或累積密度函數(CDF)。
想象一下,我們想要比較數據中兩個變量的分布。有人可能會認為你必須制作兩個單獨的直方圖并將它們并排放置以進行比較。但是,實際上有更好的方法:我們可以用不同的透明度覆蓋直方圖。看看下圖,統一分布設置為透明度為0.5,以便我們可以看到它背后的內容。這允許用戶直接在同一圖上查看兩個分布。
在代碼中為疊加的直方圖設置了一些東西。首先,我們設置水平范圍以適應兩個變量分布。根據這個范圍和所需的箱數,我們實際上可以計算每個箱的寬度。最后,我們在同一個圖上繪制兩個直方圖,其中一個直方圖略微透明。
條形圖
當您嘗試可視化具有少量(可能<10個)類別的分類數據時,條形圖最有效。如果我們的類別太多,那么圖中的條形圖將非常混亂并且難以理解。它們適用于分類數據,因為您可以根據條形圖的大小(即幅度)輕松查看類別之間的差異;類別也很容易劃分顏色編碼。我們將看到3種不同類型的條形圖:常規、分組和堆疊。隨著我們的進展,請查看下圖中的代碼。
常規的條形圖在下面的第一個圖中。在barplot()函數中,x_data表示x軸上的代碼,y_data表示y軸上的條形高度。誤差條是以每個條形為中心的額外線條,可以繪制以顯示標準偏差。
分組條形圖允許我們比較多個分類變量。看看下面的第二個條形圖。我們比較的第一個變量是分數如何按組(G1,G2,......等組)變化。我們還將性別本身與顏色代碼進行比較。看一下代碼,y_data_list變量現在實際上是一個列表,其中每個子列表代表一個不同的組。然后我們遍歷每個組,對于每個組,我們在x軸上繪制每個刻度線的條形圖;每組也有顏色編碼。
堆積條形圖非常適合可視化不同變量的分類構成。在下面的堆積條形圖中,我們將比較日常的服務器負載。通過顏色編碼堆棧,我們可以輕松查看和了解哪些服務器每天工作最多,以及負載如何與所有日期的其他服務器進行比較。此代碼遵循與分組條形圖相同的樣式。我們遍歷每個組,除了這次我們在舊組之上而不是在它們旁邊繪制新條。
直方圖
我們之前查看過直方圖,這些直方圖非常適合可視化變量的分布。但是如果我們需要更多信息呢?也許我們想要更清晰地看待標準偏差?也許中位數與均值有很大不同,因此我們有很多異常值?如果存在這樣的偏差并且許多值集中在一邊怎么辦?
這就是箱形圖出現的原因。箱形圖給出了上述所有信息。實線框的底部和頂部始終是第一和第三四分位數(即數據的25%和75%),框內的頻帶始終是第二個四分位數(中位數)。晶須(即帶有條形末端的虛線)從盒子中伸出,以顯示數據的范圍。
由于為每個組/變量繪制了框圖,因此很容易設置。x_data是組/變量的列表。Matplotlib函數boxplot()為y_data的每一列或序列y_data中的每個向量創建一個盒子圖;因此,x_data中的每個值對應于y_data中的列/向量。我們所要設定的只是情節的美學。
關于用Python代碼實現5種最好的、簡單的數據可視化分別是怎樣的就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。