91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python數據處理及可視化的示例分析

發布時間:2022-03-22 09:31:51 來源:億速云 閱讀:167 作者:小新 欄目:編程語言

這篇文章主要介紹Python數據處理及可視化的示例分析,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

一、NumPy的初步使用

表格是數據的一般表示形式,但對于機器來說是不可理解的,也就是無法辨識的數據,所以我們需要對表格的形式進行調整。
常用的機器學習表示形式為數據矩陣。
Python數據處理及可視化的示例分析
我們觀察這個表格,發現,矩陣中的屬性有兩種,一種是數值型,一種是布爾型。那么我們現在就建立模型描述這個表格:

#  數據的矩陣化import numpy as np
data = np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],
              [4,116,70.8,1,False],[5,270,150,4,True]])row = 0for line in data:
    row += 1print( row )print(data.size)print(data)

這里第一行代碼的意思就是引入NumPy將其重命名為np。第二行我們使用NumPy中的mat()方法建立一個數據矩陣,row是引入的計算行數的變量。
這里的size意思就是5*5的一個表格,直接打印data就可以看到數據了:
Python數據處理及可視化的示例分析

二、Matplotlib包的使用–圖形化數據處理

我們還是看最上面的表格,第二列是房價的差異,我們想直觀的看出差別是不容易的(因為只有數字),所以我們希望能夠把它畫出來(研究數值差異和異常的方法就是繪制數據的分布程度):

import numpy as npimport scipy.stats as statsimport pylab
data =  np.mat([[1,200,105,3,False],[2,165,80,2,False],[3,184.5,120,2,False],
              [4,116,70.8,1,False],[5,270,150,4,True]])coll = []for row in data:
    coll.append(row[0,1])stats.probplot(coll,plot=pylab)pylab.show()

這個代碼的結果就是生成一個圖:
Python數據處理及可視化的示例分析
這樣我們就能清晰的看出來差異了。

一個坐標圖的要求,就是通過不同的行和列表現出數據的具體值。
當然,坐標圖我們一樣可以展示:
Python數據處理及可視化的示例分析Python數據處理及可視化的示例分析

三、深度學習理論方法–相似度計算(可以跳過)

相似度的計算方法有很多,我們選用最常用的兩種,即歐幾里得相似度和余弦相似度計算。

1、基于歐幾里得距離的相似度計算

歐幾里得距離,用來表示三維空間中兩個點的真實距離。公式我們其實都知道,只是名字聽的少:
Python數據處理及可視化的示例分析
那么我們來看一看它的實際應用:
這個表格是3個用戶對物品的打分:
Python數據處理及可視化的示例分析
d12表示用戶1和用戶2的相似度,那么就有:
Python數據處理及可視化的示例分析
同理,d13:
Python數據處理及可視化的示例分析
可見,用戶2更加相似于用戶1(距離越小,相似度越大)。

2、基于余弦角度的相似度計算

余弦角度的計算出發點是夾角的不同。
Python數據處理及可視化的示例分析
Python數據處理及可視化的示例分析
可見相對于用戶3,用戶2與用戶1更為相似(兩個目標越相似,其線段形成的夾角越小)

四、數據統計的可視化展示(以我們亳州市降水為例)

數據的四分位

四分位數,是統計學中分位數的一種,也就是把數據由小到大排列,之后分成四等份,處于三個分割點位置的數據,就是四分位數。
第一四分位數(Q1),也稱下四分位數
第二四分位數(Q1),也稱中位數
第三四分位數(Q1),也稱下四分位數

第三四分位數與第一四分位數的差距又稱為四分差距(IQR)。

若n為項數,則:
Q1的位置 = (n+1)*0.25
Q2的位置 = (n+1)*0.50
Q3的位置 = (n+1)*0.75

四分位示例:
關于這個rain.csv,有需要的可以私我要文件,我使用的是亳州市2010-2019年的月份降水情況。

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()print(summary)array = dataFile.iloc[:,:].values
boxplot(array)plot.xlabel("year")plot.ylabel("rain")show()

以下是plot運行結果:
Python數據處理及可視化的示例分析
這個是pandas的運行
Python數據處理及可視化的示例分析
這里就可以很清晰的看出來數據的波動范圍。
可以看出,不同月份的降水量有很大差距,8月最多,1-4月和10-12月最少。

那么每月的降水增減程度如何比較?

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()minRings = -1maxRings = 99nrows = 11for i in range(nrows):
    dataRow = dataFile.iloc[i,1:13]
    labelColor = ( (dataFile.iloc[i,12] - minRings ) / (maxRings - minRings) )
    dataRow.plot(color = plot.cm.RdYlBu(labelColor),alpha = 0.5)plot.xlabel("Attribute")plot.ylabel(("Score"))show()

結果如圖:
Python數據處理及可視化的示例分析
可以看出來降水月份并不規律的上漲或下跌。

那么每月降水是否相關?

from pylab import *import pandas as pdimport matplotlib.pyplot as plot
filepath = ("C:\\Users\\AWAITXM\\Desktop\\rain.csv")# "C:\Users\AWAITXM\Desktop\rain.csv"dataFile = pd.read_csv(filepath)summary = dataFile.describe()corMat = pd.DataFrame(dataFile.iloc[1:20,1:20].corr())plot.pcolor(corMat)plot.show()

結果如圖:
Python數據處理及可視化的示例分析
可以看出,顏色分布十分均勻,表示沒有多大的相關性,因此可以認為每月的降水是獨立行為。

以上是“Python數據處理及可視化的示例分析”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

尼勒克县| 扶绥县| 山东省| 南木林县| 富平县| 富宁县| 五华县| 女性| 金沙县| 冷水江市| 乡宁县| 富平县| 苏尼特右旗| 盱眙县| 桑日县| 莎车县| 遵化市| 黔西| 神农架林区| 轮台县| 保山市| 读书| 喀喇沁旗| 松潘县| 南昌市| 永城市| 平度市| 寻乌县| 丹东市| 灵石县| 温泉县| 仁寿县| 菏泽市| 罗田县| 崇仁县| 乌拉特前旗| 叶城县| 蓝山县| 正蓝旗| 潼关县| 岢岚县|