pandas如何提升計算效率

發布時間：2021-05-30 17:59:32 來源：億速云閱讀：224 作者：小新欄目：開發技術

這篇文章給大家分享的是有關pandas如何提升計算效率的內容。小編覺得挺實用的，因此分享給大家做個參考，一起跟隨小編過來看看吧。

前言

Pandas是為一次性處理整個行或列的矢量化操作而設計的，循環遍歷每個單元格、行或列并不是它的設計用途。所以，在使用Pandas時，你應該考慮高度可并行化的矩陣運算。

一、避免使用for循環

盡量使用列號或者行號進行矩陣檢索，避免使用for循環。

1.1使用for循環

import os
import pandas as pd
import datetime

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'
def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()
a = read_csv(path)
for i in range(10000):
    b = a.iloc[i]
end_time = datetime.datetime.now()

print(end_time-start_time)

耗時：0:00:02.455211

1.2使用行號檢索

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

b = a.iloc[10000]

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時：0:00:00.464756

二、使用for循環的條件下提高效率

2.0 如果必須使用for循環如何提高效率

我們可以做的最簡單但非常有價值的加速是使用Pandas的內置 .iterrows() 函數。

在上一節中編寫for循環時，我們使用了 range() 函數。然而，當我們在Python中對大范圍的值進行循環時，生成器往往要快得多。

Pandas的 .iterrows() 函數在內部實現了一個生成器函數，該函數將在每次迭代中生成一行Dataframe。更準確地說，.iterrows() 為DataFrame中的每一行生成(index, Series)的對（元組）。這實際上與在原始Python中使用 enumerate() 之類的東西是一樣的，但運行速度要快得多！

生成器（Generators）
生成器函數允許你聲明一個行為類似迭代器的函數，也就是說，它可以在for循環中使用。這大大簡化了代碼，并且比簡單的for循環更節省內存。

當你想要處理一個龐大的列表時，比如10億個浮點數，問題就出現了。使用for循環，在內存中創建了大量的內存huge列表，并不是每個人都有無限的RAM來存儲這樣的東西！

生成器將創建元素時，僅在需要時將它們存儲在內存中。一次一個。這意味著，如果必須創建10億個浮點數，那么只能一次將它們存儲在內存中。Python中的range()函數使用生成器來構建列表。

也就是說，如果你想多次迭代列表并且它足夠小以適應內存，那么使用for循環和range函數會更好。這是因為每次訪問list值時，生成器和range都會重新生成它們，而range是一個靜態列表，并且內存中已存在整數以便快速訪問。

2.1使用range

import os
import pandas as pd
import datetime

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

for data_row in range(a.shape[0]):
    b = a.iloc[data_row]

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時:0:00:07.642816

2.2使用 .iterrows() 代替 range

import os
import pandas as pd
import datetime
path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

for index,data_row in a.iterrows():
    b = data_row

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時：0:00:03.513161

三、使用.apply

iterrows()函數極大地提高了速度，但我們還遠遠沒有完成。請始終記住，當使用為向量操作設計的庫時，可能有一種方法可以在完全沒有for循環的情況下最高效地完成任務。

為我們提供此功能的Pandas功能是 .apply() 函數。apply()函數接受另一個函數作為輸入，并沿著DataFrame的軸（行、列等）應用它。在傳遞函數的這種情況下，lambda通常可以方便地將所有內容打包在一起。

感謝各位的閱讀！關于“pandas如何提升計算效率”這篇文章就分享到這里了，希望以上內容可以對大家有一定的幫助，讓大家可以學到更多知識，如果覺得文章不錯，可以把它分享出去讓更多的人看到吧！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

pandas如何提升計算效率

前言

一、避免使用for循環

二、使用for循環的條件下提高效率

三、使用.apply

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

pandas如何提升計算效率

前言

一、避免使用for循環

二、使用for循環的條件下提高效率

三、使用.apply

猜你喜歡

最新資訊

相關推薦

相關標簽