您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關python中怎么實現一個數據切割歸并算法,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。
一:獲取總數據的行
def get_file_lines(file_path): # 目標文件的路徑 file_path = str(file_path) with open(file_path, 'rb') as file: # 定義行數 i = 0 while True: # 一次讀取一行數據 line = file.readline() if not line : break else: # 每讀一行,行數加一 i += 1 #設置進度條,每當i讀取1000000行時打印一次i # 每當讀取1000000的整數倍行時,打印行數(進度條) if i % 1000000 == 0: print(i) # 打印總行數 print(i) return i
二:對數據進行切割
# 定義均等切割函數,num是待切割的文件的行數的值,n為切割份數,file_path是待切割的文件,file_dir是切割好的文件寫入的目錄 def evg_split(num, n, file_path, file_dir): last_list = [] # 如果樣本剛好可以整除為n份 if num % n == 0: for i in range(n): # 則直接將樣本分為n分沒份對應num/n個 last_list.append(num / n) # 如果不能整除 if num % n != 0: # 如果不能整除,則先將num整除n-1并取n-1份,余下的單獨做一份 evg = (num - num % n) // (n - 1) for i in range(n): last_list.append(evg) last_list.append(num % (n - 1)) print(last_list) # return last_list # 對應于切割后的每一份數據 with open(file_path, 'rb') as path: for i in range(n): # 創建臨時文件 tmp_file = file_dir + str(i) + '.txt' # 打開臨時文件,將內容一條一條的寫入 file = open(tmp_file, 'wb') for j in range(int(last_list[i])): line = path.readline() file.write(line) print(line) print('------------') file.close()
三:對每組數據進行排序的內容由讀者根據自身數據需要進行排序,下面直接介紹歸并排序
四:歸并排序
def merge( mylist1, mylist2, file1): while len(mylist1) > 0 and len(mylist2) > 0: if mylist1[0]<mylist2[0]: with open(file1,'a') as file: file.write(str(mylist1[0])) del mylist1[0] elif mylist1[0] > mylist2[0]: with open(file1,'a') as file: file.write(str(mylist2[0])) del mylist2[0] else: with open(file1,'a') as file: file.write(str(mylist1[0])) file.write(str(mylist2[0])) del mylist1[0] del mylist2[0] with open(file1, 'a') as file: for i in mylist1: file.write(str(i)) for i in mylist2: file.write(str(i))
總結:對于一個大型數據文件,我們可以將其切割成若干個小型的數據文件,然后分別的這些小型的數據文件進行排序,最后使用歸并排序將這些數據文件寫入到一個總體文件中,從而實現了對這個大型數據文件的排序。
看完上述內容,你們對python中怎么實現一個數據切割歸并算法有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注億速云行業資訊頻道,感謝大家的支持。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。