用十張圖詳解TensorFlow數據讀取機制（附代碼）

發布時間：2020-09-20 23:02:34 來源：腳本之家閱讀：157 作者：李博Garvin 欄目：開發技術

在學習TensorFlow的過程中，有很多小伙伴反映讀取數據這一塊很難理解。確實這一塊官方的教程比較簡略，網上也找不到什么合適的學習材料。今天這篇文章就以圖片的形式，用最簡單的語言，為大家詳細解釋一下TensorFlow的數據讀取機制，文章的最后還會給出實戰代碼以供參考。

TensorFlow讀取機制圖解

首先需要思考的一個問題是，什么是數據讀取？以圖像數據為例，讀取數據的過程可以用下圖來表示：

假設我們的硬盤中有一個圖片數據集0001.jpg，0002.jpg，0003.jpg……我們只需要把它們讀取到內存中，然后提供給GPU或是CPU進行計算就可以了。這聽起來很容易，但事實遠沒有那么簡單。事實上，我們必須要把數據先讀入后才能進行計算，假設讀入用時0.1s，計算用時0.9s，那么就意味著每過1s，GPU都會有0.1s無事可做，這就大大降低了運算的效率。

如何解決這個問題？方法就是將讀入數據和計算分別放在兩個線程中，將數據讀入內存的一個隊列，如下圖所示：

用十張圖詳解TensorFlow數據讀取機制（附代碼）

讀取線程源源不斷地將文件系統中的圖片讀入到一個內存的隊列中，而負責計算的是另一個線程，計算需要數據時，直接從內存隊列中取就可以了。這樣就可以解決GPU因為IO而空閑的問題！

而在TensorFlow中，為了方便管理，在內存隊列前又添加了一層所謂的“文件名隊列”。

為什么要添加這一層文件名隊列？我們首先得了解機器學習中的一個概念：epoch。對于一個數據集來講，運行一個epoch就是將這個數據集中的圖片全部計算一遍。如一個數據集中有三張圖片A.jpg、B.jpg、C.jpg，那么跑一個epoch就是指對A、B、C三張圖片都計算了一遍。兩個epoch就是指先對A、B、C各計算一遍，然后再全部計算一遍，也就是說每張圖片都計算了兩遍。

TensorFlow使用文件名隊列+內存隊列雙隊列的形式讀入文件，可以很好地管理epoch。下面我們用圖片的形式來說明這個機制的運行方式。如下圖，還是以數據集A.jpg, B.jpg, C.jpg為例，假定我們要跑一個epoch，那么我們就在文件名隊列中把A、B、C各放入一次，并在之后標注隊列結束。

用十張圖詳解TensorFlow數據讀取機制（附代碼）

程序運行后，內存隊列首先讀入A（此時A從文件名隊列中出隊）：

用十張圖詳解TensorFlow數據讀取機制（附代碼）

再依次讀入B和C：

用十張圖詳解TensorFlow數據讀取機制（附代碼）

此時，如果再嘗試讀入，系統由于檢測到了“結束”，就會自動拋出一個異常（OutOfRange）。外部捕捉到這個異常后就可以結束程序了。這就是TensorFlow中讀取數據的基本機制。如果我們要跑2個epoch而不是1個epoch，那只要在文件名隊列中將A、B、C依次放入兩次再標記結束就可以了。

TensorFlow讀取數據機制的對應函數

如何在TensorFlow中創建上述的兩個隊列呢？

對于文件名隊列，我們使用tf.train.string_input_producer函數。這個函數需要傳入一個文件名list，系統會自動將它轉為一個文件名隊列。

此外tf.train.string_input_producer還有兩個重要的參數，一個是num_epochs，它就是我們上文中提到的epoch數。另外一個就是shuffle，shuffle是指在一個epoch內文件的順序是否被打亂。若設置shuffle=False，如下圖，每個epoch內，數據還是按照A、B、C的順序進入文件名隊列，這個順序不會改變：

用十張圖詳解TensorFlow數據讀取機制（附代碼）

如果設置shuffle=True，那么在一個epoch內，數據的前后順序就會被打亂，如下圖所示：

用十張圖詳解TensorFlow數據讀取機制（附代碼）

在TensorFlow中，內存隊列不需要我們自己建立，我們只需要使用reader對象從文件名隊列中讀取數據就可以了，具體實現可以參考下面的實戰代碼。

除了tf.train.string_input_producer外，我們還要額外介紹一個函數：tf.train.start_queue_runners。初學者會經常在代碼中看到這個函數，但往往很難理解它的用處，在這里，有了上面的鋪墊后，我們就可以解釋這個函數的作用了。

在我們使用tf.train.string_input_producer創建文件名隊列后，整個系統其實還是處于“停滯狀態”的，也就是說，我們文件名并沒有真正被加入到隊列中（如下圖所示）。此時如果我們開始計算，因為內存隊列中什么也沒有，計算單元就會一直等待，導致整個系統被阻塞。

用十張圖詳解TensorFlow數據讀取機制（附代碼）

而使用tf.train.start_queue_runners之后，才會啟動填充隊列的線程，這時系統就不再“停滯”。此后計算單元就可以拿到數據并進行計算，整個程序也就跑起來了，這就是函數tf.train.start_queue_runners的用處。

用十張圖詳解TensorFlow數據讀取機制（附代碼）

實戰代碼

我們用一個具體的例子感受TensorFlow中的數據讀取。如圖，假設我們在當前文件夾中已經有A.jpg、B.jpg、C.jpg三張圖片，我們希望讀取這三張圖片5個epoch并且把讀取的結果重新存到read文件夾中。

用十張圖詳解TensorFlow數據讀取機制（附代碼）

對應的代碼如下：

# 導入TensorFlow
import TensorFlow as tf 

# 新建一個Session
with tf.Session() as sess:
  # 我們要讀三幅圖片A.jpg, B.jpg, C.jpg
  filename = ['A.jpg', 'B.jpg', 'C.jpg']
  # string_input_producer會產生一個文件名隊列
  filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)
  # reader從文件名隊列中讀數據。對應的方法是reader.read
  reader = tf.WholeFileReader()
  key, value = reader.read(filename_queue)
  # tf.train.string_input_producer定義了一個epoch變量，要對它進行初始化
  tf.local_variables_initializer().run()
  # 使用start_queue_runners之后，才會開始填充隊列
  threads = tf.train.start_queue_runners(sess=sess)
  i = 0
  while True:
    i += 1
    # 獲取圖片數據并保存
    image_data = sess.run(value)
    with open('read/test_%d.jpg' % i, 'wb') as f:
      f.write(image_data)

我們這里使用filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)建立了一個會跑5個epoch的文件名隊列。并使用reader讀取，reader每次讀取一張圖片并保存。

運行代碼后，我們得到就可以看到read文件夾中的圖片，正好是按順序的5個epoch：

用十張圖詳解TensorFlow數據讀取機制（附代碼）

如果我們設置filename_queue = tf.train.string_input_producer(filename, shuffle=False, num_epochs=5)中的shuffle=True，那么在每個epoch內圖像就會被打亂，如圖所示：

用十張圖詳解TensorFlow數據讀取機制（附代碼）

我們這里只是用三張圖片舉例，實際應用中一個數據集肯定不止3張圖片，不過涉及到的原理都是共通的。

實例：tensorflow讀取圖片的方法

下面講解tensorflow如何讀取jpg格式的圖片，png格式的圖片是一樣的。有兩種情況：

第一種就是把圖片看做是一個圖片直接讀進來，獲取圖片的原始數據，再進行解碼，主要用到的函數就是tf.gfile.FastGFile，tf.image.decode_jpeg

例如：

import tensorflow as tf;  
image_raw_data = tf.gfile.FastGFile('/home/penglu/Desktop/11.jpg').read() 
image = tf.image.decode_jpeg(image_raw_data) #圖片解碼 
print image.eval(session=tf.Session())

輸出：

[[[ 11 63 110]
[ 14 66 113]
[ 17 69 116]
...,

第二種方式就是把圖片看看成一個文件，用隊列的方式讀取

例如：

import tensorflow as tf;   
path = '/home/penglu/Desktop/11.jpg' 
file_queue = tf.train.string_input_producer([path]) #創建輸入隊列 
image_reader = tf.WholeFileReader() 
_, image = image_reader.read(file_queue) 
image = tf.image.decode_jpeg(image) 
 
with tf.Session() as sess: 
  coord = tf.train.Coordinator() #協同啟動的線程 
  threads = tf.train.start_queue_runners(sess=sess, coord=coord) #啟動線程運行隊列 
  print sess.run(image) 
  coord.request_stop() #停止所有的線程 
  coord.join(threads)

輸出：

[[[ 11 63 110]
[ 14 66 113]
[ 17 69 116]
...,

總結

這篇文章主要用圖解的方式詳細介紹了TensorFlow讀取數據的機制，最后還給出了對應的實戰代碼，希望能夠給大家學習TensorFlow帶來一些實質性的幫助。也希望大家多多支持億速云。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

用十張圖詳解TensorFlow數據讀取機制（附代碼）

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

用十張圖詳解TensorFlow數據讀取機制（附代碼）

猜你喜歡

最新資訊

相關推薦

相關標簽