您好,登錄后才能下訂單哦!
本篇內容主要講解“數據庫索引與全表掃描有什么區別”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“數據庫索引與全表掃描有什么區別”吧!
磁盤結構和基本耗時
磁盤的組織結構 盤片->磁道->扇區。由于盤片是并行操作的,因此可以忽略尋找盤片的時間。所以基本上要找一個數據需要找到對應的磁道(類似樹的年輪),再找對應的扇區(一段扇形)。
磁盤性能的主要度量指標有以下幾個:
訪問時間:從發出讀寫請求到數據開始傳輸之間的時間。也就是磁盤定位數據的時間,在程序中就是那個 seek。訪問時間包括尋道時間(找磁道)和旋轉等待時間(找扇區)。一般在幾毫秒級。
數據傳輸率:在定位數據之后。就開始將數據從磁盤和內存之間傳輸了。這個時間一般每秒幾十MB。
順序訪問 vs 隨機訪問
磁盤上的文件是一塊一塊組織的,這里的塊(block)是邏輯概念,可能512字節到幾KB。從磁盤讀數據需要一塊一塊讀。即使你只讀1Byte數據,也會讀一塊。
順序訪問:連續訪問磁盤相鄰的塊。這樣磁盤只需要一次磁盤尋道。
隨機訪問:隨機訪問磁盤不同位置的塊,一般每次只讀少量數據。這樣磁盤每處理一個隨機訪問請求就需要一次磁盤尋道。隨機訪問的效率遠低于順序訪問。
存儲模型
硬件:磁盤數據傳輸率記做 T,平均訪問時間記為 S。
數據:一個包含 N 個數據的數據集,數據是可比較的。數據在磁盤上無序存儲,數據均勻分布。每個數據所占空間為 X,那么數據的總大小為 NX。
這張圖表示數據在磁盤上的存放順序:
索引:在數據上建立索引,索引可以看成數據的一種映射,一種表示方式。可以全部放在內存中,并且精確定位原始數據。
查詢流程
查詢模式:查詢有過濾條件,假設過濾條件的選擇度為 F,意思是查詢結果集占總數據量的 F 倍,F 處于 [0,1] 之間。
現在有兩種查詢方式:全表掃描、索引。全表掃描和索引都是邏輯概念。
全表掃描:最簡單的查詢操作。即將數據從磁盤上一個個讀到內存中做過濾,最后返回結果。這種方式的特點是不管數據有沒有用,都先讀出來,磁盤讀取數據總量大,但是seek只有一次。對應磁盤的順序訪問。
黃色表示需要從磁盤讀到內存中的數據,全表掃描時候就是這樣:
全表掃描總耗時 = IO耗時 = NX/T
索引:由于磁盤上數據是亂序的,我們建一個B+樹索引,并在內存中維護索引,索引將所有數據排序,并記錄對應的磁盤位置。在查詢時,首先在索引上過濾出所有結果集在磁盤上的位置,再到磁盤上去精確讀取結果集。這種包括少量的磁盤IO+大量的 seek。對應磁盤的隨機訪問。
效果圖如下圖:磁盤的操作為定位一個數據,讀取,再定位下一個數據......
Seek耗時:NFS
IO耗時:NFX/T
索引查詢總耗時 = Seek耗時 + IO 耗時 = NFS + NFX/T
比較
接下來看看這些參數,在不考慮更新硬件時,磁盤吞吐率 T、平均訪問耗時 S、數據量 N、每個數據大小 X 都是常量,沒得改。
一共就 NTFSX 五個參數,接下來只有 F 了,這個東西是個變量,取決于查詢過濾條件。比如你想查身高150以上的男生,這個過濾條件就沒啥區分度,可能 F=0.8,大部分都會被選出來,但是如果查190以上的男生,可能 F=0.1,只有一小部分會被選出來。
有區別就有不同的應對措施,我們可以根據 F 選擇查索引還是全表掃描。直接算一下什么時候索引查詢比全表掃描快,也就是下邊這個式子:
NFS + NFX/T < NX/T
即:F < X / (TS+X)
可以看到,跟總數據量沒關系,當 F 足夠小的時候,選擇索引比較好。如果結果集比較多,seek過多,那么全表掃描是更優的。
例子
舉個實際例子感受一下:
平均Seek時間: S=5 ms
磁盤吞吐率:T=300 MB/s
單個數據大小:X=128 Byte
這個時候,過濾條件的選擇度需要小于 0.008%。
到此,相信大家對“數據庫索引與全表掃描有什么區別”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。