您好,登錄后才能下訂單哦!
本篇文章給大家分享的是有關HashMap的加載因子是0.75的原因是什么,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。
HashMap的底層是哈希表,是存儲鍵值對的結構類型,它需要通過一定的計算才可以確定數據在哈希表中的存儲位置:
static final int hash(Object key) { int h; return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); } // AbstractMap public int hashCode() { int h = 0; Iterator<Entry<K,V>> i = entrySet().iterator(); while (i.hasNext()) h += i.next().hashCode(); return h; }
一般的數據結構,不是查詢快就是插入快,HashMap就是一個插入慢、查詢快的數據結構。
但這種數據結構容易產生兩種問題:① 如果空間利用率高,那么經過的哈希算法計算存儲位置的時候,會發現很多存儲位置已經有數據了(哈希沖突);② 如果為了避免發生哈希沖突,增大數組容量,就會導致空間利用率不高。
而加載因子就是表示Hash表中元素的填滿程度。
加載因子 = 填入表中的元素個數 / 散列表的長度
加載因子越大,填滿的元素越多,空間利用率越高,但發生沖突的機會變大了;
加載因子越小,填滿的元素越少,沖突發生的機會減小,但空間浪費了更多了,而且還會提高擴容rehash操作的次數。
沖突的機會越大,說明需要查找的數據還需要通過另一個途徑查找,這樣查找的成本就越高。因此,必須在“沖突的機會”與“空間利用率”之間,尋找一種平衡與折衷。
所以我們也能知道,影響查找效率的因素主要有這幾種:
散列函數是否可以將哈希表中的數據均勻地散列?
怎么處理沖突?
哈希表的加載因子怎么選擇?
本文主要對后兩個問題進行介紹。
Hi = (H(key) + di) MOD m,其中i=1,2,…,k(k<=m-1) H(key)為哈希函數,m為哈希表表長,di為增量序列,i為已發生沖突的次數。其中,開放定址法根據步長不同可以分為3種:
簡單地說,就是以當前沖突位置為起點,步長為1循環查找,直到找到一個空的位置,如果循環完了都占不到位置,就說明容器已經滿了。舉個栗子,就像你在飯點去街上吃飯,挨家去看是否有位置一樣。
相對于線性探查法,這就相當于的步長為di = i2來循環查找,直到找到空的位置。以上面那個例子來看,現在你不是挨家去看有沒有位置了,而是拿手機算去第i2家店,然后去問這家店有沒有位置。
這個就是取隨機數來作為步長。還是用上面的例子,這次就是完全按心情去選一家店問有沒有位置了。
但開放定址法有這些缺點:
這種方法建立起來的哈希表,當沖突多的時候數據容易堆集在一起,這時候對查找不友好; 刪除結點的時候不能簡單將結點的空間置空,否則將截斷在它填入散列表之后的同義詞結點查找路徑。因此如果要刪除結點,只能在被刪結點上添加刪除標記,而不能真正刪除結點; 如果哈希表的空間已經滿了,還需要建立一個溢出表,來存入多出來的元素。
Hi = RHi(key), 其中i=1,2,…,k RHi()函數是不同于H()的哈希函數,用于同義詞發生地址沖突時,計算出另一個哈希函數地址,直到不發生沖突位置。這種方法不容易產生堆集,但是會增加計算時間。
所以再哈希法的缺點是:增加了計算時間。
假設哈希函數的值域為[0, m-1],設向量HashTable[0,…,m-1]為基本表,每個分量存放一個記錄,另外還設置了向量OverTable[0,…,v]為溢出表。基本表中存儲的是關鍵字的記錄,一旦發生沖突,不管他們哈希函數得到的哈希地址是什么,都填入溢出表。
但這個方法的缺點在于:查找沖突數據的時候,需要遍歷溢出表才能得到數據。
將沖突位置的元素構造成鏈表。在添加數據的時候,如果哈希地址與哈希表上的元素沖突,就放在這個位置的鏈表上。
拉鏈法的優點:
處理沖突的方式簡單,且無堆集現象,非同義詞絕不會發生沖突,因此平均查找長度較短; 由于拉鏈法中各鏈表上的結點空間是動態申請的,所以它更適合造表前無法確定表長的情況; 刪除結點操作易于實現,只要簡單地刪除鏈表上的相應的結點即可。 拉鏈法的缺點:需要額外的存儲空間。
從HashMap的底層結構中我們可以看到,HashMap采用是數組+鏈表/紅黑樹的組合來作為底層結構,也就是開放地址法+鏈地址法的方式來實現HashMap。
從上文我們知道,HashMap的底層其實也是哈希表(散列表),而解決沖突的方式是鏈地址法。HashMap的初始容量大小默認是16,為了減少沖突發生的概率,當HashMap的數組長度到達一個臨界值的時候,就會觸發擴容,把所有元素rehash之后再放在擴容后的容器中,這是一個相當耗時的操作。
而這個臨界值就是由加載因子和當前容器的容量大小來確定的:
臨界值 = DEFAULT_INITIAL_CAPACITY * DEFAULT_LOAD_FACTOR
即默認情況下是16x0.75=12時,就會觸發擴容操作。
那么為什么選擇了0.75作為HashMap的加載因子呢?這個跟一個統計學里很重要的原理——泊松分布有關。
泊松分布是統計學和概率學常見的離散概率分布,適用于描述單位時間內隨機事件發生的次數的概率分布。有興趣的讀者可以看看維基百科或者阮一峰老師的這篇文章:泊松分布和指數分布:10分鐘教程[1]
等號的左邊,P 表示概率,N表示某種函數關系,t 表示時間,n 表示數量。等號的右邊,λ 表示事件的頻率。
在HashMap的源碼中有這么一段注釋:
* Ideally, under random hashCodes, the frequency of * nodes in bins follows a Poisson distribution * (http://en.wikipedia.org/wiki/Poisson_distribution) with a * parameter of about 0.5 on average for the default resizing * threshold of 0.75, although with a large variance because of * resizing granularity. Ignoring variance, the expected * occurrences of list size k are (exp(-0.5) * pow(0.5, k) / * factorial(k)). The first values are: * 0: 0.60653066 * 1: 0.30326533 * 2: 0.07581633 * 3: 0.01263606 * 4: 0.00157952 * 5: 0.00015795 * 6: 0.00001316 * 7: 0.00000094 * 8: 0.00000006 * more: less than 1 in ten million
在理想情況下,使用隨機哈希碼,在擴容閾值(加載因子)為0.75的情況下,節點出現在頻率在Hash桶(表)中遵循參數平均為0.5的泊松分布。忽略方差,即X = λt,P(λt = k),其中λt = 0.5的情況,按公式:
計算結果如上述的列表所示,當一個bin中的鏈表長度達到8個元素的時候,概率為0.00000006,幾乎是一個不可能事件。
所以我們可以知道,其實常數0.5是作為參數代入泊松分布來計算的,而加載因子0.75是作為一個條件,當HashMap長度為length/size ≥ 0.75時就擴容,在這個條件下,沖突后的拉鏈長度和概率結果為:
0: 0.60653066 1: 0.30326533 2: 0.07581633 3: 0.01263606 4: 0.00157952 5: 0.00015795 6: 0.00001316 7: 0.00000094 8: 0.00000006
HashMap中除了哈希算法之外,有兩個參數影響了性能:初始容量和加載因子。初始容量是哈希表在創建時的容量,加載因子是哈希表在其容量自動擴容之前可以達到多滿的一種度量。
在維基百科來描述加載因子:
對于開放定址法,加載因子是特別重要因素,應嚴格限制在0.7-0.8以下。超過0.8,查表時的CPU緩存不命中(cache missing)按照指數曲線上升。因此,一些采用開放定址法的hash庫,如Java的系統庫限制了加載因子為0.75,超過此值將resize散列表。
在設置初始容量時應該考慮到映射中所需的條目數及其加載因子,以便最大限度地減少擴容rehash操作次數,所以,一般在使用HashMap時建議根據預估值設置初始容量,以便減少擴容操作。
選擇0.75作為默認的加載因子,完全是時間和空間成本上尋求的一種折衷選擇。
以上就是HashMap的加載因子是0.75的原因是什么,小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。