您好,登錄后才能下訂單哦!
Q:一個業務服務器,一個數據庫,操作:查詢用戶當前余額,扣除當前余額的3%作為手續費
Q:兩個業務服務器,一個數據庫,操作:查詢用戶當前余額,扣除當前余額的3%作為手續費
我們需要怎么樣的分布式鎖?
一、基于數據庫實現的分布式鎖
基于表實現的分布式鎖
CREATE TABLE `methodLock` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '主鍵', `method_name` varchar(64) NOT NULL DEFAULT '' COMMENT '鎖定的方法名', `desc` varchar(1024) NOT NULL DEFAULT '備注信息', `update_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '保存數據時間,自動生成', PRIMARY KEY (`id`), UNIQUE KEY `uidx_method_name` (`method_name `) USING BTREE ) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='鎖定中的方法';
當我們想要鎖住某個方法時,執行以下SQL:
insert into methodLock(method_name,desc) values (‘method_name',‘desc')
因為我們對method_name
做了唯一性約束,這里如果有多個請求同時提交到數據庫的話,數據庫會保證只有一個操作可以成功,那么我們就可以認為操作成功的那個線程獲得了該方法的鎖,可以執行方法體內容。
當方法執行完畢之后,想要釋放鎖的話,需要執行以下Sql:
delete from methodLock where method_name ='method_name'
上面這種簡單的實現有以下幾個問題:
當然,我們也可以有其他方式解決上面的問題。
基于排他鎖實現的分布式鎖
除了可以通過增刪操作數據表中的記錄以外,其實還可以借助數據中自帶的鎖來實現分布式的鎖。
我們還用剛剛創建的那張數據庫表。可以通過數據庫的排他鎖來實現分布式鎖。 基于MySql的InnoDB引擎,可以使用以下方法來實現加鎖操作:
public boolean lock(){ connection.setAutoCommit(false); while(true){ try{ result = select * from methodLock where method_name=xxx for update; if(result==null){ return true; } }catch(Exception e){ } sleep(1000); } return false; }
在查詢語句后面增加for update
,數據庫會在查詢過程中給數據庫表增加排他鎖。當某條記錄被加上排他鎖之后,其他線程無法再在該行記錄上增加排他鎖。
我們可以認為獲得排它鎖的線程即可獲得分布式鎖,當獲取到鎖之后,可以執行方法的業務邏輯,執行完方法之后,再通過以下方法解鎖:
public void unlock(){ connection.commit(); }
通過connection.commit();
操作來釋放鎖。
這種方法可以有效的解決上面提到的無法釋放鎖和阻塞鎖的問題。
阻塞鎖? for update語句會在執行成功后立即返回,在執行失敗時一直處于阻塞狀態,直到成功。
鎖定之后服務宕機,無法釋放?使用這種方式,服務宕機之后數據庫會自己把鎖釋放掉。
但是還是無法直接解決數據庫單點、可重入和公平鎖的問題。
總結一下使用數據庫來實現分布式鎖的方式,這兩種方式都是依賴數據庫的一張表,一種是通過表中的記錄的存在情況確定當前是否有鎖存在,另外一種是通過數據庫的排他鎖來實現分布式鎖。
數據庫實現分布式鎖的優點
直接借助數據庫,容易理解。
數據庫實現分布式鎖的缺點
會有各種各樣的問題,在解決問題的過程中會使整個方案變得越來越復雜。
操作數據庫需要一定的開銷,性能問題需要考慮。
二、基于緩存的分布式鎖
相比較于基于數據庫實現分布式鎖的方案來說,基于緩存來實現在性能方面會表現的更好一點。
目前有很多成熟的緩存產品,包括Redis,memcached等。這里以Redis為例來分析下使用緩存實現分布式鎖的方案。
基于Redis實現分布式鎖在網上有很多相關文章,其中主要的實現方式是使用Jedis.setNX方法來實現。
public boolean trylock(String key) { ResultCode code = jedis.setNX(key, "This is a Lock."); if (ResultCode.SUCCESS.equals(code)) return true; else return false; } public boolean unlock(String key){ ldbTairManager.invalid(NAMESPACE, key); }
以上實現方式同樣存在幾個問題:
1、單點問題。
2、這把鎖沒有失效時間,一旦解鎖操作失敗,就會導致鎖記錄一直在redis中,其他線程無法再獲得到鎖。
3、這把鎖只能是非阻塞的,無論成功還是失敗都直接返回。
4、這把鎖是非重入的,一個線程獲得鎖之后,在釋放鎖之前,無法再次獲得該鎖,因為使用到的key在redis中已經存在。無法再執行setNX操作。
5、這把鎖是非公平的,所有等待的線程同時去發起setNX操作,運氣好的線程能獲取鎖。
當然,同樣有方式可以解決。
redis集群的同步策略是需要時間的,有可能A線程setNX成功后拿到鎖,但是這個值還沒有更新到B線程執行setNX的這臺服務器,那就會產生并發問題。
redis的作者Salvatore Sanfilippo,提出了Redlock算法,該算法實現了比單一節點更安全、可靠的分布式鎖管理(DLM)。
Redlock算法假設有N個redis節點,這些節點互相獨立,一般設置為N=5,這N個節點運行在不同的機器上以保持物理層面的獨立。
算法的步驟如下:
1、客戶端獲取當前時間,以毫秒為單位。
2、客戶端嘗試獲取N個節點的鎖,(每個節點獲取鎖的方式和前面說的緩存鎖一樣),N個節點以相同的key和value獲取鎖。客戶端需要設置接口訪問超時,接口超時時間需要遠遠小于鎖超時時間,比如鎖自動釋放的時間是10s,那么接口超時大概設置5-50ms。這樣可以在有redis節點宕機后,訪問該節點時能盡快超時,而減小鎖的正常使用。
3、客戶端計算在獲得鎖的時候花費了多少時間,方法是用當前時間減去在步驟一獲取的時間,只有客戶端獲得了超過3個節點的鎖,而且獲取鎖的時間小于鎖的超時時間,客戶端才獲得了分布式鎖。
4、客戶端獲取的鎖的時間為設置的鎖超時時間減去步驟三計算出的獲取鎖花費時間。
5、如果客戶端獲取鎖失敗了,客戶端會依次刪除所有的鎖。
使用Redlock算法,可以保證在掛掉最多2個節點的時候,分布式鎖服務仍然能工作,這相比之前的數據庫鎖和緩存鎖大大提高了可用性,由于redis的高效性能,分布式緩存鎖性能并不比數據庫鎖差。但是,有一位分布式的專家寫了一篇文章《How to do distributed locking》,質疑Redlock的正確性。
該專家提到,考慮分布式鎖的時候需要考慮兩個方面:性能和正確性。
如果使用高性能的分布式鎖,對正確性要求不高的場景下,那么使用緩存鎖就足夠了。
如果使用可靠性高的分布式鎖,那么就需要考慮嚴格的可靠性問題。而Redlock則不符合正確性。為什么不符合呢?專家列舉了幾個方面。
現在很多編程語言使用的虛擬機都有GC功能,在Full GC的時候,程序會停下來處理GC,有些時候Full GC耗時很長,甚至程序有幾分鐘的卡頓,文章列舉了HBase的例子,HBase有時候GC幾分鐘,會導致租約超時。而且Full GC什么時候到來,程序無法掌控,程序的任何時候都可能停下來處理GC,比如下圖,客戶端1獲得了鎖,正準備處理共享資源的時候,發生了Full GC直到鎖過期。這樣,客戶端2又獲得了鎖,開始處理共享資源。在客戶端2處理的時候,客戶端1 Full GC完成,也開始處理共享資源,這樣就出現了2個客戶端都在處理共享資源的情況。
專家給出了解決辦法,如下圖,看起來就是MVCC,給鎖帶上token,token就是version的概念,每次操作鎖完成,token都會加1,在處理共享資源的時候帶上token,只有指定版本的token能夠處理共享資源。
然后專家還說到了算法依賴本地時間,而且redis在處理key過期的時候,依賴gettimeofday方法獲得時間,而不是monotonic clock,這也會帶來時間的不準確。比如一下場景,兩個客戶端client 1和client 2,5個redis節點nodes (A, B, C, D and E)。
1、client 1從A、B、C成功獲取鎖,從D、E獲取鎖網絡超時。
2、節點C的時鐘不準確,導致鎖超時。
3、client 2從C、D、E成功獲取鎖,從A、B獲取鎖網絡超時。
4、這樣client 1和client 2都獲得了鎖。
總結專家關于Redlock不可用的兩點:
1、GC等場景可能隨時發生,并導致在客戶端獲取了鎖,在處理中超時,導致另外的客戶端獲取了鎖。專家還給出了使用自增token的解決方法。
2、算法依賴本地時間,會出現時鐘不準,導致2個客戶端同時獲得鎖的情況。
所以專家給出的結論是,只有在有界的網絡延遲、有界的程序中斷、有界的時鐘錯誤范圍,Redlock才能正常工作,但是這三種場景的邊界又是無法確認的,所以專家不建議使用Redlock。對于正確性要求高的場景,專家推薦了Zookeeper,關于使用Zookeeper作為分布式鎖后面再討論。
Redis作者的回應
redis作者看到這個專家的文章后,寫了一篇博客予以回應。作者很客氣的感謝了專家,然后表達出了對專家觀點的不認同。
I asked for an analysis in the original Redlock specification here: http://redis.io/topics/distlock. So thank you Martin. However I don't agree with the analysis.
redis作者關于使用token解決鎖超時問題可以概括成下面五點:
觀點1,使用分布式鎖一般是在,你沒有其他方式去控制共享資源了,專家使用token來保證對共享資源的處理,那么就不需要分布式鎖了。
觀點2,對于token的生成,為保證不同客戶端獲得的token的可靠性,生成token的服務還是需要分布式鎖保證服務的可靠性。
觀點3,對于專家說的自增的token的方式,redis作者認為完全沒必要,每個客戶端可以生成唯一的uuid作為token,給共享資源設置為只有該uuid的客戶端才能處理的狀態,這樣其他客戶端就無法處理該共享資源,直到獲得鎖的客戶端釋放鎖。
觀點4,redis作者認為,對于token是有序的,并不能解決專家提出的GC問題,如上圖所示,如果token 34的客戶端寫入過程中發送GC導致鎖超時,另外的客戶端可能獲得token 35的鎖,并再次開始寫入,導致鎖沖突。所以token的有序并不能跟共享資源結合起來。
觀點5,redis作者認為,大部分場景下,分布式鎖用來處理非事務場景下的更新問題。作者意思應該是有些場景很難結合token處理共享資源,所以得依賴鎖去鎖定資源并進行處理。
專家說到的另一個時鐘問題,redis作者也給出了解釋。客戶端實際獲得的鎖的時間是默認的超時時間,減去獲取鎖所花費的時間,如果獲取鎖花費時間過長導致超過了鎖的默認超時間,那么此時客戶端并不能獲取到鎖,不會存在專家提出的例子。
個人感覺
第一個問題我概括為,在一個客戶端獲取了分布式鎖后,在客戶端的處理過程中,可能出現鎖超時釋放的情況,這里說的處理中除了GC等非抗力外,程序流程未處理完也是可能發生的。之前在說到數據庫鎖設置的超時時間2分鐘,如果出現某個任務占用某個訂單鎖超過2分鐘,那么另一個交易中心就可以獲得這把訂單鎖,從而兩個交易中心同時處理同一個訂單。正常情況,任務當然秒級處理完成,可是有時候,加入某個rpc請求設置的超時時間過長,一個任務中有多個這樣的超時請求,那么,很可能就出現超過自動解鎖時間了。當初我們的交易模塊是用C++寫的,不存在GC,如果用java寫,中間還可能出現Full GC,那么鎖超時解鎖后,自己客戶端無法感知,是件非常嚴重的事情。我覺得這不是鎖本身的問題,上面說到的任何一個分布式鎖,只要自帶了超時釋放的特性,都會出現這樣的問題。如果使用鎖的超時功能,那么客戶端一定得設置獲取鎖超時后,采取相應的處理,而不是繼續處理共享資源。Redlock的算法,在客戶端獲取鎖后,會返回客戶端能占用的鎖時間,客戶端必須處理該時間,讓任務在超過該時間后停止下來。
第二個問題,自然就是分布式專家沒有理解Redlock。Redlock有個關鍵的特性是,獲取鎖的時間是鎖默認超時的總時間減去獲取鎖所花費的時間,這樣客戶端處理的時間就是一個相對時間,就跟本地時間無關了。
由此看來,Redlock的正確性是能得到很好的保證的。仔細分析Redlock,相比于一個節點的redis,Redlock提供的最主要的特性是可靠性更高,這在有些場景下是很重要的特性。但是我覺得Redlock為了實現可靠性,卻花費了過大的代價。
首先必須部署5個節點才能讓Redlock的可靠性更強。
然后需要請求5個節點才能獲取到鎖,通過Future的方式,先并發向5個節點請求,再一起獲得響應結果,能縮短響應時間,不過還是比單節點redis鎖要耗費更多時間。
然后由于必須獲取到5個節點中的3個以上,所以可能出現獲取鎖沖突,即大家都獲得了1-2把鎖,結果誰也不能獲取到鎖,這個問題,redis作者借鑒了raft算法的精髓,通過沖突后在隨機時間開始,可以大大降低沖突時間,但是這問題并不能很好的避免,特別是在第一次獲取鎖的時候,所以獲取鎖的時間成本增加了。
如果5個節點有2個宕機,此時鎖的可用性會極大降低,首先必須等待這兩個宕機節點的結果超時才能返回,另外只有3個節點,客戶端必須獲取到這全部3個節點的鎖才能擁有鎖,難度也加大了。
如果出現網絡分區,那么可能出現客戶端永遠也無法獲取鎖的情況。
分析了這么多原因,我覺得Redlock的問題,最關鍵的一點在于Redlock需要客戶端去保證寫入的一致性,后端5個節點完全獨立,所有的客戶端都得操作這5個節點。如果5個節點有一個leader,客戶端只要從leader獲取鎖,其他節點能同步leader的數據,這樣,分區、超時、沖突等問題都不會存在。所以為了保證分布式鎖的正確性,我覺得使用強一致性的分布式協調服務能更好的解決問題。
問題又來了,失效時間我設置多長時間為好?如何設置的失效時間太短,方法沒等執行完,鎖就自動釋放了,那么就會產生并發問題。如果設置的時間太長,其他獲取鎖的線程就可能要平白的多等一段時間。
這個問題使用數據庫實現分布式鎖同樣存在。
對于這個問題目前主流的做法是每獲得一個鎖時,只設置一個很短的超時時間,同時起一個線程在每次快要到超時時間時去刷新鎖的超時時間。在釋放鎖的同時結束這個線程。如redis官方的分布式鎖組件redisson,就是用的這種方案。
使用緩存實現分布式鎖的優點
性能好。
使用緩存實現分布式鎖的缺點
實現過于負責,需要考慮的因素太多。
基于Zookeeper實現的分布式鎖
基于zookeeper臨時有序節點可以實現的分布式鎖。
大致思想即為:每個客戶端對某個方法加鎖時,在zookeeper上的與該方法對應的指定節點的目錄下,生成一個唯一的瞬時有序節點。 判斷是否獲取鎖的方式很簡單,只需要判斷有序節點中序號最小的一個。 當釋放鎖的時候,只需將這個瞬時節點刪除即可。同時,其可以避免服務宕機導致的鎖無法釋放,而產生的死鎖問題。
來看下Zookeeper能不能解決前面提到的問題。
問題又來了,我們知道Zookeeper需要集群部署,會不會出現Redis集群那樣的數據同步問題呢?
Zookeeper是一個保證了弱一致性即最終一致性的分布式組件。
Zookeeper采用稱為Quorum Based Protocol的數據同步協議。假如Zookeeper集群有N臺Zookeeper服務器(N通常取奇數,3臺能夠滿足數據可靠性同時有很高讀寫性能,5臺在數據可靠性和讀寫性能方面平衡最好),那么用戶的一個寫操作,首先同步到N/2 + 1臺服務器上,然后返回給用戶,提示用戶寫成功。基于Quorum Based Protocol的數據同步協議決定了Zookeeper能夠支持什么強度的一致性。
在分布式環境下,滿足強一致性的數據儲存基本不存在,它要求在更新一個節點的數據,需要同步更新所有的節點。這種同步策略出現在主從同步復制的數據庫中。但是這種同步策略,對寫性能的影響太大而很少見于實踐。因為Zookeeper是同步寫N/2+1個節點,還有N/2個節點沒有同步更新,所以Zookeeper不是強一致性的。
用戶的數據更新操作,不保證后續的讀操作能夠讀到更新后的值,但是最終會呈現一致性。犧牲一致性,并不是完全不管數據的一致性,否則數據是混亂的,那么系統可用性再高分布式再好也沒有了價值。犧牲一致性,只是不再要求關系型數據庫中的強一致性,而是只要系統能達到最終一致性即可。
Zookeeper是否滿足因果一致性,需要看客戶端的編程方式。
滿足因果一致性的做法
第二種事件監聽機制也是對Zookeeper進行正確編程應該使用的方法,所以,Zookeeper應該是滿足因果一致性的
所以我們在基于Zookeeper實現分布式鎖的時候,應該使用滿足因果一致性的做法,即等待鎖的線程都監聽Zookeeper上鎖的變化,在鎖被釋放的時候,Zookeeper會將鎖變化的通知告訴滿足公平鎖條件的等待線程。
可以直接使用zookeeper第三方庫客戶端,這個客戶端中封裝了一個可重入的鎖服務。
public boolean tryLock(long timeout, TimeUnit unit) throws InterruptedException { try { return interProcessMutex.acquire(timeout, unit); } catch (Exception e) { e.printStackTrace(); } return true; } public boolean unlock() { try { interProcessMutex.release(); } catch (Throwable e) { log.error(e.getMessage(), e); } finally { executorService.schedule(new Cleaner(client, path), delayTimeForClean, TimeUnit.MILLISECONDS); } return true; }
使用ZK實現的分布式鎖好像完全符合了本文開頭我們對一個分布式鎖的所有期望。但是,其實并不是,Zookeeper實現的分布式鎖其實存在一個缺點,那就是性能上可能并沒有緩存服務那么高。因為每次在創建鎖和釋放鎖的過程中,都要動態創建、銷毀瞬時節點來實現鎖功能。ZK中創建和刪除節點只能通過Leader服務器來執行,然后將數據同不到所有的Follower機器上。
使用Zookeeper實現分布式鎖的優點
有效的解決單點問題,不可重入問題,非阻塞問題以及鎖無法釋放的問題。實現起來較為簡單。
使用Zookeeper實現分布式鎖的缺點
性能上不如使用緩存實現分布式鎖。 需要對ZK的原理有所了解。
三種方案的比較從理解的難易程度角度(從低到高)
數據庫 > 緩存 > Zookeeper
從實現的復雜性角度(從低到高)
Zookeeper > 緩存 > 數據庫
從性能角度(從高到低)
緩存 > Zookeeper >= 數據庫
從可靠性角度(從高到低)
Zookeeper > 緩存 > 數據庫\
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。