您好,登錄后才能下訂單哦!
字符串在 Python 中是最簡單也是最常用的數據類型之一,在 CPython 中字符串的實現原理使用了一種叫做 Intern(字符串駐留)的技術來提高字符串效率。究竟什么是 intern 機制,這種機制又是通過什么方式來提高字符串效率的呢?希望這篇文章能夠拋磚引玉。
先來看一段代碼:
>>> s3 = "hello!" >>> s4 = "hello!" >>> s3 is s4 False >>> id(s3) 80325968L >>> id(s4) 80326048L
s3 和 s4 雖然值是一樣的,但確確實實是兩個不同的字符串對象,Python 會為它們倆各自分配一段內存空間,假設程序中存在大量值相同的字符串,系統就不得不為每個字符串重復地分配內存空間,顯然,對系統來說是一種無謂的資源浪費。為了解決這種問題,Python 引入了 intern 機制。
再來看:
>>> s3 = intern('hello!') >>> s4 = intern('hello!') >>> s3 is s4 True >>> id(s3) 80325968L >>> id(s4) 80325968L
intern 是 Python 中的一個內建函數,該函數的作用就是對字符串進行 intern 機制處理,處理后返回字符串對象。我們發現但凡是值相同的字符串經過 intern 機制處理之后,返回的都是同一個字符串對象,這種方式在處理大數據的時候無疑能節省更多的內存空間,系統無需為相同的字符串重復分配內存,對于值相同的字符串共用一個對象即可。
其實,實現 Intern 機制的方式非常簡單,就是通過維護一個字符串儲蓄池,這個池子是一個字典結構,如果字符串已經存在于池子中了就不再去創建新的字符串,直接返回之前創建好的字符串對象,如果之前還沒有加入到該池子中,則先構造一個字符串對象,并把這個對象加入到池子中去,方便下一次獲取,用偽代碼就可以描述為:
intern_pool = {} def intern(s): if s in intern_pool: return intern_pool[s] else: obj = PyStringObject(s) intern_pool[s] = obj return obj
在主流面向對象的編程語言中intern 機制對于處理字符串已經成為一種標配,通過 intern 機制可以提高字符串的處理效率,當然,解釋器內部很對 intern 機制的使用策略是有考究的,有些場景會自動使用 intern ,有些地方需要通過手動方式才能啟動。比如:
>>> s1 = "hello" >>> s2 = "hello" >>> s1 is s2 True >>> id(s1) 72320704L >>> id(s2) 72320704L
這段代碼就是 Python自動使用了intern機制的結果。
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持億速云。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。