91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Unicode和UTF-8編碼的知識點有哪些

發布時間:2022-02-18 17:01:35 來源:億速云 閱讀:146 作者:iii 欄目:開發技術

今天小編給大家分享一下Unicode和UTF-8編碼的知識點有哪些的相關知識點,內容詳細,邏輯清晰,相信大部分人都還太了解這方面的知識,所以分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后有所收獲,下面我們一起來了解一下吧。

Unicode和UTF-8編碼的知識點有哪些

ASCII 碼

什么是 ASCII 碼?

ASCII 碼(American Standard Code for Information Interchange)稱為美國標準信息交換碼。它是基于拉丁字母的一套電腦編碼系統。它定義了一個用于代表常見字符的字典。

ASCII 碼都包含哪些字符?

包括 “A-Z”(大小寫都包含),數據”0-9” 以及一些常見的符號。

ASCII 碼的局限在哪里?

ASCII 當初只是為美國英語而設計的,只能顯示 128 個編碼,對其他的語言無能為力。要想顯示其他語言的編碼,還是要使用 unicode。

Unicode

什么是 Unicode ?

為了將全世界的文字都統一的記錄下來,并將每個字符都用唯一的數字記錄下來,于是就產生了Unicode。

Unicode 也稱為 UCS(Universal Coded Character Set:國際編碼字符集合) 是一個字符集合,對世界上大部分的文字系統進行了整理,編碼,使電腦可以用更為簡單的方式來呈現和處理文字。最新的版本 Unicode 11.0 已經包含了 137439 個字符。

Unicode 的數量之多,如果完全涵蓋它, 需要用 4 個字節來表示,但是計算機存儲過程中卻不是必須都用 4 個字節來完成。對于有些字符,尤其是編碼在前面的字符我們也可以通過 1 個或 兩個字節來節省空間。這就涉及到了 unicode 的實現方式。

Unicode 的實現方式有幾種?

Unicode 只是一個字符集合,每個字符用一個數字來表示,但是這些數字在計算機內采用什么方式來存儲,是全部都是 4 個字節,還是 1 到 4 個字節不等,這就涉及到了字符編碼的概念。

我們說 Unicode 有幾種實現方式,也就是在問 Unicode 有幾種編碼方式?

Unicode 常用的編碼方式有 UTF-8, UCS-2, UTF-16 三種,另外還有一種 UTF-32 雖然不太常用也需要提一下。

Unicode 的體系結構是什么樣的?

Unicode 既然能夠存儲那么多的字符,肯定是有它的存儲規則的,如果使用 16 進制存儲,它的存儲范圍是多少到多少,是否都是直筒式的,從低到高排就可以了?也就是說 Unicode 的體系結構是怎么樣的。

Unicode 當前定義其字符的存儲范圍是: 0hex 到 10FFFFhex ,共分為 17 個區段,可以存儲 1,114,112 個字符,這對當前 (137439) 來說遠遠足夠了。

其中區段為 0hex 到 FFFFhex 稱為 基本多文種平面 BMP (Basic Multilingual Plane),在這個平面中的字符表現形式是 U+ 后面跟 16 進制數。例如 X 字符的 unicode 是 U+0058。

而超出 BMP 范圍的,也就是 10000hex–10FFFFhex 這 16 個區段,需要用到 5 到 6 位來表示,如 U+E0001 和 U+10FFFD。

UTF-8 編碼

UTF-8 是使用互聯網上使用最廣泛的 unicode 編碼方式,目前已經占有整個互聯網 92% 的份額。這里再強調下 UTF-8 只是 Unicode 的一種實現方式,UTF-8 是編碼方式,而 Unicode 是字符集合

它是可變長的編碼方式,長度從 1 個字節到 4 個字節不等。

它能夠完全兼容 ASCII 碼,我們知道 ASCII 碼 是由 128 個字符組成的,而 Unicode 中的前 128 個字符和 ASCII 碼都是一一對應的。

UCS-2 編碼

UCS-2 只使用了兩個字節(16 bit) 來表示字符,也就是說只能表示 65536 個字符,它只能表示 BMP 中的字符。

當前的 unicode 字符數量已遠遠超過了 UCS-2 的數量,因此 UCS-2 雖然還在被好多軟件使用,但它已經過期了。

正因為 UCS-2 編碼依然被許多軟件使用,為了能夠表示出 BMP 以外的平面內的字符,就產生了一種新的編碼 UTF-16 編碼。

UTF-16 編碼

UTF-16 就是為了解決 UCS-2 編碼的問題而生的,它擴展自 UCS-2

基本多文種平面中,與 UCS-2 編碼完全一致,使用兩個字節表示

U+010000 到 U+10FFFF 范圍 使用 4 個字節表示

UTF-16 編碼的市場份額和 UTF-8 比很小, 在web 頁面中只占 0.01% 。而且主要在 windows 系統中使用, Unix/Linux 以及 MacOS 中很少使用。

UTF-32 編碼

UTF-32 對 Unicode 中的每個字符都用 4 個字節來表示,占用的空間比其他編碼要多的多,也正是這個原因,人們才用的很少。

以上就是“Unicode和UTF-8編碼的知識點有哪些”這篇文章的所有內容,感謝各位的閱讀!相信大家閱讀完這篇文章都有很大的收獲,小編每天都會為大家更新不同的知識,如果還想學習更多的知識,請關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

宜都市| 儋州市| 明光市| 滦平县| 灵璧县| 噶尔县| 余江县| 开远市| 杭锦后旗| 江孜县| 锡林浩特市| 长兴县| 华坪县| 通辽市| 兰溪市| 婺源县| 宣恩县| 盐亭县| 合川市| 延川县| 洛川县| 大关县| 镇坪县| 湘潭县| 上饶市| 图木舒克市| 喀喇沁旗| 九龙城区| 镇雄县| 湘阴县| 克什克腾旗| 锦州市| 黔西县| 金门县| 扶风县| 瓦房店市| 沙田区| 建宁县| 曲松县| 沁源县| 江阴市|