Java中字符編碼的原理是什么

發布時間：2021-07-01 17:10:33 來源：億速云閱讀：193 作者：Leah 欄目：編程語言

Java中字符編碼的原理是什么，很多新手對此不是很清楚，為了幫助大家解決這個難題，下面小編將為大家詳細講解，有這方面需求的人可以來學習下，希望你能有所收獲。

1、Java文件編譯后形成class

這里Java文件的編碼可能有多種多樣，但Java編譯器會自動將這些編碼按照Java文件的編碼格式正確讀取后產生class文件，這里的class文件編碼是Unicode編碼（具體說是UTF-16編碼）。

因此，在Java代碼中定義一個字符串：

String s="漢字";

不管在編譯前java文件使用何種編碼，在編譯后成class后，他們都是一樣的----Unicode編碼表示。

2、JVM中的編碼

JVM加載class文件讀取時候使用Unicode編碼方式正確讀取class文件，那么原來定義的String s="漢字";在內存中的表現形式是Unicode編碼。

當調用String.getBytes()的時候，其實已經為亂碼買下了禍根。因為此方法使用平臺默認的字符集來獲取字符串對應的字節數組。在WindowsXP中文版中，使用的默認編碼是GBK，不信運行下：

public class Test {   public static void main(String[] args) {   System.out.println("當前JRE：" + System.getProperty("java.version"));   System.out.println("當前JVM的默認字符集：" + Charset.defaultCharset());   }   }

當前JRE：1.6.0_16

當前JVM的默認字符集：GBK

當不同的系統、數據庫經過多次編碼后，如果對其中的原理不理解，就容易導致亂碼。因此，在一個系統中，有必要對字符串的編碼做一個統一，這個統一模糊點說，就是對外統一。比如方法字符串參數，IO流，在中文系統中，可以統一使用GBK、GB13080、UTF-8、UTF-16等等都可以，只是要選擇有些更大字符集，以保證任何可能用到的字符都可以正常顯示，避免亂碼的問題。（假設對所有的文件都用ASCII碼）那么就無法實現雙向轉換了。

要特別注意的是，UTF-8并非能容納了所有的中文字符集編碼，因此，在特殊情況下，UTF-8轉GB18030可能會出現亂碼，然而一群傻B常常在做中文系統喜歡用UTF-8編碼而不說不出個所以然出來！最傻B的是，一個系統多個人做，源代碼文件有的人用GBK編碼，有人用UTF-8，還有人用GB18030。FK，都是中國人，也不是外包項目，用什么UTF-8啊，神經！源代碼統統都用GBK18030就OK了，免得ANT腳本編譯時候提示不可認的字符編碼。

因此，對于中文系統來說，***選擇GBK或GB18030編碼（其實GBK是GB18030的子集），以便***限度的避免亂碼現象。

3、內存中字符串的編碼

內存中的字符串不僅僅局限于從class代碼中直接加載而來的字符串，還有一些字符串是從文本文件中讀取的，還有的是通過數據庫讀取的，還有可能是從字節數組構建的，然而他們基本上都不是Unicode編碼的，原因很簡單，存儲優化。

因此就需要處理各種各樣的編碼問題，在處理之前，必須明確“源”的編碼，然后用指定的編碼方式正確讀取到內存中。如果是一個方法的參數，實際上必須明確該字符串參數的編碼，因為這個參數可能是另外一個日文系統傳遞過來的。當明確了字符串編碼時候，就可以按照要求正確處理字符串，以避免亂碼。

在對字符串進行解碼編碼的時候，應該調用下面的方法：

getBytes(String charsetName)   String(byte[] bytes, String charsetName)

看完上述內容是否對您有幫助呢？如果還想對相關知識有進一步的了解或閱讀更多相關文章，請關注億速云行業資訊頻道，感謝您對億速云的支持。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Java中字符編碼的原理是什么

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Java中字符編碼的原理是什么

猜你喜歡

最新資訊

相關推薦

相關標簽