您好,登錄后才能下訂單哦!
本文小編為大家詳細介紹“java編碼轉換過程是怎樣的”,內容詳細,步驟清晰,細節處理妥當,希望這篇“java編碼轉換過程是怎樣的”文章能幫助大家解決疑惑,下面跟著小編的思路慢慢深入,一起來學習新知識吧。
在正常javaweb開發中經常會發現字符轉換的需求,會存在中文字符轉換亂碼的現象,如何解決以及其轉換原理我至今懵懵懂懂,于是專門寫了個測試代碼進行嘗試,總算理清了編碼,先上結論,總結如下:
utf8中存放有各種語言編碼,當前主流開發中會使用utf8進行編碼解碼,該方式不會產生亂碼,產生亂碼有以下幾種情況
1、gbk(中文)、iso-8859-1(無中文)等其他方式進行編碼,則只能用其對應方式進行解碼,否則為亂碼
2、使用utf8進行編碼用其他方式解碼則會導致亂碼,需進行一次轉換
3、使用無對應字符(中文)的字符集(iso-8859-1)編碼會導致亂碼,且無法還原解碼
1.如何編碼就如何解碼
/** * 測試編碼轉換 中文 => utf-8 編碼 - 解碼 */ @Test public void test0() { String test = "測試"; System.out.println(Arrays.toString(test.getBytes(StandardCharsets.UTF_8)));//[-26, -75, -117, -24, -81, -107] System.out.println(new String(test.getBytes(StandardCharsets.UTF_8), StandardCharsets.UTF_8));//測試 }
/** * 測試編碼轉換 中文 => gbk 編碼 - 解碼 */ @Test public void test1() throws UnsupportedEncodingException { String test = "測試"; System.out.println(Arrays.toString(test.getBytes("gbk")));//[-78, -30, -54, -44] System.out.println(new String(test.getBytes("gbk"), "GBK"));//測試 }
utf8編碼 - 錯誤形式解碼
/** * 測試編碼轉換 中文 => utf-8 編碼- gbk解碼 */ @Test public void test2() throws UnsupportedEncodingException { String test = "測試"; System.out.println(Arrays.toString(test.getBytes(StandardCharsets.UTF_8)));//[-26, -75, -117, -24, -81, -107] System.out.println(new String(test.getBytes(StandardCharsets.UTF_8), "gbk"));//嫻嬭瘯 }
正確做法,按錯誤的解碼形式(gbk)作為中轉,將其按錯誤形式(gbk)重新還原編碼(utf8-encode),再使用utf8進行一次正確解碼(utf8-decode)即可得到原來的字符
/** * 測試編碼轉換 中文 => utf-8 編碼 - gbk 解碼 ===> gbk 編碼 - utf-8解碼 * "測試" => (utf8-encode)[-26, -75, -117, -24, -81, -107] => (gbk-decode)嫻嬭瘯 * "嫻嬭瘯" => (utf8-encode)[-26, -75, -117, -24, -81, -107] => (utf8-decode)"測試" */ @Test public void test3() throws UnsupportedEncodingException { String test = "測試"; String test_gbk_utf8 = new String(test.getBytes(StandardCharsets.UTF_8), "gbk"); System.out.println(test_gbk_utf8);//嫻嬭瘯 String test_utf8_gbk = new String(test_gbk_utf8.getBytes("gbk"), StandardCharsets.UTF_8); System.out.println(test_utf8_gbk);//測試 }
3.無對應字符編碼
@Test public void test4() throws UnsupportedEncodingException { String test = "測試"; System.out.println(Arrays.toString(test.getBytes(StandardCharsets.ISO_8859_1)));//[63, 63] System.out.println(new String(test.getBytes(StandardCharsets.ISO_8859_1), StandardCharsets.ISO_8859_1));//?? }
該情況下即使使用原先的編碼方式進行解碼也無法還原字符了,屬于不可逆的狀態
下面這行代碼的含義是: 獲取目標字符串str的gbk編碼格式的二進制碼,然后將二進制碼按照utf8編碼格式重新編碼成字符串,當然,下面這種寫法百分百會亂碼,因為編碼格式不一致.
new String(str.getBytes("gbk"),"utf8")
如果要傳輸一個字符串,首先要按照一定的編碼格式將字符串轉換成字節流,當字節流傳輸到接收方的時候再將字節流按照某種編碼格式轉換成字符串.亂碼也正是產生在重新轉換成字符串的過程中.以下是我對中文亂碼的測試:
String str="彩虹"; String [] a=new String[] {"gbk","unicode","utf8","gb2312"}; for (int i=0;i<a.length;i++){ for (int j=0;j<a.length;j++){ System.out.println("二進制格式: "+a[i]+"編碼格式: "+a[j]); System.out.println("編碼后的字符串: "+new String(str.getBytes(a[i]),a[j])); } }
二進制格式: gbk編碼格式: gbk
編碼后的字符串: 彩虹
二進制格式: gbk編碼格式: unicode
編碼后的字符串: ??
二進制格式: gbk編碼格式: utf8
編碼后的字符串: ???
二進制格式: gbk編碼格式: gb2312
編碼后的字符串: 彩虹
二進制格式: unicode編碼格式: gbk
編碼后的字符串: ?_i唝
二進制格式: unicode編碼格式: unicode
編碼后的字符串: 彩虹
二進制格式: unicode編碼格式: utf8
編碼后的字符串: ??_i?y
二進制格式: unicode編碼格式: gb2312
編碼后的字符串: ??_i?y
二進制格式: utf8編碼格式: gbk
編碼后的字符串: 褰╄櫣
二進制格式: utf8編碼格式: unicode
編碼后的字符串: ?馹
二進制格式: utf8編碼格式: utf8
編碼后的字符串: 彩虹
二進制格式: utf8編碼格式: gb2312
編碼后的字符串: 褰╄??
二進制格式: gb2312編碼格式: gbk
編碼后的字符串: 彩虹
二進制格式: gb2312編碼格式: unicode
編碼后的字符串: ??
二進制格式: gb2312編碼格式: utf8
編碼后的字符串: ???
二進制格式: gb2312編碼格式: gb2312
編碼后的字符串: 彩虹
可以看出,如果二進制編碼格式和字符串的編碼格式不同就會引起亂碼.
gbk和gb2312之間的轉換沒有亂碼是因為gbk是gb2312的增強版本,支持更多的漢字編碼,所以如果二進制編碼格式是gbk而解碼格式是gb2312,這種情況是有可能出現部分漢字亂碼的.
上述結果中的亂碼其實可以大致分為兩種,一種是復雜的漢字和圖形組合,一種是"?".
如果希望恢復的亂碼數據中有問號,那么這條數據恢復的可能性就不大了.因為除了"?"的其他亂碼其實都是有自己的編碼規則的,只要逆向的解碼并按照正確的編碼格式重新編碼就可以恢復.但是"?"除外,因為當字節流按照某種編碼格式重新編譯的時候,字節數據中無法按照該編碼格式轉換成有意義字符的字節都會轉換成"?",所以就算逆向的編碼成字節流,所有的"?"都會轉換成同一字節,也就失去了他本身的意義.
如果亂碼中不包含"?",那么還是有希望轉換回去的,我以上述亂碼中的 "褰╄櫣" 為例重新進行了一次轉換,代碼如下:
String str="褰╄櫣"; String [] charset=new String[] {"gbk","unicode","utf8","gb2312"}; for (int i=0;i<charset.length;i++){ for (int j=0;j<charset.length;j++){ System.out.println("二進制格式: "+charset[i]+"編碼格式: "+charset[j]); System.out.println("編碼后的字符串: "+new String(str.getBytes(charset[i]),charset[j])); } }
二進制格式: gbk編碼格式: gbk
編碼后的字符串: 褰╄櫣
二進制格式: gbk編碼格式: unicode
編碼后的字符串: ?馹
二進制格式: gbk編碼格式: utf8
編碼后的字符串: 彩虹
二進制格式: gbk編碼格式: gb2312
編碼后的字符串: 褰╄??
二進制格式: unicode編碼格式: gbk
編碼后的字符串: ??0%Dj?
二進制格式: unicode編碼格式: unicode
編碼后的字符串: 褰╄櫣
二進制格式: unicode編碼格式: utf8
編碼后的字符串: ???0%Dj?
二進制格式: unicode編碼格式: gb2312
編碼后的字符串: ???0%Dj?
二進制格式: utf8編碼格式: gbk
編碼后的字符串: 瑜扳晞婭?
二進制格式: utf8編碼格式: unicode
編碼后的字符串: ??閄?
二進制格式: utf8編碼格式: utf8
編碼后的字符串: 褰╄櫣
二進制格式: utf8編碼格式: gb2312
編碼后的字符串: 瑜扳??婭?
二進制格式: gb2312編碼格式: gbk
編碼后的字符串: 褰╄?
二進制格式: gb2312編碼格式: unicode
編碼后的字符串: ??
二進制格式: gb2312編碼格式: utf8
編碼后的字符串: 彩??
二進制格式: gb2312編碼格式: gb2312
編碼后的字符串: 褰╄?
可以看到 其中一種轉換方式成功的將亂碼轉變回了正常的中文漢字
二進制格式: gbk編碼格式: utf8
編碼后的字符串: 彩虹
讀到這里,這篇“java編碼轉換過程是怎樣的”文章已經介紹完畢,想要掌握這篇文章的知識點還需要大家自己動手實踐使用過才能領會,如果想了解更多相關內容的文章,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。