您好,登錄后才能下訂單哦!
如何利用java實現獲取一個文件的編碼?針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
maven引入獲取編碼的jar
<dependency> <groupId>com.ibm.icu</groupId> <artifactId>icu4j</artifactId> <version>67.1</version> </dependency>
獲取文件編碼
package com.lovnx.note.util; import com.ibm.icu.text.CharsetDetector; import com.ibm.icu.text.CharsetMatch; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.select.Elements; import java.io.IOException; import java.net.URL; import java.nio.file.Files; import java.nio.file.Path; import java.nio.file.Paths; /** * @author @256g的胃 * @ClassName HtmlParse * @Description * @Date 15:32 2020/7/9 **/ public class HtmlParse { public static String getEncode(String filePath) throws IOException { Path path = Paths.get(filePath); byte[] data = Files.readAllBytes(path); CharsetDetector detector = new CharsetDetector(); detector.setText(data); CharsetMatch match = detector.detect(); String encoding = match.getName(); System.out.println("The Content in " + match.getName()); return encoding; } public static void main(String[] args) throws Exception { System.out.println(HtmlParse.getEncode("/Users/cxt/Downloads/test.html")); } }
上面獲取文件編碼是為了在服務器根據文件流下載文件時防止文件亂碼直接指定編碼格式,然后再根據下載下來的文件識別純文本
Document doc = Jsoup.parse("讀取的文本字符串,此處應該是帶html標簽的");
String text = doc.text();
jsoup也支持 直接指定文件的形式去獲取純文本
參考 https://jsoup.org/
補充知識:java 解析html/讀取html內容
jsoup
String 轉化
1、Document doc = Jsoup.parse(html);
例如:
String html = "<html><head><title>First parse</title></head>" + "<body><p>Parsed HTML into a doc.</p></body></html>"; Document doc = Jsoup.parse(html); System.out.println(doc.text()); ;
常用api
2、獲取節點文本:Document.text();
關于如何利用java實現獲取一個文件的編碼問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注億速云行業資訊頻道了解更多相關知識。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。