您好,登錄后才能下訂單哦!
今天小編給大家分享一下Java怎么獲取字符串單詞個數的相關知識點,內容詳細,邏輯清晰,相信大部分人都還太了解這方面的知識,所以分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后有所收獲,下面我們一起來了解一下吧。
public static int getWordCount(String content){ int count = 0; String cn_words = content.replaceAll("[^(\\u4e00-\\u9fa5,。《》?;'‘:“”【】、)(……¥!·)]", ""); int cn_words_count = cn_words.length(); String non_cn_words = content.replaceAll("[^(a-zA-Z0-9`\\-=\';.,/~!@#$%^&*()_+|}{\":><?\\[\\])]", " "); int non_cn_words_count = 0; String[] temp = non_cn_words.split(" "); for(String ch:temp){ if(ch.trim().length() != 0) non_cn_words_count++; } count = cn_words_count + non_cn_words_count; return count; } public static void main(String[] args) { System.out.println(getWordCount("我愛你 zhanglulu _")); // 輸出5,單詞是以空格分開,所以這里我愛你三個字加一個單詞zhanglulu和一個下劃線,空格不算。 }
統計字符串里包含有多少個單詞,這是Java代碼常用的場景。介紹三種簡單的方法來對其進行統計。這里所謂的單詞,是指連續的非空字符串。如“Hello”則為一個詞,“I love Guangzhou”則為三個詞。
在類String中,有split()這個方法,可以將字符進行分割。可以通過對字符串以空白字符進行分割,則可以得到結果。
public int countWithSplit(String str) { if (Strings.isNullOrEmpty(str)) { return 0; } return str.split("\\s+").length; }
代碼中"\\s+"為正則表達式,表示所有的空白字符。
public int countWithStringTokenizer(String str) { if (Strings.isNullOrEmpty(str)) { return 0; } StringTokenizer tokenizer = new StringTokenizer(str); return tokenizer.countTokens(); }
StringTokenizer是一個很有用的類,構造函數有三個:
1. StringTokenizer(String str) :構造一個用來解析 str 的 StringTokenizer 對象。java 默認的分隔符是空格("")、制表符(\t)、換行符(\n)、回車符(\r)。
2. StringTokenizer(String str, String delim) :構造一個用來解析 str 的 StringTokenizer 對象,并提供一個指定的分隔符。
3. StringTokenizer(String str, String delim, boolean returnDelims) :構造一個用來解析 str 的 StringTokenizer 對象,并提供一個指定的分隔符,同時,指定是否返回分隔符。
public int countWithChar(String str) { if (Strings.isNullOrEmpty(str)) { return 0; } int wordCount = 0; boolean isWord = false; int endOfLine = str.length() - 1; char[] chars = str.toCharArray(); for (int i = 0; i < chars.length; i++) { // 如果是非空字符, word = true. if (isWord(chars[i]) && i != endOfLine) { isWord = true; // 非空字符后遇到空字符,則數量加1 } else if (!isWord(chars[i]) && isWord) { wordCount++; isWord = false; // 非空字符后遇到行尾 } else if (isWord(chars[i]) && i == endOfLine) { wordCount++; } } return wordCount; } private boolean isWord(char c) { return c != ' ' && c != '\t' && c != '\n' && c != '\r' && c != '\f'; }
測試代碼
簡單寫了幾個測試用例,測試通過。
public class CountWordTest { private CountWord countWord = new CountWord(); @Test public void test() { testStringCount(null, 0); testStringCount("", 0); testStringCount(" ", 0); testStringCount(" \t\r\n\f", 0); testStringCount("0", 1); testStringCount("abcdef", 1); testStringCount("a b c", 3); testStringCount("a,b,c", 1); testStringCount("a\rb\nc", 3); testStringCount("a,b\t\nc", 2); } private void testStringCount(String str, int expectedCount) { assertEquals(expectedCount, countWord.countWithSplit(str)); assertEquals(expectedCount, countWord.countWithStringTokenizer(str)); assertEquals(expectedCount, countWord.countWithChar(str)); } }
這三種方法都非常簡單,沒有什么技術難點,用到了String、StringTokenizer、正則、Guava、JUnit等,非常基礎。
以上就是“Java怎么獲取字符串單詞個數”這篇文章的所有內容,感謝各位的閱讀!相信大家閱讀完這篇文章都有很大的收獲,小編每天都會為大家更新不同的知識,如果還想學習更多的知識,請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。