91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

Linux wordcount如何忽略停用詞

小樊
82
2024-09-21 05:05:45
欄目: 智能運維

在 Linux 系統中,可以使用 greptrwc 命令組合來實現對文本文件中單詞的計數,同時忽略停用詞。假設你有一個包含停用詞的文本文件 stopwords.txt,內容如下:

the
and
is
in
it

現在你想統計另一個文本文件 input.txt 中的單詞數量,同時忽略 stopwords.txt 中的停用詞。你可以使用以下命令:

grep -oE '\w+' input.txt | tr ' ' '\n' | grep -vE "($(cat stopwords.txt | tr ' ' '|'))" | wc -l

解釋:

  1. grep -oE '\w+' input.txt:從 input.txt 文件中提取所有單詞(連續的字母、數字和下劃線)。
  2. tr ' ' '\n':將單詞之間的空格替換為換行符,使每個單詞單獨一行。
  3. grep -vE "($(cat stopwords.txt | tr ' ' '|'))":使用擴展正則表達式過濾掉 stopwords.txt 中的停用詞。
  4. wc -l:計算過濾后的行數,即單詞數量。

注意:這個命令假設停用詞文件中的單詞大小寫敏感。如果你想忽略大小寫,可以將 grep -vE 部分改為 grep -i -vE,或者在讀取停用詞文件時將所有單詞轉換為小寫(或大寫):cat stopwords.txt | tr ' ' '| | tr '[:upper:]' '[:lower:]'

0
东兰县| 临武县| 盈江县| 余姚市| 茌平县| 津南区| 中宁县| 泗阳县| 巴里| 平罗县| 夹江县| 秦皇岛市| 天气| 南雄市| 平乡县| 佛冈县| 长宁县| 门头沟区| 武义县| 昌乐县| 镇宁| 井陉县| 隆尧县| 乐亭县| 彰化县| 庆城县| 天水市| 富蕴县| 蓝田县| 芦溪县| 茌平县| 徐汇区| 丘北县| 松溪县| 杂多县| 红安县| 皮山县| 荥阳市| 汪清县| 祁阳县| 宁陕县|