linux中如何使用awk刪掉文件中重復的行

發布時間：2021-10-23 14:37:00 來源：億速云閱讀：343 作者：小新欄目：系統運維

這篇文章將為大家詳細講解有關linux中如何使用awk刪掉文件中重復的行，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

TL;DR

要保持原來的排列順序刪掉重復行，使用：

awk '!visited[$0]++' your_file > deduplicated_file

工作原理

這個腳本維護一個關聯數組，索引（鍵）為文件中去重后的行，每個索引對應的值為該行出現的次數。對于文件的每一行，如果這行（之前）出現的次數為 0，則值加 1，并打印這行，否則值加 1，不打印這行。

我之前不熟悉 awk，我想弄清楚這么短小的一個腳本是怎么實現的。我調研了下，下面是調研心得：

這個 awk “腳本” !visited[$0]++ 對輸入文件的每一行都執行。
visited[] 是一個關聯數組（又名映射）類型的變量。awk 會在第一次執行時初始化它，因此我們不需要初始化。
$0 變量的值是當前正在被處理的行的內容。
visited[$0] 通過與 $0（正在被處理的行）相等的鍵來訪問該映射中的值，即出現次數（我們在下面設置的）。
! 對表示出現次數的值取反：

如果該值為空，awk 自動把它轉換為 0（數字）后加 1。
注意：加 1 操作是在我們取到了變量的值之后執行的。
如果 visited[$0] 的值是一個比 0 大的數，取反后被解析成 false。
如果 visited[$0] 的值為等于 0 的數字或空字符串，取反后被解析成 true 。
在 awk 中，任意非零的數或任意非空的字符串的值是 true。
變量默認的初始值為空字符串，如果被轉換為數字，則為 0。
也就是說：
++ 表示變量 visited[$0] 的值加 1。

總的來說，整個表達式的意思是：

true：如果表示出現次數為 0 或空字符串
false：如果出現的次數大于 0

awk 由模式或表達式和一個與之關聯的動作組成：

<模式/表達式> { <動作> }

如果匹配到了模式，就會執行后面的動作。如果省略動作，awk 默認會打印（print）輸入。

省略動作等價于 {print $0}。

我們的腳本由一個 awk 表達式語句組成，省略了動作。因此這樣寫：

awk '!visited[$0]++' your_file > deduplicated_file

等于這樣寫：

awk '!visited[$0]++ { print $0 }' your_file > deduplicated_file

對于文件的每一行，如果表達式匹配到了，這行內容被打印到輸出。否則，不執行動作，不打印任何東西。

為什么不用 uniq 命令？

uniq 命令僅能對相鄰的行去重。這是一個示例：

$ cat test.txtAAABBBAACCCBBA$ uniq < test.txtABACBA

其他方法

使用 sort 命令

我們也可以用下面的 sort 命令來去除重復的行，但是原來的行順序沒有被保留。

sort -u your_file > sorted_deduplicated_file

使用 cat + sort + cut

上面的方法會產出一個去重的文件，各行是基于內容進行排序的。通過管道連接命令可以解決這個問題。

cat -n your_file | sort -uk2 | sort -nk1 | cut -f2-

工作原理

假設我們有下面一個文件：

abcghiabcdefxyzdefghiklm

cat -n test.txt 在每行前面顯示序號：

1       abc2       ghi3       abc4       def5       xyz6       def7       ghi8       klm

sort -uk2 基于第二列（k2 選項）進行排序，對于第二列相同的值只保留一次（u 選項）：

1       abc4       def2       ghi8       klm5       xyz

sort -nk1 基于第一列排序（k1 選項），把列的值作為數字來處理（-n 選項）：

1       abc2       ghi4       def5       xyz8       klm

最后，cut -f2- 從第二列開始打印每一行，直到最后的內容（-f2- 選項：留意 - 后綴，它表示這行后面的內容都包含在內）。

abcghidefxyzklm

關于“linux中如何使用awk刪掉文件中重復的行”這篇文章就分享到這里了，希望以上內容可以對大家有一定的幫助，使各位可以學到更多知識，如果覺得文章不錯，請把它分享出去讓更多的人看到。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

linux中如何使用awk刪掉文件中重復的行

TL;DR

工作原理

為什么不用 uniq 命令？

其他方法

使用 sort 命令

使用 cat + sort + cut

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

linux中如何使用awk刪掉文件中重復的行

TL;DR

工作原理

為什么不用 uniq 命令？

其他方法

使用 sort 命令

使用 cat + sort + cut

猜你喜歡

最新資訊

相關推薦

相關標簽