您好,登錄后才能下訂單哦!
本篇內容介紹了“Linux中awk語法怎么使用”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
一種名字怪異的語言
模式掃描和處理,處理數據和生成報告。
awk不僅僅是linux系統中的一個命令,而且是一種編程語言;它可以用來處理數據和生成報告(excel);處理的數據可以是一個或多個文件;可以是直接來自標準輸入,也可以通過管道獲取標準輸入;awk可以在命令行上直接編輯命令進行操作,也可以編寫成awk程序來進行更為復雜的運用。
sed處理stream editor文本流,水流。
本文涉及的awk為gawk,即GNU版本的awk。
[root@creditease awk]# cat /etc/redhat-release CentOS Linux release 7.5.1804 (Core) [root@creditease awk]# uname -r 3.10.0-862.el7.x86_64 [root@creditease awk]# ll `which awk` lrwxrwxrwx. 1 root root 4 Nov 7 14:47 /usr/bin/awk -> gawk [root@creditease awk]# awk --version GNU Awk 4.0.2
awk指令是由模式、動作,或者模式和動作的組合組成。
模式即pattern,可以類似理解成sed的模式匹配,可以由表達式組成,也可以是兩個正斜杠之間的正則表達式。比如NR==1,這就是模式,可以把它理解為一個條件。
動作即action,是由在大括號里面的一條或多條語句組成,語句之間使用分號隔開。如下awk使用格式。
名稱 | 含義 |
---|---|
record | 記錄,行 |
filed | 域,區域,字段,列 |
1)NF(number of field)表示一行中的區域(列)數量,$NF取最后一個區域。
2)$符號表示取某個列(區域),$1,$2,$NF
3)NR (number of record) 行號,awk對每一行的記錄號都有一個內置變量NR來保存,每處理完一條記錄NR的值就會自動+1
4)FS(-F)field separator 列分隔符,以什么把行分隔成多列
[root@creditease awk]# awk -F "#" '{print $NF}' awk.txt GKL$123 GKL$213 GKL$321 [root@creditease awk]# awk -F '[#$]' '{print $NF}' awk.txt 123 213 321
[root@creditease awk]# cat awk.txt ABC#DEF#GHI#GKL$123 BAC#DEF#GHI#GKL$213 CBA#DEF#GHI#GKL$321 [root@creditease awk]# awk -F "#" 'NR==1{print $1}' awk.txt ABC
[root@creditease awk]# awk -F "#" 'NR==1' awk.txt ABC#DEF#GHI#GKL$123
默認會有動作{print $0}
[root@creditease awk]# awk -F "#" '{print $1}' awk.txt ABC BAC CAB
默認處理所有行
[root@creditease awk]# awk -F "#" 'NR==1{print $NF}NR==3{print $NF}' awk.txt GKL$123 GKL$321
awk中$0表示整行
[root@creditease awk]# awk '{print $0}' awk_space.txt ABC DEF GHI GKL$123 BAC DEF GHI GKL$213 CBA DEF GHI GKL$321
FNR與NR類似,不過多文件記錄不遞增,每個文件都從1開始(后邊處理多文件會講到)
[root@creditease awk]# awk '{print NR}' awk.txt awk_space.txt 1 2 3 4 5 6 [root@creditease awk]# awk '{print FNR}' awk.txt awk_space.txt 1 2 3 1 2 3
awk同sed一樣也可以通過模式匹配來對輸入的文本進行匹配處理。 awk也支持大量的正則表達式模式,大部分與sed支持的元字符類似,而且正則表達式是玩轉三劍客的必備工具。
awk支持的正則表達式元字符
awk默認不支持的元字符,和需要添加參數才能支持的元字符
元字符 | 功能 | 示例 | 解釋 |
---|---|---|---|
x{m} | x重復m次 | /cool{5}/ | 需要注意一點的是,cool加括號或不加括號的區別,x可以使字符串也可以只是一個字符,所以/cool{5}/表示匹配coo再加上5個l,即coolllll。/(cool){2,}/表示匹配coolcool,coolcoolcool等。 |
x{m,} | x重復至少m次 | /(cool){2,}/ | 同上 |
x{m,n} | x重復至少m次,但不超過n次,需要指定參數:--posix或者--re-interval。沒有該參數不能使用這種模式 | /(cool){5,6}/ | 同上 |
正則表達式的運用,默認是在行內查找匹配的字符串,若有匹配則執行action操作,但是有時候僅需要固定的列表匹配指定的正則表達式。
比如:
我想取/etc/passwd文件中第五列($5)這一列查找匹配mail字符串的行,這樣就需要用另外兩個匹配操作符。并且awk里面只有這兩個操作符來匹配正則表達式的。
正則匹配操作符 | |
---|---|
~ | 用于對記錄或區域的表達式進行匹配。 |
!~ | 用于表達與~相反的意思。 |
1)顯示awk.txt中GHI列
[root@creditease awk]# cat awk.txt ABC#DEF#GHI#GKL$123 BAC#DEF#GHI#GKL$213 CBA#DEF#GHI#GKL$321 [root@creditease awk]# awk -F "#" '{print $3}' awk.txt GHI GHI GHI [root@creditease awk]# awk -F "#" '{print $(NF-1)}' awk.txt GHI GHI GHI
2)顯示包含321的行
[root@creditease awk]# awk '/321/{print $0}' awk.txt CBA#DEF#GHI#GKL$321
3)以#為分隔符,顯示第一列以B開頭或最后一列以1結尾的行
[root@creditease awk]# awk -F "#" '$1~/^B/{print $0}$NF~/1$/{print $0}' awk.txt BAC#DEF#GHI#GKL$213 CBA#DEF#GHI#GKL$321
4)以#為分隔符,顯示第一列以B或C開頭的行
[root@creditease awk]# awk -F "#" '$1~/^B|^C/{print $0}' awk.txt BAC#DEF#GHI#GKL$213 CBA#DEF#GHI#GKL$321 [root@creditease awk]# awk -F "#" '$1~/^[BC]/{print $0}' awk.txt BAC#DEF#GHI#GKL$213 CBA#DEF#GHI#GKL$321 [root@creditease awk]# awk -F "#" '$1~/^(B|C)/{print $0}' awk.txt BAC#DEF#GHI#GKL$213 CBA#DEF#GHI#GKL$321 [root@creditease awk]# awk -F "#" '$1!~/^A/{print $0}' awk.txt BAC#DEF#GHI#GKL$213 CBA#DEF#GHI#GKL$321
awk是一種編程語言,能夠進行更為復雜的判斷,當條件為真時,awk就執行相關的action,主要是在針對某一區域做出相關的判斷,比如打印成績在80分以上的,這樣就必須對這一個區域作比較判斷.
下表列出了awk可以使用的關系運算符,可以用來比較數字字符串,還有正則表達式,當表達式為真的時候,表達式結果為1,否則為0,只有表達式為真,awk才執行相關的action。
awk支持的關系運算符
運算符 | 含義 | 示例 |
---|---|---|
< | 小于 | x>y |
<= | 小于或等于。 | x<=y |
== | 等于 | x==y |
!= | 不等于 | x!=y |
>= | 大于或等于 | x>=y |
> | 大于 | x<y |
顯示awk.txt的第2 ,3 行
NR //,//
[root@creditease awk]# awk 'NR==2{print $0}NR==3{print $0}' awk.txt BAC#DEF#GHI#GKL$213 CBA#DEF#GHI#GKL$321 [root@creditease awk]# awk 'NR>=1{print $0}' awk.txt ABC#DEF#GHI#GKL$123 BAC#DEF#GHI#GKL$213 CBA#DEF#GHI#GKL$321 [root@creditease awk]# awk '/BAC/,/CBA/{print $0}' awk.txt BAC#DEF#GHI#GKL$213 CBA#DEF#GHI#GKL$321
完整awk結構圖如下:
BEGIN模塊在awk讀取文件之前就執行,BEGIN模式常常被用來修改內置變量ORS,RS,FS,OFS等的值。可以不接任何輸入文件
變量名 | 屬性 |
---|---|
$0 | 當前記錄,一整行 |
$1,$2,$3....$a | 當前記錄的第n個區域,區域間由FS分隔。 |
FS | 輸入區域分隔符,默認是空格。field separator |
NF | 當前記錄中的區域個數,就是有多少列。number of field |
NR | 已經讀出的記錄數,就是行號,從1開始。number of record |
RS | 輸入的記錄分隔符默認為換行符。record separator |
OFS | 輸出區域分隔符,默認也是空格。output record separator |
FNR | 當前文件的讀入記錄號,每個文件重新計算。 |
FILENAME | 當前正在處理的文件的文件名 |
特別提示:FS RS支持正則表達式
[root@creditease awk]# awk 'BEGIN{RS="#"}{print $0}' awk.txt ABC DEF GHI GKL$123 BAC DEF GHI GKL$213 CBA DEF GHI GKL$321
[root@creditease awk]# awk 'BEGIN{print "=======start======"}{print $0}' awk.txt =======start====== ABC#DEF#GHI#GKL$123 BAC#DEF#GHI#GKL$213 CBA#DEF#GHI#GKL$321
[root@creditease files]# awk 'BEGIN{a=8;b=90;print a+b,a-c,a/b,a%b}' 98 8 0.0888889 8
END在awk讀取完所有的文件的時候,再執行END模塊,一般用來輸出一個結果(累加,數組結果)。也可以是和BEGIN模塊類似的結尾標識信息。
[root@creditease awk]# awk 'BEGIN{print "=======start======"}{print $0}END{print "=======end======"}' awk.txt =======start====== ABC#DEF#GHI#GKL$123 BAC#DEF#GHI#GKL$213 CBA#DEF#GHI#GKL$321 =======end======
1)統計空行(/etc/services文件)
grep sed awk
[root@creditease awk]# grep "^$" /etc/services |wc -l 17 [root@creditease awk]# sed -n '/^$/p' /etc/services |wc -l 17 [root@creditease awk]# awk '/^$/' /etc/services |wc -l 17 [root@creditease awk]# awk '/^$/{i=i+1}END{print i}' /etc/services 17
2)算術題
1+2+3......+100=5050,怎么用awk表示?
[root@creditease awk]# seq 100|awk '{i=i+$0}END{print i}' 5050
1、BEGIN和END模塊只能有一個,BEGIN{}BEGIN{}或者END{}END{}都是錯誤的。
2、找誰干啥模塊,可以是多個。
awk執行過程:
1、命令行的賦值(-F或-V)
2、執行BEGIN模式里面的內容
3、開始讀取文件
4、判斷條件(模式)是否成立
成立則執行對應動作里面的內容
讀取下一行,循環判斷
直到讀取到最后一個文件的結尾
5、最后執行END模式里面的內容
people[police]=110
people[doctor]=120
[root@creditease awk]# awk 'BEGIN{word[0]="credit";word[1]="easy";print word[0],word[1]}' credit easy [root@creditease awk]# awk 'BEGIN{word[0]="credit";word[1]="easy";for(i in word)print word[i]}' credit easy
索 引數組:以數字為下標
關聯數組:以字符串為下標
現有如下文本,格式如下:即左邊是隨機字母,右邊是隨機數字, 即將相同的字母后面的數字加在一起,按字母的順序輸出
a 1 b 3 c 2 d 7 b 5 a 3 g 2 f 6
以$1為下標,創建數組a[$1]=a[$1]+$2(a[$1]+=$2)然后配合END和for循環輸出結果:
[root@creditease awk]# awk '{a[$1]=a[$1]+$2}END{for(i in a)print i,a[i]}' jia.txt a 4 b 8 c 2 d 7 f 6 g 2 注意:for(i in a) 循環的順序不是按照文本內容的順序來處理的,排序可以在命令后加sort排序
以數字為下標的數組 seq生成1-10的數字,要求只顯示計數行
[root@creditease awk]# seq 10|awk '{a[NR]=$0}END{for(i=1;i<=NR;i+=2){print a[i]}}' 1 3 5 7 9
seq生成1-10的數字,要求不顯示文件的后3行
[root@creditease awk]# seq 10|awk '{a[NR]=$0}END{for(i=1;i<=NR-3;i++){print a[i]}}' 1 2 3 4 5 6 7 解析:改變i的范圍即可,多用于不顯示文件的后幾行
a++ 和 ++a
[root@creditease awk]# awk 'BEGIN{print a++}' [root@creditease awk]# awk 'BEGIN{print ++a}' 1 [root@creditease awk]# awk 'BEGIN{a=1;b=a++;print a,b}' 2 1 [root@creditease awk]# awk 'BEGIN{a=1;b=++a;print a,b}' 2 2 注: 都是 b = a+1 b=a++ 先把 a 的值賦予b,然后 a + 1 b=++a 先執行a+1,然后把a的值賦予b
對一下文本進行去重處理 針對第二列去重
[root@creditease awk]# cat qc.txt 2018/10/20 xiaoli 13373305025 2018/10/25 xiaowang 17712215986 2018/11/01 xiaoliu 18615517895 2018/11/12 xiaoli 13373305025 2018/11/19 xiaozhao 15512013263 2018/11/26 xiaoliu 18615517895 2018/12/01 xiaoma 16965564525 2018/12/09 xiaowang 17712215986 2018/11/24 xiaozhao 15512013263
解法一: [root@creditease awk]# awk '!a[$2]++' qc.txt 2018/10/20 xiaoli 13373305025 2018/10/25 xiaowang 17712215986 2018/11/01 xiaoliu 18615517895 2018/11/19 xiaozhao 15512013263 2018/12/01 xiaoma 16965564525 解析: !a[$3]++是模式(條件),命令也可寫成awk '! a[$3]=a[$3]+1{print $0}' qc.txt a[$3]++ ,“++”在后,先取值后加一 !a[$3]=a[$3]+1:是先取a[$3]的值,比較“!a[$3]”是否符合條件(條件非0),后加1 注意:此方法去重后的結果顯示的是文本開頭開始的所有不重復的行 解法二: [root@creditease awk]# awk '++a[$2]==1' qc.txt 2018/10/20 xiaoli 13373305025 2018/10/25 xiaowang 17712215986 2018/11/01 xiaoliu 18615517895 2018/11/19 xiaozhao 15512013263 2018/12/01 xiaoma 16965564525 解析: ++a[$3]==1是模式(條件),也可寫成a[$3]=a[$3]+1==1即只有當條件(a[$3]+1的結果)為1的時候才打印出內容 ++a[$3] ,“++”在前,先加一后取值 ++a[$3]==1:是先加1,后取a[$3]的值,比較“++a[$3]”是否符合條件(值為1) 注意:此方法去重后的結果顯示的是文本開頭開始的所有不重復的行 解法三: [root@creditease awk]# awk '{a[$2]=$0}END{for(i in a){print a[i]}}' qc.txt 2018/11/12 xiaoli 13373305025 2018/11/26 xiaoliu 18615517895 2018/12/01 xiaoma 16965564525 2018/12/09 xiaowang 17712215986 2018/11/24 xiaozhao 15512013263 解析: 注意此方法去重后的結果顯示的是文本結尾開始的所有不重復的行
使用awk取file.txt的第一列和file1.txt的第二列然后重定向到一個新文件new.txt中
[root@creditease awk]# cat file1.txt a b c d e f g h i j [root@creditease awk]# cat file2.txt 1 2 3 4 5 6 7 8 9 10 [root@creditease awk]# awk 'NR==FNR{a[FNR]=$1}NR!=FNR{print a[FNR],$2}' file1.txt file2.txt a 2 c 4 e 6 g 8 i 10 解析:NR==FNR處理的是第一個文件,NR!=FNR處理的是第二個文件. 注意:當兩個文件NR(行數)不同的時候,需要把行數多的放前邊. 解決方法:把行數多的文件放前邊,行數少的文件放后邊. 把輸出的結果放入一個新文件new.txt中: [root@creditease awk]# awk 'NR==FNR{a[FNR]=$1}NR!=FNR{print a[FNR],$2>"new.txt"}' file1.txt file2.txt [root@creditease awk]# cat new.txt a 2 c 4 e 6 g 8 i 10
[root@creditease awk]# cat url.txt http://www.baidu.com http://mp4.video.cn http://www.qq.com http://www.listeneasy.com http://mp3.music.com http://www.qq.com http://www.qq.com http://www.listeneasy.com http://www.listeneasy.com http://mp4.video.cn http://mp3.music.com http://www.baidu.com http://www.baidu.com http://www.baidu.com http://www.baidu.com [root@creditease awk]# awk -F "[/]+" '{h[$2]++}END{for(i in h) print i,h[i]}' url.txt www.qq.com 3 www.baidu.com 5 mp4.video.cn 2 mp3.music.com 2 www.crediteasy.com 3
替換功能
格式:sub(r, s ,目標) gsub(r, s ,目標)
[root@creditease awk]# cat sub.txt ABC DEF AHI GKL$123 BAC DEF AHI GKL$213 CBA DEF GHI GKL$321 [root@creditease awk]# awk '{sub(/A/,"a");print $0}' sub.txt aBC DEF AHI GKL$123 BaC DEF AHI GKL$213 CBa DEF GHI GKL$321 [root@creditease awk]# awk '{gsub(/A/,"a");print $0}' sub.txt aBC DEF aHI GKL$123 BaC DEF aHI GKL$213 CBa DEF GHI GKL$321 注:sub只會替換行內匹配的第一次內容;相當于sed ‘s###’ gsub 會替換行內匹配的所有內容;相當于sed ‘s###g’ [root@creditease awk]# awk '{sub(/A/,"a",$1);print $0}' sub.txt aBC DEF AHI GKL$123 BaC DEF AHI GKL$213 CBa DEF GHI GKL$321
練習:
0001|20081223efskjfdj|EREADFASDLKJCV 0002|20081208djfksdaa|JDKFJALSDJFsddf 0003|20081208efskjfdj|EREADFASDLKJCV 0004|20081211djfksdaa1234|JDKFJALSDJFsddf 以'|'為分隔, 現要將第二個域字母前的數字去掉,其他地方都不變, 輸出為: 0001|efskjfdj|EREADFASDLKJCV 0002|djfksdaa|JDKFJALSDJFsddf 0003|efskjfdj|EREADFASDLKJCV 0004|djfksdaa1234|JDKFJALSDJFsddf 方法: awk -F '|' 'BEGIN{OFS="|"}{sub(/[0-9]+/,"",$2);print $0}' sub_hm.txt awk -F '|' -v OFS="|" '{sub(/[0-9]+/,"",$2);print $0}' sub_hm.txt
內容:
AA
BC
AA
CB
CC
AA
結果:
AA YES
BC NO YES
AA YES
CB NO YES
CC NO YES
AA YES
1) [root@creditease awk]# awk '{if($0~/AA/){print $0" YES"}else{print $0" NO YES"}}' ifelse.txt AA YES BC NO YES AA YES CB NO YES CC NO YES AA YES 解析:使用if和else,if $0匹配到AA,則打印$0 "YES",else反之打印$0 " NO YES"。 2)[root@creditease awk]# awk '$0~/AA/{print $0" YES"}$0!~/AA/{print $0" NO YES"}' ifelse.txt AA YES BC NO YES AA YES CB NO YES CC NO YES AA YES 解析:使用正則匹配,當$0匹配AA時,打印出YES,反之,打印出“NO YES”
如上題,用next來實現
next :跳過它后邊的所有代碼
[root@creditease awk]# awk '$0~/AA/{print $0" YES";next}{print $0" NO YES"}' ifelse.txt AA YES BC NO YES AA YES CB NO YES CC NO YES AA YES 解析: {print $0" NO YES"}:此動作是默認執行的,當前邊的$0~/AA/匹配,就會執行{print $0" YES";next} 因為action中有next,所以會跳過后邊的action。 如果符合$0~/AA/則打印YES ,遇到next后,后邊的動作不執行;如果不符合$0~/AA/,會執行next后邊的動作; next前邊的(模式匹配),后邊的就不執行,前邊的不執行(模式不匹配),后邊的就執行。
printf :打印后不換行
如下文本,如果 Description:之后為空,將其后一行內容并入此行。
Packages: Hello-1 Owner: me me me me Other: who care? Description: Hello world! Other2: don't care 想要結果: Packages: Hello-1 Owner: me me me me Other: who care? Description: Hello world! Origial-Owner: me me me me Other2: don't care 1)[root@creditease awk]# awk '/^Desc.*:$/{printf $0}!/Desc.*:$/{print $0}' printf.txt Packages: Hello-1 Owner: me me me me Other: who care? Description:Hello world! Other2: don't care 解析:使用正則匹配,匹配到'/^Desc.*:$/,就使用printf打印(不換行),不匹配的打印出整行。 2)使用if和else實現 [root@creditease awk]# awk '{if(/Des.*:$/){printf $0}else{print $0}}' printf.txt Packages: Hello-1 Owner: me me me me Other: who care? Description:Hello world! Other2: don't care 3)使用next實現 [root@creditease awk]# awk '/Desc.*:$/{printf $0;next}{print $0}' printf.txt Packages: Hello-1 Owner: me me me me Other: who care? Description:Hello world! Other2: don't care 注:可簡寫成awk '/Desc.*:$/{printf $0;next}1' printf.txt ## 1是pattern(模式),默認action(動作)是{print $0}
文本如下,要求計算出每項重復的個數,然后把重復次數大于2的放入gt2.txt文件中,把重復次數小于等于2的放入le2.txt文件中
[root@creditease files]# cat qcjs.txt aaa bbb ccc aaa ddd bbb rrr ttt ccc eee ddd rrr bbb rrr bbb [root@creditease awk]# awk '{a[$1]++}END{for(i in a){if(a[i]>2){print i,a[i]>"gt2.txt"}else{print i,a[i]>"le2.txt"}}}' qcjs.txt [root@creditease awk]# cat gt2.txt rrr 3 bbb 4 [root@creditease awk]# cat le2.txt aaa 2 ccc 2 eee 1 ttt 1 ddd 2 解析:{print },或括號中打印后可直接重定向到一個新文件,文件名用雙引號引起來。如: {print $1 >"xin.txt"}
a)NR==FNR ##不能寫成NR=FNR(=在awk中是賦值的意思)
b)NR!=FNR ##NR不等于FNR
c){a=1;a[NR]} 這樣會報錯:同一條命令中變量和數組名不能重復 d)printf 輸出的時候不換行
e){print },或括號中打印后可直接重定向到一個新文件,文件名用雙引號引起來。如: {print $1 >"xin.txt"}
f)當模式(條件)是0的時候,后邊的動作不執行,!0的時候后邊動作才執行。
“Linux中awk語法怎么使用”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。