您好,登錄后才能下訂單哦!
這篇文章跟大家分析一下“Shell 腳本編程的實踐是怎樣的”。內容詳細易懂,對“Shell 腳本編程的實踐是怎樣的”感興趣的朋友可以跟著小編的思路慢慢深入來閱讀一下,希望閱讀后能夠對大家有所幫助。下面跟著小編一起深入學習“Shell 腳本編程的實踐是怎樣的”的知識吧。
開頭有“蛇棒”
所謂shebang其實就是在很多腳本的第一行出現的以#!開頭的注釋,他指明了當我們沒有指定解釋器的時候默認的解釋器,一般可能是下面這樣:
#!/bin/bash
當然,解釋器有很多種,除了bash之外,我們可以用下面的命令查看本機支持的解釋器:
$ cat /etc/shells#/etc/shells: valid login shells/bin/sh/bin/dash/bin/bash/bin/rbash/usr/bin/screen
當我們直接使用./a.sh來執行這個腳本的時候,如果沒有shebang,那么它就會默認用$SHELL指定的解釋器,否則就會用shebang指定的解釋器。
這種方式是我們推薦的使用方式。
注釋,顯然是一個常識,不過這里還是要再強調一下,這個在shell腳本里尤為重要。因為很多單行的shell命令不是那么淺顯易懂,沒有注釋的話在維護起來會讓人尤其的頭大。
注釋的意義不僅在于解釋用途,而在于告訴我們注意事項,就像是一個README。
具體的來說,對于shell腳本,注釋一般包括下面幾個部分:
這一點很重要,當我們的腳本需要接受參數的時候,我們一定要先判斷參數是否合乎規范,并給出合適的回顯,方便使用者了解參數的使用。
最少,最少,我們至少得判斷下參數的個數吧:
if [[ $# != 2 ]];then echo "Parameter incorrect." exit 1fi
一般情況下我們會將一些重要的環境變量定義在開頭,確保這些變量的存在。
source /etc/profileexport PATH=”/usr/local/bin:/usr/bin:/bin:/usr/local/sbin:/usr/sbin:/sbin:/apps/bin/”
這種定義方式有一個很常見的用途,最典型的應用就是,當我們本地安裝了很多java版本時,我們可能需要指定一個java來用。那么這時我們就會在腳本開頭重新定義JAVA_HOME以及PATH變量來進行控制。同時,一段好的代碼通常是不會有很多硬編碼在代碼里的“魔數”的。如果一定要有,通常是用一個變量的形式定義在開頭,然后調用的時候直接調用這個變量,這樣方便日后的修改。
對于shell腳本,縮進是個大問題。因為很多需要縮進的地方(比如if,for語句)都不長,所有很多人都懶得去縮進,而且很多人不習慣用函數,導致縮進功能被弱化。
其實正確的縮進是很重要的,尤其是在寫函數的時候,否則我們在閱讀的時候很容易把函數體跟直接執行的命令搞混。
常見的縮進方法主要有”soft tab”和”hard tab”兩種。
所謂命名規范,基本包含下面這幾點:
在寫腳本的時候盡量使用UTF-8編碼,能夠支持中文等一些奇奇怪怪的字符。不過雖然能寫中文,但是在寫注釋以及打log的時候還是盡量英文,畢竟很多機器還是沒有直接支持中文的,打出來可能會有亂碼。這里還尤其需要注意一點,就是當我們是在windows下用utf-8編碼來寫shell腳本的時候,一定要注意這個utf-8是否是有BOM的。默認情況下windows判斷utf-8格式是通過在文件開頭加上三個EF BB BF字節來判斷的,但是在Linux中默認是無BOM的。因此如果我們是在windows下寫腳本的時候,一定要注意將編碼改成Utf-8無BOM,一般用notepad++之類的編輯器都能改。否則,在Linux下運行的時候就會識別到開頭的三個字符,從而報一些無法識別命令的錯。當然,對于跨平臺寫腳本還有一個比較常見的問題就是換行符不同。windows默認是\r\n而unix下是\n。不過有兩個小工具可以非常方便的解決這個問題:dos2unix,unix2dos。
這一點雖然很小,但是我個人卻經常忘記,不加執行權限會導致無法直接執行,有點討厭。。。
日志的重要性不必多說,能夠方便我們回頭糾錯,在大型的項目里是非常重要的。
如果這個腳本是供用戶直接在命令行使用的,那么我們最好還要能夠在執行時實時回顯執行過程,方便用戶掌控。
有時候為了提高用戶體驗,我們會在回顯中添加一些特效,比如顏色啊,閃爍啊之類的,具體可以參考ANSI/VT100 Control sequences這篇文章的介紹。
不要把密碼硬編碼在腳本里,不要把密碼硬編碼在腳本里,不要把密碼硬編碼在腳本里。
重要的事情說三遍,尤其是當腳本托管在類似Github這類平臺中時。。。
在調用某些程序的時候,參數可能會很長,這時候為了保證較好的閱讀體驗,我們可以用反斜杠來分行:
./configure \–prefix=/usr \–sbin-path=/usr/sbin/nginx \–conf-path=/etc/nginx/nginx.conf \
注意在反斜杠前有個空格。
代碼有效率
在使用命令的時候要了解命令的具體做法,尤其當數據處理量大的時候,要時刻考慮該命令是否會影響效率。
比如下面的兩個sed命令:
sed -n '1p' filesed -n '1p;1q' file
他們的作用一樣,都是獲取文件的第一行。但是第一條命令會讀取整個文件,而第二條命令只讀取第一行。當文件很大的時候,僅僅是這樣一條命令不一樣就會造成巨大的效率差異。
當然,這里只是為了舉一個例子,這個例子真正正確的用法應該是使用head -n1 file命令。。。
幾乎所有的大佬都推薦在使用”$”來獲取變量的時候最好加上雙引號。
不加上雙引號在很多情況下都會造成很大的麻煩,為什么呢?舉一個例子:
#!/bin/sh#已知當前文件夾有一個a.sh的文件var="*.sh"echo $varecho "$var"
他的運行結果如下:
a.sh*.sh
為啥會這樣呢?其實可以解釋為他執行了下面的命令:
echo *.shecho "*.sh"
在很多情況下,在將變量作為參數的時候,一定要注意上面這一點,仔細體會其中的差異。上面只是一個非常小的例子,實際應用的時候由于這個細節導致的問題實在是太多了。。。
我們知道,像java,C這樣的編譯型語言都會有一個函數入口,這種結構使得代碼可讀性很強,我們知道哪些直接執行,那些是函數。但是腳本不一樣,腳本屬于解釋性語言,從第一行直接執行到最后一行,如果在這當中命令與函數糅雜在一起,那就非常難讀了。
用python的朋友都知道,一個合乎標準的python腳本大體上至少是這樣的:
#!/usr/bin/env pythondef func1(): passdef func2(): passif __name__=='__main__': func1() func2()
他用一個很巧妙的方法實現了我們習慣的main函數,使得代碼可讀性更強。
在shell中,我們也有類似的小技巧:
#!/usr/bin/env bashfunc1(){ #do sth}func2(){ #do sth}main(){ func1 func2}main "$@"
我們可以采用這種寫法,同樣實現類似的main函數,使得腳本的結構化程度更好。
shell中默認的變量作用域都是全局的,比如下面的腳本:
#!/usr/bin/env bashvar=1func(){ var=2}funcecho $var
他的輸出結果就是2而不是1,這樣顯然不符合我們的編碼習慣,很容易造成一些問題。
因此,相比直接使用全局變量,我們最好使用local readonly這類的命令,其次我們可以使用declare來聲明變量。這些方式都比使用全局方式定義要好。
在使用函數的時候一定要注意,shell中函數的返回值只能是整數,估計是因為一般情況下一個函數的返回值通常表示這個函數的運行狀態,所以一般都是0或者是1就夠了,因此就設計成了這樣。不過,如果非得想傳遞字符串,也可以通過下面變通的方法:
func(){ echo "2333"}res=$(func)echo "This is from $res."
這樣,通過echo或者print之類的就可以做到傳一些額外參數的目的。
什么叫間接引用?比如下面這個場景:
VAR1="2323232"VAR2="VAR1"
我們有一個變量VAR1,又有一個變量VAR2,這個VAR2的值是VAR1的名字,那么我們現在想通過VAR2來獲取VAR1的值,這時候應該怎么辦呢?
比較土鱉的方法是這樣:
eval echo \$$VAR2
啥意思呢?其實就是構造了一個字符串echo XXX,這個XXX就是XXX”,這個XXX就是VAR2的值VAR1,然后再用eval強制解析,這樣就做到了變相取值。
這個用法的確可行,但是看起來十分的不舒服,很難直觀的去理解,我們并不推薦。而且事實上我們本身就不推薦使用eval這個命令。
比較舒服的寫法是下面這樣:
echo ${!VAR1}
通過在變量名前加一個!就可以做到簡單的間接引用了。
不過需要注意的是,用上面的方法,我們只能夠做到取值,而不能做到賦值。如果想要做到賦值,還要老老實實的用eval來處理:
VAR1=VAR2eval $VAR1=233echo $VAR2
所謂heredocs,也可以算是一種多行輸入的方法,即在”
使用heredocs,我們可以非常方便的生成一些模板文件:
cat>>/etc/rsyncd.conf local/logs/rsyncd.logtransfer logging = yeslog format = %t %a %m %f %bsyslog facility = local3EOF
很多情況下,我們會先獲取當前腳本的路徑,然后一這個路徑為基準,去找其他的路徑。通常我們是直接用pwd以期獲得腳本的路徑。
不過其實這樣是不嚴謹的,pwd獲得的是當前shell的執行路徑,而不是當前腳本的執行路徑。
正確的做法應該是下面這兩種:
script_dir=$(cd $(dirname $0) && pwd)script_dir=$(dirname $(readlink -f $0 ))
應當先cd進當前腳本的目錄然后再pwd,或者直接讀取當前腳本的所在路徑。
這里的簡短不單單是指代碼長度,而是只用到的命令數。原則上我們應當做到,能一條命令解決的問題絕不用兩條命令解決。這不僅牽涉到代碼的可讀性,而且也關乎代碼的執行效率。
最最經典的例子如下:
cat /etc/passwd | grep rootgrep root /etc/passwd
cat命令最為人不齒的用法就是這樣,用的沒有任何意義,明明一條命令可以解決,他非得加根管道。。。
其實代碼簡短在還能某種程度上能保證效率的提升,比如下面的例子:
#method1find . -name '*.txt' |xargs sed -i s/233/666/gfind . -name '*.txt' |xargs sed -i s/235/626/gfind . -name '*.txt' |xargs sed -i s/333/616/gfind . -name '*.txt' |xargs sed -i s/233/664/g#method1find . -name '*.txt' |xargs sed -i "s/233/666/g;s/235/626/g;s/333/616/g;s/233/664/g"
這兩種方法做的事情都一樣,就是查找所有的.txt后綴的文件并做一系列替換。前者是多次執行find,后者是執行一次find,但是增加了sed的模式串。第一種更直觀一點,但是當替換的量變大的時候,第二種的速度就會比第一種快很多。這里效率提升的原因,就是第二種只要執行一次命令,而第一種要執行多次。并且,巧用xargs命令,我們還可以十分方便的進行并行化處理:
find . -name '*.txt' |xargs -P $(nproc) sed -i "s/233/666/g;s/235/626/g;s/333/616/g;s/233/664/g"
通過-P參數指定并行度,可以進一步加快執行效率。
當我們需要充分考慮執行效率時,我們可能需要在執行命令的時候考慮并行化。shell中最簡單的并行化是通過”&”以及”wait”命令來做:
func(){ #do sth}for((i=0;i
當然,這里并行的次數不能太多,否則機器會卡死。稍微正確的做法比較復雜,以后再討論,如果圖省事可以使用parallel命令來做,或者是用上面提到的xargs來處理。
我們知道,當我們想在文件夾下所有的txt文件中檢索某一個字符串(比如233)的時候,我們可能會用類似這樣的命令:
find . -name '*.txt' -type f | xargs grep 2333
很多情況下,這個命令會想我們所想的找到對應的匹配行,但是我們需要注意兩個小問題。
find命令會符合要求的匹配文件名,但是如果文件名包含空格,這時候將文件名傳給grep的時候就會有問題,這個文件就會被當成兩個參數,這時候就要加一層處理,保證用空格分開的文件名不會被當成兩個參數:
find . -type f|xargs -i echo '"{}"'|xargs grep 2333
有時候,文件的字符集可能跟終端的字符集不一致,這時候就會導致grep在搜索時將文件當成二進制文件從而報binary file matches之類的問題。這時候要么用iconv之類的字符集轉換工具將字符集進行切換,要么就在不影響查找的情況下對grep加-a參數,將所有文件看成文本文件:
find . -type f|xargs grep -a 2333
這里的新寫法不是指有多厲害,而是指我們可能更希望使用較新引入的一些語法,更多是偏向代碼風格的,比如
盡量使用func(){}來定義函數,而不是func{}
盡量使用[[]]來代替[]
盡量使用$()將命令的結果賦給變量,而不是反引號
在復雜的場景下盡量使用printf代替echo進行回顯
事實上,這些新寫法很多功能都比舊的寫法要強大,用的時候就知道了。
考慮到還有很多零碎的點,就不一一展開了,這里簡單提一提。
路徑盡量保持絕對路徑,絕多路徑不容易出錯,如果非要用相對路徑,最好用./修飾
優先使用bash的變量替換代替awk sed,這樣更加簡短
簡單的if盡量使用&& ||,寫成單行。
比如[[ x > 2]] && echo x
當export變量時,盡量加上子腳本的namespace,保證變量不沖突
會使用trap捕獲信號,并在接受到終止信號時執行一些收尾工作
使用mktemp生成臨時文件或文件夾
利用/dev/null過濾不友好的輸出信息
會利用命令的返回值判斷命令的執行情況
使用文件前要判斷文件是否存在,否則做好異常處理
不要處理ls后的數據(比如ls -l | awk ‘{ print $8 }’),ls的結果非常不確定,并且平臺有關
讀取文件時不要使用for loop而要使用while read
使用cp -r命令復制文件夾的時候要注意如果目的文件夾不存在則會創建,如果存在則會復制到該文件的子文件夾下
為了從制度上保證腳本的質量,我們最簡單的想法大概就是搞一個靜態檢查工具,通過引入工具來彌補開發者可能存在的知識盲點。
市面上對于shell的靜態檢查工具還真不多,找來找去就找到一個叫shellcheck的工具,開源在github上,有8K多的star,看上去還是十分靠譜的。我們可以去他的主頁了解具體的安裝和使用信息。
這個工具的對不同平臺的支持力度都很大,他至少支持了Debian,Arch,Gentoo,EPEL,Fedora,OS X,openSUSE等等各種的平臺的主流包管理工具。安裝方便。具體可以參照安裝文檔
既然是靜態檢查工具,就一定可以集成在CI框架里,shellcheck可以非常方便的集成在Travis CI中,供以shell腳本為主語言的項目進行靜態檢查。
在文檔的Gallery of bad code里,也提供了非常詳細的“壞代碼”的標準,具有非常不錯的參考價值,可以在閑下來的時候當成”Java Puzzlers“之類的書來讀讀還是很愜意的。
關于Shell 腳本編程的實踐是怎樣的就分享到這里啦,希望上述內容能夠讓大家有所提升。如果想要學習更多知識,請大家多多留意小編的更新。謝謝大家關注一下億速云網站!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。