您好,登錄后才能下訂單哦!
這篇文章主要介紹cutadapt如何去除adapter序列,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!
對于NGS數據分析而言,第一步都是進行質量控制,質量控制包括去除adapter序列,去除低質量序列等內容。在文庫構建階段,為了能夠上機測序,會在插入片段兩端添加adapter序列。當測序讀長超過了插入片段長度時,就會讀取到adapter序列。
adapter序列是人為引入的序列,而我們之關心插入片段的測序結果,所以首先要做的就是去除adapter序列。在去除adapter序列時,需要考慮以下兩個因素
由于測序錯誤率的原因,測序得到的adapter序列會和原本的adapter序列存在幾個堿基的誤差,所以去除adapter序列時必須允許堿基的錯配
由于插入片段的長度在一定范圍內變化,而adpter序列出現在兩端的位置,所以測序讀到的adapter序列可能只是原本adapter的部分序列
cutadapt 是一款對NGS數據進行質量過濾的軟件,無論是5’端adapter,還是3’端adapter, 都可以有效的去除,同時也可以過濾低質量,去除長度太短的序列。
這個軟件采用python開發,安裝方便,代碼如下
pip install cutadapt
對于3’端序列,可能存在以下情況
綠色部分為adapter序列,灰色部分為軟件會去除掉的序列,可以看到,無論是只讀取到部分adapter序列還是完整的adapter序列,軟件都能夠有效的去除3’端adapter序列。
用法如下
cutadapt -a AACCGGTT -o output.fastq input.fastq
針對目前主流的雙端測序數據,adapter序列都是出現在3’端,R1序列的3’端可能出現3’adapter 序列,R2端序列的3’端會出現5’端adpter的反向互補序列,示意如下
需要注意的是,無論是R1端還是R2端,其5’端都不會出現adapter,因為測序反應是直接從插入片段開始的。對于雙端數據,只需要分別對R1和R2序列去除3’端adapter序列就可以了。
cutadapt 軟件也支持去除5’端adapter序列,雖然測序反應中不會出現5’adapter, 但是這里adapter的概念可以延伸一下,比如PCR引物序列。在某些測序策略中,首選需要用PCR反應擴增出目的片段,然后在建庫。如果想要去除插入片段5’端的PCR引物,這個用法就派上了用場。
對于5’端序列,可能存在以下情況
綠色部分為adapter序列,灰色部分為軟件會去除掉的序列,前兩種格式和,無論是只讀取到部分adapter序列還是完整的adapter序列,軟件都能夠有效的去除5’端adapter序列。
用法如下
cutadapt -g AACCGGTT -o output.fastq input.fastq
在查找adapter序列時,cutadapt還提供了Anchored
模式,在該模式下,必須查找到完整的adapter序列后,才會進行切除工作。
3’端Anchored模式寫法如下
cutadapt -a AACCGGTT$ -o output.fastq input.fastq
5’端Anchored模式寫法如下
cutadapt -g ^AACCGGTT -o output.fastq input.fastq
cutadapt在查找adapter時, 有以下兩種默認行為
假設adapter 序列是ADAPTER, 此時對于以下3種情況
ADABTER 有一個錯配, ADAPTR 有一個缺失 ADAPPTER 有一個插入
cutadapt 都認為是adapter序列,然后進行去除。可以采用-e
參數 指定錯配的比例, 默認-e 為0.1, 比如adapter序列長度為21,允許的錯配數為 21 * 0.1 = 2.1, 然后直接向下取整后為2, 所以允許的錯配數為2;可以采用-no-indels
參數來禁止插入和缺失。
cutadapt默認允許部分匹配,比如 adapter 序列為ADAPTER
, 測序得到的序列為ATCGATGCTADCGAGCGC
,在序列中間位置的AD
是adapter 序列的一部分, 此時會把AD以及之后的序列全部剪切掉,這種情況屬于錯誤的判別。為了防止此類錯誤判別的出現,cutadapt 默認必須至少有3個堿基匹配時才會認為是adapter 序列,然后進行切除, 這個閾值可以通過 --overlap
參數來指定。
cutdadapt還支持根據質量進行過濾,用法如下
cutadapt -q 10 -o output.fastq input.fastq
低質量序列通常出現在reads的3’端,上述寫法表示對3’端低質量堿基進行過濾,質量的閾值為10,具體計算過程如下,假設一段序列質量編碼為
42, 40, 26, 27, 8, 7, 11, 4, 2, 3
質量過濾的閾值-q
為10,則首先減去10
32, 30, 16, 17, -2, -3, 1, -6, -8, -7
然后從從末端開始累加,得到如下數值
(70), (38), 8, -8, -25, -23, -20, -21, -15, -7
-25 最小,所以保留-25 之前的堿基, 即保留前4位堿基,后續堿基認為是低質量堿基,直接切除掉。
cutadapt 也可以根據長度對序列進行過濾,-m
參數指定序列的最小長度,低于該長度的序列會被過濾掉,-M
參數指定序列的最大長度,大于該長度的序列會被過濾掉。
以上是“cutadapt如何去除adapter序列”這篇文章的所有內容,感謝各位的閱讀!希望分享的內容對大家有幫助,更多相關知識,歡迎關注億速云行業資訊頻道!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。