您好,登錄后才能下訂單哦!
這篇“HISAT2如何使用”文章的知識點大部分人都不太理解,所以小編給大家總結了以下內容,內容詳細,步驟清晰,具有一定的借鑒價值,希望大家閱讀完這篇文章能有所收獲,下面我們一起來看看這篇“HISAT2如何使用”文章吧。
轉錄組比對軟件HISAT2的使用說明
轉錄組分析的常用分析流程,目前都由Hophat + cufflinks 組合轉向了 采用HISTA + StringTie 組合。該組合的Protocol 可參考發表在Nature Protocol 上的文章“Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown”
首先來看看比對的軟件HISTA,其速度和精度都較Tophat 有很大的提升。
其使用說明如下:
hisat2 [options]* -x <ht2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA accession number>} [-S <sam>]
<ht2-idx> Index 文件的前綴 (*.X.ht2)
<m1> read1 文件 (支持gz,bzip2壓縮格式)
<m2> read2 文件 (支持gz,bzip2壓縮格式)
<r> 輸出 unpaired 比對序列(支持gz,bzip2壓縮格式)
<SRA accession number> 支持對NCBI SRA數據的下載,采用逗號分隔不同SRA號
<sam> 比對結果SAM 文件的輸出 (默認: 標準輸出)
<m1>, <m2>, <r> 支持輸入一個用逗號隔開的文件列表,也支持多次輸入 比如: '-U file1.fq,file2.fq -U file3.fq'.
選項 (括號中是默認值):
輸入:
-q 輸入文件格式是FASTQ .fq/.fastq (default)
--qseq q輸入文件格式是 Illumina's qseq format
-f 輸入文件格式是多序列的FASTA .fa/.mfa
-r 輸入是一行序列
-c <m1>, <m2>, <r> are sequences themselves, not files
-s/--skip <int> 跳過輸入文件前面的 <int> reads/pairs (none)
-u/--upto <int> 超過輸入文件前面的 <int> reads/pairs 就停止程序(no limit)
-5/--trim5 <int> 去除Reads 5'/左邊 <int> 堿基 (0)
-3/--trim3 <int> 去除Reads 3'/r右邊 <int> 堿基 (0)
--phred33 序列質量值編碼是 Phred+33 (默認編碼格式)
--phred64 序列質量值編碼是Phred+64
--int-quals 序列質量值是用空格分開的數字
--sra-acc SRA 登錄號
比對:
--n-ceil <func> 允許非A/C/G/Ts 在比對中的比例 (L,0,0.15)
--ignore-quals 如果忽略測序質量值,則默認質量值為30 (off)
--nofw 不比對正向的reads (off)
--norc 不比對反向互補的reads (off)
剪切比對:
--pen-cansplice <int> 正常剪切位點的罰分 (0)
--pen-noncansplice <int> 非正常剪切位點的罰分 (12)
--pen-canintronlen <func> 長內含子正常剪切位點的罰分函數 (G,-8,1)
--pen-noncanintronlen <func> 長內含子非正常剪切位點的罰分函數 (G,-8,1)
--min-intronlen <int> 內含子最小長度 (20)
--max-intronlen <int> 內含子最大長度 (500000)
--known-splicesite-infile <path> 指定已知的剪切位點文件
--novel-splicesite-outfile <path> 發現(報告)新的剪切位點
--novel-splicesite-infile <path> 指定一些新的可變剪切位點
--no-temp-splicesite disable the use of splice sites found
--no-spliced-alignment 停用剪切比對
--rna-strandness <string> 只能RNA的連特異性 (unstranded)
--tmo 只報告與已知的轉錄本比對上的reads
--dta 報告專門為轉錄本組裝的比對reads
--dta-cufflinks 報告專門為cufflinks組裝的比對reads
打分:
--ma <int> 匹配得分 (0 for --end-to-end, 2 for --local)
--mp <int>,<int> 位點錯誤匹配的最大和最小罰分,低質量,低罰分 <2,6>
--sp <int>,<int> max and min penalties for soft-clipping; lower qual = lower penalty <1,2>
--np <int> 非A/C/G/Ts 匹配的罰分 (1)
--rdg <int>,<int> read 空格開放和延伸的罰分(5,3)
--rfg <int>,<int> 參考序列空格開放和延伸的罰分 (5,3)
--score-min <func> 最小可接受的比對打分 (L,0.0,-0.2)
比對報告輸出:
(default) 多對比結果,只報告最好的比對
OR
-k <int> 多比對結果,最多可報告的比對數量
OR
-a/--all 報告全部對比對結果
雙端比對:
--fr/--rf/--ff reads 比對的方向 fw/rev, rev/fw, fw/fw (--fr)
--no-mixed 不做非配對的reads 比對
--no-discordant 比做距離不一致的reads 比對
輸出:
-t/--time 輸出在搜索過程中的使用的時間情況
--un <path> 未比對上的reads 輸出路徑 <path>
--al <path> 一端比對上的reads 輸出路徑 <path>
--un-conc <path> 比對位置不一致的reads 輸出路徑 <path>
--al-conc <path> 至少有一個位置比對一致的reads 輸出路徑 <path>
--un-gz <path>, to gzip compress output, or add '-bz2' to bzip2 compress output.)
--quiet 除非有嚴重錯誤,否則不打印錯誤輸出
--met-file <path> 保存metrics 到文件 <path> (off)
--met-stderr 打印metrics 大標準錯誤輸出 (off)
--met <int> 多少秒報告一次內部 counters 和 metrics (1)
--no-head 在SAM文件中不輸出head信息
--no-sq 在SAM文件中不輸出head的@SQ 信息
--rg-id <text> 設置reads ID信息
--rg <text> 增加reads 分組信息
--omit-sec-seq put '*' in SEQ and QUAL fields for secondary alignments.
性能:
-o/--offrate <int> 覆蓋index的offrate
-p/--threads <int> 比對的線程數 (1)
--reorder 強制保持輸出SAM文件中reads的順序同輸入的reads一致
--mm 通過內存共享index, 使得多個bowtie能共享
其他:
--qc-filter 過濾質量值低的reads
--seed <int> 生成隨機數的seed(種子) (0)
--non-deterministic 隨機數生成采用種子(seed) 代替reads的屬性
--remove-chrname 在比對結果中刪除參考序列名稱上的'chr'
--add-chrname 在比對結果中給參考序列名稱加上 'chr'
--version 輸出軟件的版本信息
-h/--help 輸出軟件的使用文檔
以上就是關于“HISAT2如何使用”這篇文章的內容,相信大家都有了一定的了解,希望小編分享的內容對大家有幫助,若想了解更多相關的知識內容,請關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。