您好,登錄后才能下訂單哦!
怎樣從UCSC下載基因組的GTF文件,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。
從UCSC下載基因組的GTF文件有兩種方式,一種是利用table browser 瀏覽器,另外一種是通過FTP服務。
Table Browser提供了一個檢索和下載的入口,支持多種格式的下載,下載gtf文件只是其中一個功能,網址如下
http://genome.ucsc.edu/cgi-bin/hgTables
第一行的3個標簽用于確定確定物種和版本。clade
提供了物種分類,包括以下類型
Mammal 哺乳動物
Vertebrate 脊椎動物
Deuterostome 后口動物
Insect 昆蟲
Nematode 線蟲
Viruses 病毒
other 其他
從這里的類別也可以發現,UCSC主要提供了動物的基因組,如果想要下載植物基因組的相關文件,只能考慮NCBI,Ensembl了。根據clade
的類別,可以快速查找物種。genome
選擇對應的物種名字,assembly
選擇基因組版本。
group
用于選擇文件保存信息的類型,提供了以下類型
Mapping and Sequencing
Genes and Gene Predictions
Phenotype and Literature
mRNA and EST
Expression
Regulation
Comparative Genomics
Variation
Repeats
All Tracks
All Tables
GTF文件保存的是基因和轉錄本的結構信息,所以選擇2,track
選擇對應的數據庫和版本,通常選擇NCBI RefSeq
。
table
選擇數據,對于NCBI RefSeq, 提供了如下選擇
RefSeq All
RefSeq Curated
RefSeq Predicted
UCSC RefSeq
RefSeq All代表RefSeq中所有的轉錄本信息,RefSeq Curated代表核對過的數據,可信度較高,以NM
, NR
, YP
開頭,RefSeq Predicted代表預測的數據,以XM
, XR
開頭;UCSC RefSeq 代表所有以NM
, NR
開頭的轉錄本信息。通常選擇UCSC RefSeq
即可。
region
選擇下載的區域,是選擇整個基因組,還是只是染色體上的部分區域。output format
選擇輸出文件格式,常用的有以下兩種
GTF(limited)
BED
output file
指定輸出文件的名字,如果不指定,默認會顯示在瀏覽器中共,如果下載整個基因組的信息,建議填寫輸出文件的名字,file type returned
選擇返回文件的格式,支持返回壓縮文件。
通過簡單的勾選,就可以下載到GTF文件了。但是這種方式下載的GTF文件是有限制的,只包含了轉錄本ID, 示例如下
chr1 hg38_refGene exon 11106531 11107500 0.000000 - . gene_id "NM_004958"; transcript_id "NM_004958";
轉錄本對應的基因名稱時非常重要的信息,如果要解決這個問題,可以通過FTP服務器進行下載。
UCSC的FTP服務提供了物種的注釋文件供下載,hg38的FTP地址如下
http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/
但是FTP中并沒有直接提供bed12, gtf 格式的文件,因為這些格式存在冗余信息,文件大小會比較大。為例節省磁盤空間,UCSC提出來genePred
這種格式。這種格式每一行代表一個轉錄本信息,冗余信息較少。更多的介紹可以參考官方文檔
https://genome.ucsc.edu/FAQ/FAQformat.html#format9
UCSC RefSeq這種信息對應的文件為refGene.txt.gz
, 對于該文件,需要借助UCSC官方提供的格式轉換工具轉換為gtf格式。
其中genePredToGtf
就是把genepred格式轉換為gtf格式的工具。使用方式如下
wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gz gunzip refGene.txt.gz cut -f 2- refGene.txt | genePredToGtf file stdin -source=hg38_Ref hg38.gtf
refGene.txt的第一列信息是多余的,刪除之后,整個文件就是genePred
格式了。最終生成的文件如下
chr20 hg19_Ref exon 63865228 63865384 . + . gene_id "TPD52L2"; transcript_id "NM_003288"; exon_number "1"; exon_id "NM_003288.1"; gene_name "TPD52L2";
可以看到,gene_id的信息是有了。但是還是有點不足之處,相比NCBI和Ensembl, UCSC提供的GTF文件中共缺少了gene_biotype的信息,無法確定基因類型。
關于怎樣從UCSC下載基因組的GTF文件問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注億速云行業資訊頻道了解更多相關知識。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。