91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎樣從UCSC下載基因組的GTF文件

發布時間:2021-12-16 16:54:41 來源:億速云 閱讀:776 作者:柒染 欄目:大數據

怎樣從UCSC下載基因組的GTF文件,針對這個問題,這篇文章詳細介紹了相對應的分析和解答,希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

從UCSC下載基因組的GTF文件有兩種方式,一種是利用table browser 瀏覽器,另外一種是通過FTP服務。

1. Table Browser

Table Browser提供了一個檢索和下載的入口,支持多種格式的下載,下載gtf文件只是其中一個功能,網址如下

http://genome.ucsc.edu/cgi-bin/hgTables

怎樣從UCSC下載基因組的GTF文件

第一行的3個標簽用于確定確定物種和版本。clade提供了物種分類,包括以下類型

  1. Mammal 哺乳動物

  2. Vertebrate 脊椎動物

  3. Deuterostome 后口動物

  4. Insect 昆蟲

  5. Nematode 線蟲

  6. Viruses 病毒

  7. other 其他


從這里的類別也可以發現,UCSC主要提供了動物的基因組,如果想要下載植物基因組的相關文件,只能考慮NCBI,Ensembl了。根據clade的類別,可以快速查找物種。genome選擇對應的物種名字,assembly選擇基因組版本。

group用于選擇文件保存信息的類型,提供了以下類型

  1. Mapping and Sequencing

  2. Genes and Gene Predictions

  3. Phenotype and Literature

  4. mRNA and EST

  5. Expression

  6. Regulation

  7. Comparative Genomics

  8. Variation

  9. Repeats

  10. All Tracks

  11. All Tables


GTF文件保存的是基因和轉錄本的結構信息,所以選擇2,track選擇對應的數據庫和版本,通常選擇NCBI RefSeq

table選擇數據,對于NCBI RefSeq, 提供了如下選擇

  1. RefSeq All

  2. RefSeq Curated

  3. RefSeq Predicted

  4. UCSC RefSeq


RefSeq All代表RefSeq中所有的轉錄本信息,RefSeq Curated代表核對過的數據,可信度較高,以NM, NR, YP開頭,RefSeq Predicted代表預測的數據,以XM, XR開頭;UCSC RefSeq 代表所有以NM, NR開頭的轉錄本信息。通常選擇UCSC RefSeq即可。

region選擇下載的區域,是選擇整個基因組,還是只是染色體上的部分區域。
output format選擇輸出文件格式,常用的有以下兩種

  1. GTF(limited)

  2. BED


output file指定輸出文件的名字,如果不指定,默認會顯示在瀏覽器中共,如果下載整個基因組的信息,建議填寫輸出文件的名字,file type returned選擇返回文件的格式,支持返回壓縮文件。

通過簡單的勾選,就可以下載到GTF文件了。但是這種方式下載的GTF文件是有限制的,只包含了轉錄本ID, 示例如下

chr1 hg38_refGene exon 11106531 11107500 0.000000 - . gene_id "NM_004958"; transcript_id "NM_004958";

轉錄本對應的基因名稱時非常重要的信息,如果要解決這個問題,可以通過FTP服務器進行下載。

2. FTP

UCSC的FTP服務提供了物種的注釋文件供下載,hg38的FTP地址如下

http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/

但是FTP中并沒有直接提供bed12, gtf 格式的文件,因為這些格式存在冗余信息,文件大小會比較大。為例節省磁盤空間,UCSC提出來genePred這種格式。這種格式每一行代表一個轉錄本信息,冗余信息較少。更多的介紹可以參考官方文檔
https://genome.ucsc.edu/FAQ/FAQformat.html#format9

UCSC RefSeq這種信息對應的文件為refGene.txt.gz, 對于該文件,需要借助UCSC官方提供的格式轉換工具轉換為gtf格式。

其中genePredToGtf就是把genepred格式轉換為gtf格式的工具。使用方式如下

wget http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/refGene.txt.gz
gunzip refGene.txt.gz
cut -f 2- refGene.txt | genePredToGtf file stdin -source=hg38_Ref  hg38.gtf

refGene.txt的第一列信息是多余的,刪除之后,整個文件就是genePred格式了。最終生成的文件如下

chr20   hg19_Ref        exon    63865228        63865384        .       +       .       gene_id "TPD52L2"; transcript_id "NM_003288"; exon_number "1"; exon_id "NM_003288.1"; gene_name "TPD52L2";

可以看到,gene_id的信息是有了。但是還是有點不足之處,相比NCBI和Ensembl, UCSC提供的GTF文件中共缺少了gene_biotype的信息,無法確定基因類型。

關于怎樣從UCSC下載基因組的GTF文件問題的解答就分享到這里了,希望以上內容可以對大家有一定的幫助,如果你還有很多疑惑沒有解開,可以關注億速云行業資訊頻道了解更多相關知識。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

梅州市| 拉萨市| 龙南县| 霍林郭勒市| 兴山县| 唐海县| 绥棱县| 耿马| 深泽县| 行唐县| 望谟县| 海盐县| 辛集市| 蓝山县| 游戏| 鄂州市| 兴仁县| 娄烦县| 广昌县| 江华| 通化县| 玉门市| 恭城| 巴里| 南江县| 灵武市| 宁蒗| 武山县| 木兰县| 营口市| 扶余县| 英德市| 平湖市| 泰来县| 体育| 德钦县| 湘潭县| 福安市| 阿城市| 六盘水市| 滨海县|