您好,登錄后才能下訂單哦!
怎么用gdc-client批量下載TCGA數據,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。
GDC的在線下載功能只適用于下載小的數據集,當需要下載數據量較大的TCGA數據時,必須借助于GDC官方提供的客戶端工具gdc-client。網址如下
https://gdc.cancer.gov/access-data/gdc-data-transfer-tool
該軟件是一個命令行工具,支持windows, linux, mac OS多種操作系統,可以通過以下兩種方法來下載文件
首先通過GDC在線數據庫篩選自己感興趣的數據集,然后通過購物車圖標將數據集添加到購物車中,示意如下
點擊導航欄的Cart
按鈕,點擊下載Manifest
文件
該文件內容如下所示
第一列為文件的uuid
, 在GDC數據庫中,所有的信息都用一個uuid
唯一標識。利用manifest
文件批量下載的用法如下
gdc-client download -m gdc_manifest_20190610_105445.txt
結果下載到當前目錄,每個文件保存在uuid
對應的文件夾下,示意如下
這里我下載的是FPKM
的基因表達量,文件內容如下
可以看到沒有表頭信息,而且每個樣本是分開的,在實際使用中,我們通常需要整合到一張表中,得到一個行為基因,列為樣本的基因表達量的表格。通過這種方式下載的數據,沒有文件對應的樣本信息,這個信息可以通過下載SampleSheet
得到,該文件的內容如下
保存了每個樣本對應的樣本等信息,通過結合這個數據,可以整理得到基因表達量的表格。
第二種方式直接使用文件對應的uuid進行下載, 點擊文件名稱,可以看到UUID的信息,如下所示
通過uuid下載文件的用法如下
gdc-client download cadfedcc-2742-42ad-9fd3-733d01086392
這兩種方式本質上是一樣的,都是通過文件的uuid
來對應到唯一的一個文件,并進行下載。需要注意的是,這種方式只能夠下載得到原始文件,如果需要下游分析,需要自己調整文件格式。
看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。