您好,登錄后才能下訂單哦!
本篇內容介紹了“如何使用TCGAbiolinks下載TCGA的數據”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!
TCGAbiolinks是一個分析處理TCGA數據的R包,通過GDC API來查詢和下載TCGA的數據,同時提供了差異分析,生存分析,富集分析等常見的分析功能,網址如下
http://bioconductor.org/packages/release/bioc/html/TCGAbiolinks.html
這個R包的基本用法如下
和在線查詢類似,只不過是將網頁上的各種可選的屬性變成了對應的參數,基本用法如下所示
以project
為核心進行查詢, 其他參數用來對數據進行過濾,常用的有以下幾個參數
datga.category
data.type
workflow.type
experimental.strategy
platform
access
以上參數和和網頁上的的各項選擇菜單相對應,示意如下
除此之外,還有幾個重要參數,legacy
參數的默認值為FALSE
,表示從harmonized database進行查詢,TRUE
表示從 GDC legacy archive進行查詢;barcode
參數用于選擇其中部分樣本的數據。
查詢結果的基本單位為Files, 可以通過以下代碼進行查看
datatable(getResults(query))
結果是一個html的表格,通過網頁進行查看,每行代表一個表格,示意如下
除了查看檢索結果外,還可以下載檢索結果,用法如下
這里分成了兩個步驟,第一步從GDC下載原始數據,可以使用API或者gdc-clinet進行下載, API的速度相對快一點;第二步對原始數據的結果進行整理,從GDC下載的原始數據是每個文件單獨分開的,需要先對結果進行整理,才可以用于后續分析。以表達譜數據為例,需要進行樣本的合并,樣本ID的轉換等,所有這些都可以通過GDCprepare
完成。
整理好的結果存放在data
對象中, 樣本的信息可以通過如下方式進行查看
結果示意如下
表達量矩陣的信息查看方式如下
結果示意如下
數據下載并整理好之后,就可以進行分析了。不同類型的數據對應的分析方法也不同,具體的分析方法請參考官方文檔。
“如何使用TCGAbiolinks下載TCGA的數據”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。