您好,登錄后才能下訂單哦!
這篇文章主要介紹“如何使用GDC在線查看TCGA數據”,在日常操作中,相信很多人在如何使用GDC在線查看TCGA數據問題上存在疑惑,小編查閱了各式資料,整理出簡單好用的操作方法,希望對大家解答”如何使用GDC在線查看TCGA數據”的疑惑有所幫助!接下來,請跟著小編一起來學習吧!
GDC是Genomic Data Commons
的縮寫,是由美國國家癌癥研究所NCI建立的一套癌癥數據共享系統,整合包括TCGA
在內的多個癌癥數據庫中的信息,提供了癌癥數據的統一存儲,管理,展示,將數據與世界范圍內的癌癥基因組學研究者共享,網址如下
https://portal.gdc.cancer.gov/
數據來源于以下多個大型癌癥研究組織和項目
Foundation Medicine(FM)
Clinical Proteomic Tumor Analysis Consortium(CPTAC)
THe Cancer Genome Atlas(TCGA)
Therapeutically Applicable Research to Generate Effective Treatments (TARGET)
Human Cancer Model Initiative (HCMI)
以上只是部分來源信息,而且還在陸續更新,以后也會有新的來源數據整合到GDC
中。當然,到目前為止,該數據庫中最大的數據依然是來自TCGA
的數據。
為了方便管理如果大量的數據,建立了一個統一的數據模型,如下所示
最高層級為program
,對應不同的數據來源,如TCGA
, TARGET
等;第二層為project
, 代表一系列患者對應的;第三層為case
,代表的是同一個患者的所有相關數據,包括SNV, CNV,基因表達譜等多種數據,需要注意的是case
和sample
是一對多的關系,一個患者可以取多份樣本;最后一層是每個case
相關的數據,即Files
, 數據類型是多種多樣的,包括序列,基因表達譜,SNV, CNV, 甲基化,臨床信息等多種數據。
以上只是個人總結的簡化版的模型,便于理解數據庫中的信息,實際包含的數據類型更多,模型也更加復雜。數據庫的首頁提供了以下多個導航欄
可以查看所有項目的數據,也可以通過左側的篩選框進行篩選,project相關屬性如下所示
primary site
表示樣本對應的組織,program
表示數據來源,disease type
表示腫瘤類型,data category
表示數據類型,比如序列,SNV, CNV等等,experimental Strategy
表示實驗類型,比如轉錄組,WGS, 甲基化芯片等。
表格形式的結果示意如下
第一列的project id由program加上腫瘤對應編碼構成,腫瘤名稱和編碼的對應關系部分展示如下
點擊project id可以查看summary信息,以TCGA-BRCA
為例,示意如下
這部分支持從以下3個方面來查看和篩選數據
Cases
Genes
Mutations
Cases相關的屬性如下
Genes相關的屬性如下
Mutations相關的屬性如下所示
以Cases
為例,結果示意如下
點擊第一列的case id,可以查看summary信息。除此之外,還提供了OncoGrid
功能,對top50個突變基因的SNV, CNV在top200個cases中的分布進行可視化,示意如下
這部分對于篩選出的數據進行以下兩種分析
venn analysis
survival analysis
結果示意如下
這部分包含了所有可用下載的數據,可以從Files
和Cases
兩個方面來查看和篩選數據,Files
相關的屬性如下
以Files
為例,結果示意如下
通過點擊購物車圖標,可以將篩選好的數據集加入到到購物車,然后進行下載。對于感興趣的單個數據集,直接點擊網頁上的下載按鈕就可以下載了,但是對于數據量較大的數據集,就需要通過官方提供的客戶端軟件來下載。
到此,關于“如何使用GDC在線查看TCGA數據”的學習就結束了,希望能夠解決大家的疑惑。理論與實踐的搭配能更好的幫助大家學習,快去試試吧!若想繼續學習更多相關知識,請繼續關注億速云網站,小編會繼續努力為大家帶來更多實用的文章!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。