您好,登錄后才能下訂單哦!
這篇文章給大家介紹如何理解Mutation Annotation Format格式,內容非常詳細,感興趣的小伙伴們可以參考借鑒,希望對大家能有所幫助。
Mutation Annotation Format, 簡稱MAF, 是由TCGA制定的一種文件格式,用來存儲突變注釋信息。在TCGA中,對于突變數據有以下四種類型
Annotated Somatic Mutation, 體細胞突變的注釋文件,格式為VCF, 采用VEP軟件進行注釋,文件后綴為vep.vcf.gz
Raw Simple Somatic Mutation, 體細胞突變的原始文件,格式為VCF, 文件后綴為vcf.gz
Aggregated Somatic Mutation, protected的突變注釋文件,需要賬號和權限才可以下載,格式為MAF, 文件后綴為maf.gz
Masked Somatic Mutation, open access的突變注釋文件,免費下載的,格式為MAF, 文件后綴為maf.gz
在TCGA中,VCF通常用于記錄單個樣本的體細胞突變相關結果,MAF用于整合所有樣本的體細胞突變注釋結果,所以稱MAF格式為project-level, 根據數據的開放性,又分為protected和open access, 其中open access就是我們可以直接下載得到的MAF文件, 以乳腺癌為例,在TCGA中提供了4個MAF文件
對應4個不同的體細胞突變calling軟件,每個文件中包含了1044個樣本的體細胞SNV注釋結果。
MAF和VCF類似,也是一個純文本的格式,由\t
分隔的許多列構成,從GDC下載的MAF文件的截圖如下
#
開頭的為注釋行,其他部分為正文,每一列有一個固定的表頭, 完整的MAF共有100多列,在實際處理中,我們可能沒有這么多列的信息,常用的幾列解釋如下
column1, Hugo_Symbol, 由HUGO提供的gene symbol, 表示SNV所在的基因名稱
column 2,Entrez_Gene_id, SNV所在基因的entrez id, 如果沒有對應的基因,則用0表示
column 4,NCBI_Build, snv calling時使用的參考基因組版本
column5,Chromsome, SNV所在的染色體
column6,Start_Position, SNV在染色體上的起始位置
column7,End_Position,SNV在染色體上的終止位置
column9,Variant_Classification, SNV位點的分類,Missense_Mutation,Nonsense_Mutation等類別,分類的依據為SNV對翻譯的影響
column10,Variant_Type, SNV位點的類型,比如SNP, INS,DEl等類型
column11,Reference_Allel, 參考基因組上的allel
column12,Tumor_Seq_Allel1, 腫瘤樣本中該位點對應的主等位基因
column13,Tumor_Seq_Allel2,腫瘤樣本中該位點對應的次等位基因
column16,Tumor_Sample_Barcode, 腫瘤樣本的barcode
column17,Tumor_Normal_Barcode,配對的正常樣本的barcode
每一列的詳細含義見如下鏈接
https://docs.gdc.cancer.gov/Data/File_Formats/MAF_Format/
MAF是專門針對human定義的一種文件格式,通過一個文件就可以包含所有樣本的SNV和對應的注釋信息,對于下游分析而言,非常的方便。在實際使用中, 對于VCF文件,可以通過vcf2maf將其轉換為MAF格式,在后續文章中會具體介紹該軟件的用法。
關于如何理解Mutation Annotation Format格式就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。