您好,登錄后才能下訂單哦!
這篇文章將為大家詳細講解有關GFF3格式是什么,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
GFF3格式說明
GFF3每一行代表一個序列元件(以#為開頭的注釋行除外),每一行有且只有9列(也就是每個序列元件有9個屬性),列與列只能必須使用tab鍵來分割,如果某個序列元件的某個屬性為空那么必須使用“.”來代替,格式如下:
2L FlyBase transcript 7529 9484 . + . ID=FBtr0300690;Parent=FBgn0031208;Name=CG11023-RC;biotype=protein_coding;transcript_id=FBtr0300690 2L FlyBase five_prime_UTR 7529 7679 . + . Parent=FBtr0300690 2L FlyBase exon 7529 8116 . + . Parent=FBtr0300690;Name=FBtr0300690-1;constitutive=1;ensembl_end_phase=2;ensembl_phase=-1;exon_id=FBtr0300690-E1;rank=1 2L FlyBase CDS 7680 8116 . + 0 ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914 2L FlyBase exon 8193 8589 . + . Parent=FBtr0300690;Name=FBtr0300690-2;constitutive=0;ensembl_end_phase=0;ensembl_phase=2;exon_id=FBtr0300690-E2;rank=2 2L FlyBase CDS 8193 8589 . + 1 ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914 2L FlyBase CDS 8668 9276 . + 0 ID=CDS:FBpp0289914;Parent=FBtr0300690;protein_id=FBpp0289914
這9列從左到右分別是:
1. seqid - scaffold或者chromosome的名稱說明 2. source - 產生一個序列元件的軟件的名稱或者數據源(數據庫名稱或者項目名稱) 3. type - 序列元件的類型,例如:mRNA、CDS等等 4. start - 序列元件在scaffold或者chromosome上的起始位置,從1開始計數 5. end - 序列元件在scaffold或者chromosome上面的終止位置,從1開始計數 6. score - 該序列元件的打分,一般為該序列元件做比對時的E-value和ab initio gene prediction features時的P-value 7. strand - “+”代表該序列元件在scaffold或者chromosome的正鏈,反之亦反 8. phase - 可以為“0”、“1”、“2”,“0”代表該序列元件的第一個堿基為第一個密碼子的第一個剪輯,“1”代表該序列元件的第二個堿基是第一個密碼子 的第一個堿基,依次類推。 9. attributes - 該序列元件的一些其他屬性,可以有多個每個屬性之間必須以“;”分割,例如“ID=some-id;Name=some-name;Parent=some-parent”,請注意這個Parent屬性,由于序列元件是很復雜的,一個序列元件(例如:exon)可能屬于另外一個序列元件(例如:gene),這個Parent屬性的意思就是該序列元件在哪個序列元件上面,如果一個序列元件沒有Parent屬性,說明他的父元件就是scaffold或者chromosome
關于“GFF3格式是什么”這篇文章就分享到這里了,希望以上內容可以對大家有一定的幫助,使各位可以學到更多知識,如果覺得文章不錯,請把它分享出去讓更多的人看到。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。