您好,登錄后才能下訂單哦!
bcftools csq怎樣分析基因突變對蛋白水平的影響,很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。
csq
命令可以分析SNP位點在基因組上的位置,同時還會預測基因突變對編碼蛋白的影響。
和其他預測基因突變對蛋白質影響的軟件不同,bcftools 將基因組劃分為不同的獨立區域(和單倍型區域概念類似),在分析蛋白質變化時,會綜合考慮該區域內的所有突變位點,示意圖如下
在A
圖中,該區域包含兩個SNP位點,如果單獨考慮每個位點,只能預測到氨基酸替換,由精氨酸替換為色氨酸或者谷氨酰胺, 綜合考慮兩個SNP位點時,對應的DNA序列變成了一個終止密碼子,蛋白質長度都發生了變化。
在B
圖中,該區域包含了2個indel 位點,單獨考慮每個indel位點時,都是發生了移碼突變,氨基酸長度發生了變化,綜合考慮兩個SNP位點時,氨基酸變化和單獨分析一個位點時,又大不一樣。
在C
圖中,兩個SNP位點發生在剪切位點兩側,單獨考慮每個SNP位點,氨基酸由天冬氨酸替換為天冬酰胺或者谷氨酸,綜合考慮兩個突變位點時,氨基酸由天冬酰胺替換成賴氨酸。
從示意圖可以發現,單獨考慮每個SNP位點對于蛋白質的影響,其結果是有偏差的,只有綜合考慮鄰近范圍內所有的突變位點,預測到的蛋白質變化結果才更加可靠。
csq 運行命令如下
bcftools csq -f csq.fa -g csq.gff3 csq.vcf > csq.out
-f
參數指定參考基因組的fasta文件,-g
參數指定參考基因組的gff3文件,csq.vcf
為輸入的VCF文件,csq.out
為輸出文件。
輸出文件的格式也是VCF格式,會在INFO
列中新增一個BCSQ
字段,用來描述突變位點在基因組上的位置和蛋白質序列的變化,示例如下
BCSQ=synonymous|XYZ|ENST00000000001|protein_coding|+|1Y|102C>T
BCSQ的信息由多個字段構成,中間用|
連接,包含以下字段
consequence type
基因突變對蛋白影響的類型,包括synonymous
, missense
, inframe_deletion
等類型
gene
基因名稱
transcript
轉錄本名稱
biotype
基因類型
strand
正負鏈信息
amino acid positon
氨基酸的位置
variants list
預測氨基酸變化時,考慮的突變位點的集合
由于bcftools是綜合考慮多個突變位點對蛋白質的共同作用,在實際分析時,應該盡可能的過濾掉假陽性的突變位點,然后再分析蛋白水平的影響,這樣的分析結果,可信度會更高。
看完上述內容是否對您有幫助呢?如果還想對相關知識有進一步的了解或閱讀更多相關文章,請關注億速云行業資訊頻道,感謝您對億速云的支持。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。