如何使用SnpSift把vcf文件的變異位點注釋到clinvar數據庫

發布時間：2021-11-09 17:59:25 來源：億速云閱讀：223 作者：柒染欄目：大數據

如何使用SnpSift把vcf文件的變異位點注釋到clinvar數據庫，相信很多沒有經驗的人對此束手無策，為此本文總結了問題出現的原因和解決方法，通過這篇文章希望你能解決這個問題。

首先熟悉 clinvar 數據庫

ClinVar是NCBI主辦的與疾病相關的人類基因組變異數據庫。它的強大在于整合了dbSNP、dbVar、Pubmed、OMIM等多個數據庫在遺傳變異和臨床表型方面的數據信息，形成一個標準的、可信的遺傳變異-臨床相關的數據庫。

clinvar的注釋，可以尋找出對應的基因變異信息，發生頻率，表型，臨床意義，評審狀態以及染色體位置等。

首先，我們去clinvar數據庫的ftp里面找到數據庫文件，然后下載最新版文件，我這里用的是shell命令：

## ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/
mkdir -p ~/annotation/variation/human/clinvar
cd ~/annotation/variation/human/clinvar
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/disease_names
# mkdir vcf_GRCh47 && cd vcf_GRCh47
mkdir vcf_GRCh48 && cd vcf_GRCh48
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh48/clinvar_20200706.vcf.gz
wget ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/vcf_GRCh48/clinvar_20200706.vcf.gz.tbi

這個 ClinVar數據庫里面的變異位點記錄更新還是蠻快的。

然后熟悉SnpSift 軟件

SnpSift 軟件非常強大，推薦大家仔細閱讀它的說明書，http://snpeff.sourceforge.net/protocol.html

Example 1: Coding variants
Example 2:Software Integration
Example 3: Non-Coding variants
Example 4: Sequencing data analysis
Example 5: Filter variants (dbSnp)
Example 6: Custom annotations

如果要使用SnpSift把vcf文件的變異位點注釋到clinvar數據庫，我們需要使用的命令示例是：

java -Xmx1g -jar ~/biosoft/snpEff/snpEff/SnpSift.jar  \
    annotate \
    -v  ~/annotation/variation/human/clinvar/clinvar_20200706.vcf.gz  \
    new.filter.sort.vcf  \
    > new.clinvar.vcf

一般來說，注釋比例并不會太高，因為clinvar數據庫記錄的位點很有限，如下：

Total annotated entries : 6231
 Total entries           : 54972
 Percent                 : 11.33%

如果選擇其它數據庫，比如dbSNP、exac、gnomad注釋比例會高很多。

解讀clinvar數據庫注釋結果

實際上，沒辦法解讀，一般來說， WES數據分析結果有10萬個變異位點，其中2萬左右在外顯子區域，那么就會有2千個左右的位點被clinvar注釋到，這個數量級仍然是很可觀的。

我們必須要有先驗知識，比如知道這個WES數據來源的個體是患有某種疾病的，比如，視網膜變性相關疾病就可以搜索：

"Pigmentary retinal degeneration"
"Rod-cone dystrophy"
"Retinitis pigmentosa"

如果你發現搜索到的突變，都是Benign，沒有Pathogenic，就比較麻煩，就需要根據ACMG指南分類分析，重點看：

1、PM1: 位于熱點突變區域, 和/或位于已知無良性變異的關鍵功能域(如酶的活性位點).
2、PM2: ESP 數據庫、千人數據庫、 EXAC 數據庫中正常對照人群中未發現的變異(或隱性遺傳病中極低頻位點)
3、PP1: 突變與疾病在家系中共分離(在家系多個患者中檢測到此變異). 注: 如有更多的證據, 可作為更強的證據.
4、PP3: 多種統計方法預測出該變異會對基因或基因產物造成有害的影響, 包括保守性預測、進化預測、剪接位點影響等. 注: 由于做預測時許多生物信息學算法使用相同或非常相似的輸入, 每個算法不應該算作一個獨立的標準.

如果這樣縮小范圍仍然是位點很多，可以直接縮小到基因，比如查詢 "Retinitis pigmentosa" 這個疾病相關基因就37個，這樣位于這些基因的突變就很少了，從這里面挑選那些有害突變，而且人群頻率低的。但是其實有一個問題，既然已經局限于具體的疾病相關基因了，那么為什么還有做WES呢，直接上一個panel不就好了嗎？見：家系外顯子研究最后反正要定位到已知疾病相關基因

關于ACMG指南分類分析，建議看Germline pathogenic variants of 11 breast cancer genes in 7,051 Japanese patients and 11,241 controls文章的材料與方法部分，主要是很多細致的探索，很有意思。

另外推薦clineff軟件

主頁是：http://www.dnaminer.com/clineff.html

如何使用SnpSift把vcf文件的變異位點注釋到clinvar數據庫

看完上述內容，你們掌握如何使用SnpSift把vcf文件的變異位點注釋到clinvar數據庫的方法了嗎？如果還想學到更多技能或想了解更多相關內容，歡迎關注億速云行業資訊頻道，感謝各位的閱讀！

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何使用SnpSift把vcf文件的變異位點注釋到clinvar數據庫

首先熟悉 clinvar 數據庫

然后熟悉SnpSift 軟件

解讀clinvar數據庫注釋結果

另外推薦clineff軟件

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

如何使用SnpSift把vcf文件的變異位點注釋到clinvar數據庫

首先熟悉 clinvar 數據庫

然后熟悉SnpSift 軟件

解讀clinvar數據庫注釋結果

另外推薦clineff軟件

猜你喜歡

最新資訊

相關推薦

相關標簽