您好,登錄后才能下訂單哦!
本篇內容主要講解“GATK BQSR的作用是什么”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“GATK BQSR的作用是什么”吧!
BQSR 全稱叫做 Base Quality Score Recalibration, 可以理解為堿基質量校正。對于變異位點的鑒定,堿基質量是非常重要的。比如測序識別到的一個位點,其堿基和參考基因組上的堿基不同,但是其質量值特別低,此時可以認為是一個測序錯誤,而不是一個SNP位點。
在測序的原始數據中,本身就提供了每個堿基對應的質量值,但是GATK官方認為測序儀提供的堿基質量值,是不準確的,存在誤差的。
某個位點前后的堿基的種類,稱之為上下文環境,會對這個堿基的質量值產生影響。對于A,T,C,G 4種堿基,共有4 x 4 =16 種上下文環境,左側的圖是利用fastq文件中測序儀給出的堿基質量值做的圖,可以看到,對于不同的上下文環境,堿基質量值分布不同;右圖為經過BQSR校正之后,不同上下文環境中堿基質量的分布。可以看到,校正之后,不同的上下文環境的堿基質量分布基本相同。也就是說,BQSR消除了上下文環境對堿基質量的影響。
在堿基質量校正時,主要考慮下列3個因素:
堿基在reads中的位置
堿基的上下文環境
堿基原始的質量值
根據這3這個因素,首先計算出原始堿基質量中錯誤的分布模型,然后利用這個模型對堿基質量校正,生成新的堿基質量值。
執行BQSR分析包含以下三步
命令如下
gatk BaseRecalibrator \ -R ${ref_fasta} \ -I ${input_bam} \ --use-original-qualities \ -O ${recalibration_report_filename} \ --known-sites ${dbSNP_vcf} \ --known-sites ${sep=" --known-sites " known_indels_sites_VCFs}
在計算的過程中, 不考慮已知的變異位點的堿基質量,--known-sites
指定已知變異位點對應的vcf文件。這一步對單個樣本進行操作,每個樣本生成一個錯誤模型文件。
命令如下
gatk GatherBQSRReports \ -I ${sep=' -I ' input_bqsr_reports} \ -O ${output_report_filename}
命令如下:
gatk ApplyBQSR \ -R ${ref_fasta} \ -I ${input_bam} \ -O ${output_bam_basename}.bam \ -bqsr ${recalibration_report} \ --static-quantized-quals 10 --static-quantized-quals 20 --static-quantized-quals 30 \ --add-output-sam-program-record \ --create-output-bam-md5 \ --use-original-qualities
BQSR會對輸入的bam文件中的堿基質量值進行替換,替換為校正之后的質量值,而原先的質量值保存在OQ
tag 中,示意圖如下
到此,相信大家對“GATK BQSR的作用是什么”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。