91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

chip_seq質量評估中的PCA分析是怎樣的

發布時間:2021-12-28 14:21:47 來源:億速云 閱讀:210 作者:柒染 欄目:大數據

chip_seq質量評估中的PCA分析是怎樣的,相信很多沒有經驗的人對此束手無策,為此本文總結了問題出現的原因和解決方法,通過這篇文章希望你能解決這個問題。

PCA我們稱之為主成分分析,是一種經典的數據降維算法,通過將高維數據用幾個主成分表示,從而將其映射到低維空間。在實際處理中,由于我們只能對二維和三維數據有直觀的感受,所以通常繪制二維和三維的散點圖。

PCA本質上屬于排序分析的一種,降維之后的數據在二維或者三維平面通過散點圖進行展示,兩個樣本點間的距離越接近,說明這兩個樣本越一致, PCA圖在生物信息學中應用的非常廣泛,該算法適用范圍廣泛,在基因組,轉錄組等多種數據分析中都有應用,本文主要介紹在chip_seq數據分析中的PCA分析。

在轉錄組中,我們可以通過基因表達譜來對樣本進行PCA分析,在chip_seq數據分析中,為了得到類似基因表達譜的數據,研究人員提出了一種思想,將基因組劃分為等長的區間,稱之為bin,然后計算每個區間內的coverage。得到樣本中所有bin的coverage之后,就可以利用該數據進行PCA分析。具體的操作步驟如下,通過deeptools來實現

1. 計算bin的coverage

輸入文件為比對基因組產生的bam文件,用法示意如下

multiBamSummary bins \
--bamfiles file1.bam file2.bam \
--binSize 10000 \
--numberOfProcessors 10 \
--outRawCounts results.txt \
-o results.npz \
2. PCA分析

通過plotPCA命令實現,用法示意如下

plotPCA \
-in results.npz \
-o PCA.png

輸出結果示意如下

chip_seq質量評估中的PCA分析是怎樣的

軟件默認選擇第一和第二主成分來繪制二維的散點圖,在該圖中通過觀測樣本點之間的距離,可以對數據質量做出一些基本判斷,理論上講,input和抗體處理的樣本之間應該有較大距離,而生物學重復樣本之間應該比較接近。

需要注意的是,前兩個主成分的貢獻率是一個比較重要的指標,假設兩個主成分的貢獻率之和為90%, 意味著二維散點圖只能表征原始樣本90%的信息,當貢獻率太低時,散點圖上表示的信息和原始樣本的信息相去甚遠,就不具有太大的參考意義了。

下半部分的Scree plot, 類似碎石圖,只不過采用了雙坐標軸的形式,藍色柱狀圖表征了前5個主成分的特征值,紅色曲線代表累計的特征值,每個點代表累計特征值的比例。當紅色曲線趨于平緩時,說明即使再添加后面其他的主成分,所展示的信息也不會有顯著變化了,即前幾個主成分已經可以有效代表總體的信息了,在上圖中,前4個主成分能夠有效代表總體的信息。

雖然通過碎石圖我們可以篩選出主成分,但是由于我們最多只能直觀觀察三維空間,所以PCA分析中最多只能繪制3維散點圖,如果前3個主成分不能有效代表總體的信息,我們只能考慮使用其他降維算法了,這個問題也是所有降維算法的一個通病。

看完上述內容,你們掌握chip_seq質量評估中的PCA分析是怎樣的的方法了嗎?如果還想學到更多技能或想了解更多相關內容,歡迎關注億速云行業資訊頻道,感謝各位的閱讀!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

集贤县| 山阳县| 翼城县| 米泉市| 象山县| 炎陵县| 乌审旗| 格尔木市| 南通市| 万源市| 沈阳市| 泰州市| 石城县| 伊宁县| 无极县| 台东县| 拜城县| 象山县| 昆明市| 额济纳旗| 巫溪县| 桃源县| 松溪县| 德昌县| 旌德县| 永安市| 鲁甸县| 盘锦市| 临猗县| 明星| 上饶县| 邵阳县| 濮阳市| 马公市| 亳州市| 宣化县| 武宁县| 外汇| 延长县| 安陆市| 杭州市|