您好,登錄后才能下訂單哦!
今天就跟大家聊聊有關導致uBAM遲遲無法流行起來的4個原因分別是什么,可能很多人都不太了解,為了讓大家更加了解,小編給大家總結了以下內容,希望大家根據這篇文章可以有所收獲。
uBAM就是非比對的BAM文件,fastq可以通過picard這個工具將其轉為這個格式。
它有不少優于fastq格式的地方,比如:同一個read的數據都在同一行;拓展性強,可以添加豐富的metadata;方便維護,同一個樣本的測序數據甚至可以只通過一份uBAM來存儲就行了等。
從我第一次知道uBAM的時候算起,已經過去4+年了。我也曾非常看好它,認為它必是以后存儲下機數據的標準。然而時隔多年,很奇怪,uBAM這么好(GATK也都一直支持著這個格式),為什么還是遲遲不見它流行起來呢?
目前,使用uBAM格式的單位據我所知也僅僅只是一些比較大型的研究機構,比如美國的Broad Institute和英國的Sanger會采用它來存儲下機數據。
這段時間思考下來覺得可能有以下幾個原因,與諸位共享:
BAM是“笨重”的,它并不是文本文件,你無法直接通過文本工具打開它查看具體內容。只能通過第三方工具或者專門的SAM/BAM程序包(或者API)來實現對它的操作。這對許多不熟悉這一處理方式的研究者來說,會帶來很多麻煩。這等于是直接提高了操作這個文件的門檻,從這一點看使用體驗確實遠不如fastq;
主流工具還不完全支持,除了samtools和與它相關的少量工具,并沒有太多其他的工具直接支持在命令行操作BAM;
BAM文件的空間占比并不比壓縮了的fastq小很多,優勢有限;
底層IO效率方面,實際上也是文本格式的fastq(或者gzip壓縮的fastq)要高于BAM。
從uBAM的這個現象,或許也側面折射出了一些關于產品設計(或者方案設計)的問題。關于這個問題,我看到了三個地方,歡迎大家拍磚:
第一、體驗。一個產品或者方案要流行起來,除了解決需求之外,對使用體驗的關注度要高于技術的先進性和產品本身的完備性;
第二、先發優勢。時間一旦落后了(比如fastq早于uBAM很多年),用戶習慣的更改需要有完備的技術解決工具來支持,降低切換成本,甚至實現無痛切換,從而最大程度的保留新產品的優勢;
第三、看似簡單的事物越是難以被取締。fastq格式是一個存儲測序數據極為簡單、簡明的數據格式,它只包含所有必須包含的內容,而且目標明確,就是序列ID、測序數據和質量值,它們都是必不可缺的信息,再多無用,似乎已是極致。
看完上述內容,你們對導致uBAM遲遲無法流行起來的4個原因分別是什么有進一步的了解嗎?如果還想了解更多知識或者相關內容,請關注億速云行業資訊頻道,感謝大家的支持。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。