您好,登錄后才能下訂單哦!
Apache軟件基金會于2月17日宣布,Apache Arrow晉升成為一個新的頂級項目(Top-Level Project),提供跨系統的數據層列式內存分析(Columnar In-Memory Analytics),來加速大數據分析的效率和速度。ASF宣稱,Arrow可以百倍的提升大數據分析的性能,極大的降低跨系統間的溝通成本,支持多系統間運作。
Arrow是數據結構、算法和跨程序語言的組合,提供不同種類系統間數據共享基礎,包含SQL執行引擎(如Drill和Impala)、數據分析系統 (如Pandas和Spark)、流式和隊列系統(如Herron、Kafka和Storm),以及儲存系統(如Parquet、Kudu、Cassandra和HBase)。
另外,使用者現在可以用C、C++、Python和Java等程序語言來執行Arrow的程序代碼,Apache Arrow和Drill項目副總裁Jacques Nadeau表示,在未來1至2個月內還將增加對R、JavaScript和Julia的支持。
而Arrow除了支持傳統的關系數據庫之外,也支持動態Schema結構的數據,例如,Arrow可以處理物聯網、Log文件等常用的JSON格式 數據。在性能方面, Arrow特別優化排序的局部性(Cache Locality)、流量管道(Pipelining)和單一指令多重數據(Single Instruction Multiple Data,SIMD),來發揮CPU的性能。
ASF表示,在許高負載中,70%~80%的CPU資源都用在系統間串行化(Serialize)和解串行化 (Deserialize)數據,而Arrow讓數據可以不必經過串行化、解串行化或內存復制,就能夠在系統和處理程序中共享,藉此提升CPU的使用性能。
此外,目前已經有13個主要大數據開源項目的開發者連手打造Arrow項目,而這13個開源項目包含了Calcite、Cassandra、 Drill、Hadoop、HBase、Impala、Kudu(培育期)、Parquet、Phoenix、Spark、Storm、Pandas和 Ibis。
Jacques Nadeau表示,ASF預期在未來幾年,世界上大多數的數據將會使用Arrow的技術來分析。
目前,Apache Arrow的代碼已經可以在Apache2.0的許可下使用,
參考文檔:
http://www.itdadao.com/article/393103/
https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。