Apache Arrow 晉升為Apache基金會頂級項目

發布時間：2020-06-21 22:17:42 來源：網絡閱讀：1115 作者：suleexx 欄目：開發技術

Apache軟件基金會于2月17日宣布，Apache Arrow晉升成為一個新的頂級項目（Top-Level Project），提供跨系統的數據層列式內存分析（Columnar In-Memory Analytics），來加速大數據分析的效率和速度。ASF宣稱，Arrow可以百倍的提升大數據分析的性能，極大的降低跨系統間的溝通成本，支持多系統間運作。

Arrow是數據結構、算法和跨程序語言的組合，提供不同種類系統間數據共享基礎，包含SQL執行引擎（如Drill和Impala）、數據分析系統（如Pandas和Spark）、流式和隊列系統（如Herron、Kafka和Storm），以及儲存系統（如Parquet、Kudu、Cassandra和HBase）。

另外，使用者現在可以用C、C++、Python和Java等程序語言來執行Arrow的程序代碼，Apache Arrow和Drill項目副總裁Jacques Nadeau表示，在未來1至2個月內還將增加對R、JavaScript和Julia的支持。

而Arrow除了支持傳統的關系數據庫之外，也支持動態Schema結構的數據，例如，Arrow可以處理物聯網、Log文件等常用的JSON格式數據。在性能方面， Arrow特別優化排序的局部性（Cache Locality）、流量管道（Pipelining）和單一指令多重數據（Single Instruction Multiple Data，SIMD），來發揮CPU的性能。

ASF表示，在許高負載中，70％～80％的CPU資源都用在系統間串行化（Serialize）和解串行化（Deserialize）數據，而Arrow讓數據可以不必經過串行化、解串行化或內存復制，就能夠在系統和處理程序中共享，藉此提升CPU的使用性能。

此外，目前已經有13個主要大數據開源項目的開發者連手打造Arrow項目，而這13個開源項目包含了Calcite、Cassandra、 Drill、Hadoop、HBase、Impala、Kudu（培育期）、Parquet、Phoenix、Spark、Storm、Pandas和 Ibis。

Jacques Nadeau表示，ASF預期在未來幾年，世界上大多數的數據將會使用Arrow的技術來分析。

目前，Apache Arrow的代碼已經可以在Apache2.0的許可下使用，

參考文檔：

http://www.itdadao.com/article/393103/

https://databricks.com/blog/2015/04/28/project-tungsten-bringing-spark-closer-to-bare-metal.html

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Apache Arrow 晉升為Apache基金會頂級項目

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

Apache Arrow 晉升為Apache基金會頂級項目

猜你喜歡

最新資訊

相關推薦

相關標簽