您好,登錄后才能下訂單哦!
本篇文章為大家展示了Jupyter Notebook如何適應數據科學的發展方向,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。
下面將討論數據科學的前景,以及推動我們的工具發展的力量。
下面將回顧我在數據科學中經常使用的工具——Jupyter Notebook,
我想看看在過去的幾年里,數據科學的實踐是如何變化的。然后,我將強調三種主要力量,它們改變了我今天使用Notebook的方式。
數據科學領域正在迅速變化。我們現在已經進入了這樣一個時代:“21世紀最性感的工作”和“數據是新石油”之類的說法已經過時,取而代之的是更現實的業務問題和基于技術的挑戰。我認為這種變化是雙重的:我們現在需要支持(1)生產分析和實驗的需求,以及(2)快速采用云技術。
第一,生產的需要。在軟件工程的生命周期中,創建數據產品或者部署實驗工件,這些年來都在增長。隨著機器學習工程師和數據科學軟件開發人員的崛起,越來越多的工程類工作被采用,這就是明證。此外,分析不再局限于出版物或圖表,因為現在對復制實驗和部署人工制品的需求越來越大。
接下來,數據的指數增長需要采用云技術。我們不能僅僅使用我們自己的筆記本電腦來加載Pandas的1TB數據集!Docker和Kubernetes等工具的流行使我們能夠以前所未有的水平擴展數據處理工作負載。采用云意味著我們在管理工作負載時要考慮可伸縮性、資源供應和基礎設施。然而,之前的Jupyter Notebook生態系統,盡管它是數據科學家工具箱中的一個重要部分,并不意味著有相應的變化:
正如我所說的,我們所知道的Jupyter Notebook并不意味著這些變化。它們是用來探索的,不是用來生產的。它們應該在一臺機器上運行,而不是在集群中。然而,在過去的五年中,Jupyter Notebook的生態系統已經發展壯大:我們現在有了JupyterLab、一些插件、用于其他語言的新內核,以及可供我們使用的第三方工具。當然,我們仍然可以通過在終端中輸入jupyter Notebook來運行筆記本,但是現在已經遠遠不止這些了!
這就引出了一個問題:是什么力量促使了這些變化?,我們如何利用這個更大的筆記本生態系統來應對當今數據科學的變化?
Jupyter Notebook的生態系統正在成長,我認為這是由三種力量驅動的:
在云上做實驗:大數據需要大量的計算和存儲,而一般的消費級機器并不總是能夠做到這一點。
支持開發人員工作流程:越來越多的數據科學團隊開始采用軟件工程的最佳實踐——版本控制、gitfow、拉請求等等。
從分析到生產的快速轉變:在受控環境下測試假設是不夠的。為分析而編寫的軟件應該可以很容易地為生產重用。
朝著云優先的環境發展意味著我們可以在比我們更強大的機器上執行基于notebook的任務。例如,托管的notebook實例使我們能夠從遠程服務器運行Jupyter notebook,而無需操作和設置。另一方面,朝著更加生產工作流程的方向發展,為我們提供了一組工具,將基于記事本的任務賦予軟件工程實踐。在這篇文章的下一部分,我們將看到更多這樣的工具。
最后,請注意,工具的發展并不依賴于單個實體或組織。正如我們將在后面看到的,填補這些空白可能來自于那些提供第三方插件的個人或者那些提供管理服務的組織。
我們研究了數據科學領域增長的兩個驅動因素:(1)云計算的采用,以及(2)生產需求的增長。我們發現Jupyter notebook只占了這個生態系統的一小部分,也就是它通常用于探索(而不是生產),并且只運行在我們的本地機器上(不是在云中)。
然后,使用相同的框架,我們確定了三種變化的力量,使Jupyter筆記本生態系統得以發展:在云上增加實驗,支持開發人員工作流,以及更快地從分析轉向生產。這些力量可能帶來了新工具、插件和類似記事本的產品的開發,以滿足這些差距。
上述內容就是Jupyter Notebook如何適應數據科學的發展方向,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。