您好,登錄后才能下訂單哦!
這篇文章主要講解了“怎么使用Python建立數據分析項目”,文中的講解內容簡單清晰,易于學習與理解,下面請大家跟著小編的思路慢慢深入,一起來研究和學習“怎么使用Python建立數據分析項目”吧!
這些網站在項目構建方面的思路大致如下:
一個連貫且組織良好的結構,以便于人們協作;你的分析應當可復現,而你的項目結構可以滿足這個需求;不應該從原始數據作為出發點開始你的項目,而應當假設原始數據不變,創建其他派生的文件。
簡略的項目結構如下所示:
example_project/
├── data/ <- The original, immutable data dump.
├── figures/ <- Figures saved by notebooks and scripts.
├── notebooks/ <- Jupyter notebooks.
├── output/ <- Processed data, models, logs, etc.
├── exampleproject/ <- Python package with source code.
│ └── __init__.py <-- Make the folder a package.
└── process.py <-- Example module.
├── tests/ <- Tests for your Python package.
└── test_process.py <-- Tests for process.py.
├── environment.yml <- Virtual environment definition.
├── README.md <- README with info of the project.
└── setup.py <- Install and distribute your module.
你可以在這里看到相關實例。
項目通常遵循另一種結構:
原始數據不變,存儲在 data/ 中;
數據處理和相關輸出圖分別存儲在不同的文件夾下,例如: figures/ 和 output/ ;
筆記文件存儲在 notebooks/ ;
項目信息撰寫在 README.md 中;
項目代碼放置在獨立的文件夾下。
實際上,你選擇什么樣的項目結構并不重要,只要它能符合你的工作流程,你也能堅持使用它。你應該嘗試去理解何為項目,從而選擇滿足要求的項目結構。
虛擬環境
項目之間應當相互獨立,你肯定不希望新的項目打亂了之前的工作成果。我們可以通過把不同項目的文件存儲在不同的文件夾下實現獨立性,但是不同項目之間也應當使用不同的 Python 環境。在此我向大家推薦一個大數據技術交流圈: 658558542 突破技術瓶頸,提升思維能力
虛擬環境依賴于不同的項目而相互獨立,避免了包的沖突問題。每個虛擬環境都安裝了特定版本的不同包。虛擬環境一中安裝了版本為 1.11 的 numpy 庫和版本為 0.18 的 pandas 庫,而虛擬環境二中則僅僅安裝了版本為 0.17 的 pandas 庫。作者選取適用于數據科學的 conda 管理虛擬環境(可在 這里 看到選擇它的原因)。
下列命令可以創建一個使用 Python 3.5 的新的 conda 虛擬環境,命名為 example_project :
$ conda install --name example_project python=3.5
激活虛擬環境( Windows 系統下將 source 省去):
$ source activate example_project
之后便可以安裝所需的包了:
$ conda install pandas numpy jupyter scikit-learn
當你在不同的項目間跳轉時,可以運行 source deactivate 命令取消激活,并激活新的項目虛擬環境。
一旦你熟練使用 activate 和 deactivate 命令,就會發現虛擬環境是一個很輕巧的工具來保證 Python 環境的獨立。通過導出環境定義文件(例如,所有安裝的包名和版本號),你的項目就很容易得到復現了。如果你想查看更多細節,可在 Tim Hopper 的博文 中看到。
Git
每個項目都應該有自己的 Git 資源庫。在每個項目創建一個資源庫可以幫助你追蹤每個項目的歷史和解決在不同的項目間復雜的版本依賴問題。
又或者,你可以選擇在一個資源庫中包含多個項目,將所有內容存儲在一個位置。這樣做的缺點在于往往會因為合并沖突問題而告終(數據科學家通常并不能熟練使用 Git )。除了很多使用 Git 時出現的問題,這也會導致你的項目之間缺乏獨立性。
創建 Git 資源庫最簡單的方法就是在你的 Git 遠程主機托管服務(例如, Github 和 GitLab)上創建一個新的 Git 資源庫,然后把它復制到本地:
$ git clone https://github.com/hgrif/example-project.git
你可以在這個空文件夾下構建你的項目結構。
如果你按照這個步驟執行,并準備在一個新文件夾下創建一些文件了。那么,你首先還需要在電腦上對 git 資源庫進行初始化:
$ git init
然后在你的遠程主機上創建一個新的 git 資源庫,得到它的鏈接,并運行下列命令:
$ git remote add origin https://github.com/hgrif/example-project.git
該命令會添加鏈接為 https://github.com/hgrif/example-project.git 的遠程資源庫,并命令為 origin 。你可能需要把現有的 master 分支推送到 origin 上:
$ git push --set-upstream origin master
在你的項目目錄下創建 .gitignore 文件可以避免將圖或數據誤填加進資源庫中。作者一般使用 針對 Python 的 .gitignore 文件 ,并且在文件中加入 data/ 、 figures/ 和 output/ 文件夾,以便 Git 可以忽略它們。
既然 Git 已經設置好了,你就可以對核心內容使用 git add 和 git commit 命令了!
使用工具
使用一些工具可以幫助你擺脫那些重復性工作。
Python 中的 cookiecutter 包可根據模板自動創建項目文件夾。你可以使用現有的模板,例如, Cookiecutter Data Science 或者 作者的項目結構模板 ,或是創建你自己新的模板。
使用虛擬環境最好的方法就是選用支持它們的編輯器,比如: PyCharm 。你也可以使用 autoenv 或者 direnv 去激活虛擬環境,并設置環境的變量,如果你 cd 定位到一個工作目錄下的話。
感謝各位的閱讀,以上就是“怎么使用Python建立數據分析項目”的內容了,經過本文的學習后,相信大家對怎么使用Python建立數據分析項目這一問題有了更深刻的體會,具體使用情況還需要大家實踐驗證。這里是億速云,小編將為大家推送更多相關知識點的文章,歡迎關注!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。