大數據開發過程中的5個學習通用步驟是什么

發布時間：2022-01-10 10:49:20 來源：億速云閱讀：173 作者：柒染欄目：大數據

大數據開發過程中的5個學習通用步驟是什么，針對這個問題，這篇文章詳細介紹了相對應的分析和解答，希望可以幫助更多想解決這個問題的小伙伴找到更簡單易行的方法。

大數據的開發過程，如圖1-1所示。
大數據開發過程中的5個學習通用步驟是什么

圖 1-1大數據開發通用步驟圖

上圖只是一個簡化后的步驟和流程，實際開發中，有的步驟可能不需要，有的還需要增加步驟，有的流程可能更復雜，因具體情況而定。

下面以Google搜索引擎為例，來說明以上步驟。

如果你想要學好大數據最好加入一個好的學習環境，可以來這個Q群529867072 這樣大家學習的話就比較方便，還能夠共同交流和分享資料

大數據采集

Google的數據來源于互聯網上的網頁，它們由Google Spider（蜘蛛、爬蟲、機器人）來抓取，抓取的原理也很簡單，就是模擬我們人的行為，來訪問各個網頁，然后保存網頁內容。

Google Spider是一個程序，運行在全球各地的Google服務器之中，Spider們非常勤奮，日夜不停地工作。點擊領取免費資料及課

2008年Google數據表明，它們每天都會訪問大約200億個網頁，而在總量上，它們追蹤著300億個左右的獨立URL鏈接。

可以說，只要是互聯網上的網站，只要沒有在robots.txt文件禁止Spider訪問的話，其網頁基本上都會在很短的時間內，被抓取到Google的服務器上。

全球的網頁，這是典型的大數據。因此，Google Spider所做的就是典型的大數據采集工作。

大數據預處理

Google Spider爬取的網頁，無論是從格式還是結構等，都不統一，為了便于后續處理，需要先做一些處理，例如，在存儲之前，先轉碼，使用統一的格式對網頁進行編碼，這些工作就是預處理。

大數據存儲

網頁經過預處理后，就可以存儲到Google的服務器上。

2008年，Google已經索引了全世界1萬億個網頁，到2014年，這個數字變成了30萬億個。

為了減少開銷，節約空間，Google將多個網頁文件合并成一個大文件，文件大小通常在1GB以上。

這還是15年以前的數字，那時，主流臺式機硬盤也就是60GB左右，1GB的文件在當時可以說是大文件了。

為了實現這些大文件高效、可靠、低成本存儲，Google發明了一種構建在普通商業機器之上的分布式文件系統：Google File System，縮寫為GFS，用來存儲文件（又稱之為非結構化數據）。

網頁文件存儲下來后，就可以對這些網頁進行處理了，例如統計每個網頁出現的單詞以及次數，統計每個網頁的外鏈等等。

這些被統計的信息，就成為了數據庫表中的一個屬性，每個網頁最終就會成為數據庫表中的一條或若干條記錄。

由于Google存儲的網頁太多，30萬億個以上，因此，這個數據庫表也是超級龐大的，傳統的數據庫，像Oracle等，根本無法處理這么大的數據，因此Google基于GFS，發明了一種存儲海量結構化數據（數據庫表）的分布式系統Bigtable。

上述兩個系統（GFS和Bigtable）并未開源，Google僅通過文章的形式，描述了它們的設計思想。

所幸的是，基于Google的這些設計思想，時至今日，已經出現了不少開源海量數據分布式文件系統，如HDFS等，也出現了許多開源海量結構化數據的分布式存儲系統，如HBase、Cassandra等，它們分別用于不同類型大數據的存儲。

總之，如果采集過來的大數據需要存儲，要先判斷數據類型，再確定存儲方案選型；

如果不需要存儲（如有的流數據不需要存儲，直接處理），則直接跳過此步驟，進行處理。

在這里還是要推薦下我自己建的大數據學習交流群:529867072，群里都是學大數據開發的，如果你正在學習大數據，小編歡迎你加入,大家都是軟件開發黨，不定期分享干貨（只有大數據軟件開發相關的），包括我自己整理的一份最新的大數據進階資料和高級開發教程，歡迎進階中和進想深入大數據的小伙伴加入。4. 大數據處理

網頁存儲后，就可以對存儲的數據進行處理了，對于搜索引擎來說，主要有3步：

1）單詞統計：統計網頁中每個單詞出現的次數；

2）倒排索引：統計每個單詞所在的網頁URL（Uniform Resource Locator統一資源定位符，俗稱網頁網址）以及次數；

3）計算網頁級別：根據特定的排序算法，如PageRank，來計算每個網頁的級別，越重要的網頁，級別越高，以此決定網頁在搜索返回結果中的排序位置。

例如，當用戶在搜索框輸入關鍵詞“足球”后，搜索引擎會查找倒排索引表，得到“足球”這個關鍵詞在哪些網頁（URL）中出現，然后，根據這些網頁的級別進行排序，將級別最高的網頁排在最前面，返回給用戶，這就是點擊“搜索”后，看到的最終結果。

大數據處理時，往往需要從存儲系統讀取數據，處理完畢后，其結果也往往需要輸出到存儲。因此，大數據處理階段和存儲系統的交互非常頻繁。

大數據可視化

大數據可視化是將數據以圖形的方式展現出來，與純粹的數字表示相比，圖形方式更為直觀，更容易發現數據之間的規律。

例如，Google Analytics是一個網站流量分析工具，它統計每個用戶使用搜索引擎訪問網站的數據，然后得到每個網站的流量信息，包括網站每天的訪問次數，訪問量最多的頁面、用戶的平均停留時間、回訪率等，所有數據都以圖形的方式，直觀地顯示出來，如圖1-2所示

圖1-2 Google網站訪問量分析圖大數據開發過程中的5個學習通用步驟是什么

關于大數據開發過程中的5個學習通用步驟是什么問題的解答就分享到這里了，希望以上內容可以對大家有一定的幫助，如果你還有很多疑惑沒有解開，可以關注億速云行業資訊頻道了解更多相關知識。

向AI問一下細節

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

大數據開發過程中的5個學習通用步驟是什么

猜你喜歡

91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

大數據開發過程中的5個學習通用步驟是什么

猜你喜歡

最新資訊

相關推薦

相關標簽