91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

HADOOP概念是什么

發布時間:2021-12-22 14:27:52 來源:億速云 閱讀:179 作者:iii 欄目:開發技術

本篇內容主要講解“HADOOP概念是什么”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“HADOOP概念是什么”吧!

大數據:指無法在一定時間范圍內用常規軟件工具進行捕捉,管理和處理的數據集合,是需要新模式才能具有更強大的決策力,洞察發現力和流程優化能力的海量,高增長率和多樣化的信息資產

最小的基本單位是bit,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。

1 Byte =8 bit 1 KB = 1,024 Bytes = 8192 bit 1 MB = 1,024 KB = 1,048,576 Bytes 1 GB = 1,024 MB = 1,048,576 KB 1 TB = 1,024 GB = 1,048,576 MB 1 PB = 1,024 TB = 1,048,576 GB 1 EB = 1,024 PB = 1,048,576 TB 1 ZB = 1,024 EB = 1,048,576 PB 1 YB = 1,024 ZB = 1,048,576 EB 1 BB = 1,024 YB = 1,048,576 ZB 1 NB = 1,024 BB = 1,048,576 YB 1 DB = 1,024 NB = 1,048,576 BB

主要解決,海量數據的存儲和海量數據的分析計算問題

2 大數據的特點

1、大量。大數據的特征首先就體現為“大”,從先Map3時代,一個小小的MB級別的Map3就可以滿足很多人的需求,然而隨著時間的推移,存儲單位從過去的GB到TB,乃至現在的PB、EB級別。隨著信息技術的高速發展,數據開始爆發性增長。社交網絡(微博、推特、臉書)-、移動網絡、各種智能工具,服務工具等,都成為數據的來源。淘寶網近4億的會員每天產生的商品交易數據約20TB;臉書約10億的用戶每天產生的日志數據超過300TB。迫切需要智能的算法、強大的數據處理平臺和新的數據處理技術,來統計、分析、預測和實時處理如此大規模的數據。

2、多樣。廣泛的數據來源,決定了大數據形式的多樣性。任何形式的數據都可以產生作用,目前應用最廣泛的就是推薦系統,如淘寶,網易云音樂、今日頭條等,這些平臺都會通過對用戶的日志數據進行分析,從而進一步推薦用戶喜歡的東西。日志數據是結構化明顯的數據,還有一些數據結構化不明顯,例如圖片、音頻、視頻等,這些數據因果關系弱,就需要人工對其進行標注。

3、高速。大數據的產生非常迅速,主要通過互聯網傳輸。生活中每個人都離不開互聯網,也就是說每天個人每天都在向大數據提供大量的資料。并且這些數據是需要及時處理的,因為花費大量資本去存儲作用較小的歷史數據是非常不劃算的,對于一個平臺而言,也許保存的數據只有過去幾天或者一個月之內,再遠的數據就要及時清理,不然代價太大。基于這種情況,大數據對處理速度有非常嚴格的要求,服務器中大量的資源都用于處理和計算數據,很多平臺都需要做到實時分析。數據無時無刻不在產生,誰的速度更快,誰就有優勢。

4、價值。這也是大數據的核心特征。現實世界所產生的數據中,有價值的數據所占比例很小。相比于傳統的小數據,大數據最大的價值在于通過從大量不相關的各種類型的數據中,挖掘出對未來趨勢與模式預測分析有價值的數據,并通過機器學習方法、人工智能方法或數據挖掘方法深度分析,發現新規律和新知識,并運用于農業、金融、醫療等各個領域,從而最終達到改善社會治理、提高生產效率、推進科學研究的效果

HADOOP背景介紹

1.1 什么是HADOOP

介紹官網hadoop.apache.com  --> 看不懂可以使用百度翻譯

Apache Hadoop 為可靠的,可擴展的分布式計算開發開源軟件。 Apache Hadoop軟件庫是一個框架,它允許使用簡單的編程模型跨計算機群集分布式處理大型數據集(海量的數據)。 包括這些模塊:

? Hadoop Common:支持其他Hadoop模塊的常用工具。

? Hadoop分布式文件系統(HDFS?):一種分布式文件系統,可提供對應用程序數據的高吞吐量訪問。

? Hadoop YARN:作業調度和集群資源管理的框架。

? Hadoop MapReduce:一種用于并行處理大型數據集的基于YARN的系統。

上述每個模塊有自己獨立的功能,而模塊之間又有相互的關聯。

廣義上來說,HADOOP通常是指一個更廣泛的概念——HADOOP生態圈

1.2 HADOOP產生背景

雛形開始于2002年的Apache的Nutch,Nutch是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。Nutch的設計目標是構建一個大型的全網搜索引擎,包括網頁抓取、索引、查詢等功能,但隨著抓取網頁數量的增加,遇到了嚴重的可擴展性問題--------“如何解決數十億網頁的存儲和索引問題”。

? 2003年Google發表了一篇技術學術論文谷歌文件系統(GFS)。GFS也就是google File System,google公司為了存儲海量搜索數據而設計的專用文件系統。

? 2004年Nutch創始人Doug Cutting基于Google的GFS論文實現了分布式文件存儲系統名為NDFS。

ps:2003-2004年,Google公開了部分GFS和Mapreduce思想的細節,以此為基礎Doug Cutting等人用了2年業余時間實現了DFS和Mapreduce機制,一個微縮版:Nutch

? 2004年Google又發表了一篇技術學術論文MapReduce。MapReduce是一種編程模型,用于大規模數據集(大于1TB)的并行分析運算。

? 2005年Doug Cutting又基于MapReduce,在Nutch搜索引擎實現了該功能。

?

國內外HADOOP應用案例介紹

? 大型網站Web服務器的日志分析:一個大型網站的Web服務器集群,每5分鐘收錄的點擊日志高達800GB左右,峰值點擊每秒達到900萬次。每隔5分鐘將數據裝載到內存中,高速計算網站的熱點URL,并將這些信息反饋給前端緩存服務器,以提高緩存命中率。

? 運營商流量經營分析:每天的流量數據在2TB~5TB左右,拷貝到HDFS上,通過交互式分析引擎框架,能運行幾百個復雜的數據清洗和報表業務,總時間比類似硬件配置的小型機集群和DB2快2~3倍。

1.5 國內HADOOP的就業情況分析

可以聯網查智聯

大數據方面的就業主要有三大方向:

? 數據分析類大數據人才 對應崗位 大數據系統研發工程師

? 系統研發類大數據人才 對應崗位 大數據應用開發工程師

? 應用開發類大數據人才 對應崗位 大數據分析師

大數據技術生態體系

上圖中涉及到的技術名詞解釋如下:

1)Sqoop:sqoop 是一款開源的工具,主要用于在 Hadoop(Hive)與傳統的數據庫(mysql)間進 行數據的傳遞,可以將一個關系型數據庫(例如 : MySQL ,Oracle 等)中的數據導進到 Hadoop 的 HDFS 中,也可以將 HDFS 的數據導進到關系型數據庫中。

2)Flume:Flume 是 Cloudera 提供的一個高可用的,高可靠的,分布式的海量日志采集、聚 合和傳輸的系統,Flume 支持在日志系統中定制各類數據發送方,用于收集數據;同時,Flume 提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。

3)Kafka:Kafka 是一種高吞吐量的分布式發布訂閱消息系統,有如下特性:

(1)通過 O(1)的磁盤數據結構提供消息的持久化,這種結構對于即使數以 TB 的消息 存儲也能夠保持長時間的穩定性能。  (2)高吞吐量:即使是非常普通的硬件 Kafka 也可以支持每秒數百萬的消息 (3)支持通過 Kafka 服務器和消費機集群來分區消息。

(4)支持 Hadoop 并行數據加載。

4)Storm:Storm 為分布式實時計算提供了一組通用原語,可被用于“流處理”之中,實時

處理消息并更新數據庫。這是管理隊列及工作者集群的另一種方式。 Storm 也可被用于“連

續計算”(continuous computation),對數據流做連續查詢,在計算時就將結果以流的形式

輸出給用戶。

5)Spark:Spark 是當前最流行的開源大數據內存計算框架。可以基于 Hadoop 上存儲的大數據進行計算。

6)Oozie:Oozie 是一個管理 Hdoop 作業(job)的工作流程調度管理系統。Oozie 協調作業 就是通過時間(頻率)和有效數據觸發當前的 Oozie 工作流程。

7)Hbase:HBase 是一個分布式的、面向列的開源數據庫。HBase 不同于一般的關系數據庫, 它是一個適合于非結構化數據存儲的數據庫。

8)Hive:hive 是基于 Hadoop 的一個數據倉庫工具,可以將結構化的數據文件映射為一張 數據庫表,并提供簡單的 sql 查詢功能,可以將 sql 語句轉換為 MapReduce 任務進行運行。 其優點是學習成本低,可以通過類 SQL 語句快速實現簡單的 MapReduce 統計,不必開發專 門的 MapReduce 應用,十分適合數據倉庫的統計分析。

9)Mahout:

Apache Mahout是個可擴展的機器學習和數據挖掘庫,當前Mahout支持主要的4個用 例:  推薦挖掘:搜集用戶動作并以此給用戶推薦可能喜歡的事物。 聚集:收集文件并進行相關文件分組。 分類:從現有的分類文檔中學習,尋找文檔中的相似特征,并為無標簽的文檔進行正確 的歸類。

頻繁項集挖掘:將一組項分組,并識別哪些個別項會經常一起出現。

10)ZooKeeper:Zookeeper 是 Google 的 Chubby 一個開源的實現。它是一個針對大型分布 式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、 分布式同步、組服務等。 ZooKeeper 的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能 穩定的系統提供給用戶。

到此,相信大家對“HADOOP概念是什么”有了更深的了解,不妨來實際操作一番吧!這里是億速云網站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續學習!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

北川| 拉萨市| 深州市| 黎川县| 恩平市| 乌鲁木齐县| 肇源县| 冕宁县| 岫岩| 舒兰市| 台安县| 澎湖县| 米泉市| 饶阳县| 寿宁县| 湛江市| 宜兴市| 保定市| 黄骅市| 留坝县| 秭归县| 雷波县| 宝坻区| 巨野县| 扎兰屯市| 泰兴市| 开封县| 毕节市| 浏阳市| 边坝县| 内丘县| 阿克陶县| 徐水县| 石柱| 扶风县| 日喀则市| 邻水| 南充市| 易门县| 昔阳县| 清水县|