91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

SPARK大數據計算BUG處理:

發布時間:2020-07-05 09:18:23 來源:網絡 閱讀:702 作者:誰伴我闖蕩 欄目:大數據

大數據計算BUG處理:


程序修改前資源情況:

Driver : 1臺

Worker : 2臺

程序提交申請內存資源 : 1G內存

內存分配情況 : 

1. 20%用于程序運行

2. 20%用于Shuffle

3. 60%用于RDD緩存


單條TweetBean大小 : 3k


1. 內存溢出

原因:因為程序會把所有的TweetBean查詢出來并且合并(union),該操作在內存中進行。則某個campaign數據量較大時,如500W數據,則500W*10k=50G,超出內存限制。

解決方法: 先按數據量切分task,避免單個task有很多數據造成內存溢出。把所有的task切分完成放到task列表中。循環task列表,當取出的task的數據量大于200000時,合并所有的數據并拆分成16個RDD分片。循環取task列表直至結束。

批量取200000數據的原因:200000*3k=600M,兩臺機器可用于程序運行的內存=2(機器數)* 2G(程序申請的內存大小) * 0.2(用于程序運行的內存比例) = 800M,可以滿足存儲200000數據,避免內存溢出。



2. 運行緩慢

原因:因為兩臺機器,每臺機器可用于shuffle的內存大小 = 2(機器數)* 1G(程序申請的內存大小)* 0.2(用于程序運行的內存比例)= 400M。

200000(批量處理的數據量)* 3k(單條TweetBean大小)= 600M,批量Shuffle的數據量大于機器可用內存,所以數據會Flush到硬盤,導致讀取數據緩慢。

解決方法:調整程序Shuffle可用內存,如下:

程序申請內存資源:2G

內存分配情況 : 

1. 20%用于程序運行

2. 60%用于Shuffle

3. 20%用于RDD緩存


向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

通州区| 西宁市| 股票| 南投县| 左权县| 高青县| 伊川县| 营口市| 阿合奇县| 碌曲县| 清镇市| 尼木县| 天峻县| 南漳县| 景东| 明溪县| 山丹县| 进贤县| 昌邑市| 荆门市| 汕尾市| 社旗县| 绵阳市| 邹城市| 涪陵区| 白水县| 十堰市| 云林县| 疏附县| 琼结县| 昭觉县| 神农架林区| 苏尼特左旗| 衡水市| 平罗县| 恩平市| 台安县| 蒙自县| 贵定县| 青浦区| 新营市|