91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何用spark分析網吧同行朋友思路

發布時間:2021-12-16 20:54:26 來源:億速云 閱讀:128 作者:柒染 欄目:大數據

本篇文章為大家展示了如何用spark分析網吧同行朋友思路,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。

mysql庫中有2.5kw網吧軌跡數據,需要計算同行關系:計算兩人在相同網吧十分鐘前后上下網三次及以上(如:a和b在19號十分鐘前后出現在了A網吧,又在21號十分鐘前后出現在了B網吧,再在22號十分鐘前后出現在了D網吧)就需要保留他們的身份ID和一起上下網的次數。2.5kw軌跡中有8k+網吧請問有什么思路嗎?

如果flink有更好的處理方式也可以。

使用用一個mysql的連接器,但是這東西需要配置一個分區列。

直接用的網吧編號。這樣會分8000多分區(而且后面的邏輯也沒有用到這個分區列),是不是有問題?今天測試了一下。兩個網吧,3w多數據,兩個小時沒跑完。。(我們是先用連接器抽出數據,按照網吧分組計算單次然后聚合篩選3次及以上的)網吧數據從幾條到幾萬條不等。

分區列的問題解決:

  1. 可以采用時間戳(long型)分區,會造成多余的一次shuffle。
  2. 自定義jdbcRDD,我記得以前分享過網上也有資料,這樣就可以自定義分區策略了。 數據還是要有明顯的分區列的
  3. 增加自增ID列。
處理思路:  
按照網吧ID進行group by,然后同組內兩兩組合,判斷A,B進入網吧時間差值是否小于10min,同時判斷離開網吧的時間是否相差10min以內,1.如果兩者都是true就保留,否則過濾。保留人物ID要進行兩兩組合,比如,A#B;兩者的順序可以定義個排序策略,比如字符串的話字典排序,這樣下面可以用。flatmap展開之后key和value翻轉。
2.然后在進行一次group by(key),此時的key就是A#B的組合了,value是網吧,然后統計value的size是否大于三。
3.有疑問就是兩個人相同時間下班,住的距離比較近,就經常去相同的離他們都近的網吧,同時上下網,不是同行,確實巧合。這個是否要處理。

上述內容就是如何用spark分析網吧同行朋友思路,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業資訊頻道。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

凤城市| 定远县| 拉萨市| 清流县| 同心县| 察哈| 昭苏县| 通州市| 浦东新区| 延寿县| 盐池县| 三台县| 大方县| 安陆市| 盐津县| 哈尔滨市| 宜兰市| 徐闻县| 沾化县| 凌云县| 南木林县| 溧水县| 北安市| 柳州市| 金堂县| 黑龙江省| 临江市| 五寨县| 调兵山市| 宿迁市| 裕民县| 崇州市| 巴中市| 永丰县| 太仆寺旗| 五家渠市| 腾冲县| 锡林浩特市| 台南市| 加查县| 松阳县|