您好,登錄后才能下訂單哦!
本篇文章為大家展示了如何用spark分析網吧同行朋友思路,內容簡明扼要并且容易理解,絕對能使你眼前一亮,通過這篇文章的詳細介紹希望你能有所收獲。
在mysql庫中有2.5kw網吧軌跡數據,需要計算同行關系:計算兩人在相同網吧十分鐘前后上下網三次及以上(如:a和b在19號十分鐘前后出現在了A網吧,又在21號十分鐘前后出現在了B網吧,再在22號十分鐘前后出現在了D網吧)就需要保留他們的身份ID和一起上下網的次數。2.5kw軌跡中有8k+網吧請問有什么思路嗎?
如果flink有更好的處理方式也可以。
使用用一個mysql的連接器,但是這東西需要配置一個分區列。
直接用的網吧編號。這樣會分8000多分區(而且后面的邏輯也沒有用到這個分區列),是不是有問題?今天測試了一下。兩個網吧,3w多數據,兩個小時沒跑完。。(我們是先用連接器抽出數據,按照網吧分組計算單次然后聚合篩選3次及以上的)網吧數據從幾條到幾萬條不等。
分區列的問題解決:
上述內容就是如何用spark分析網吧同行朋友思路,你們學到知識或技能了嗎?如果還想學到更多技能或者豐富自己的知識儲備,歡迎關注億速云行業資訊頻道。
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。