91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Spark 分析網站排名熱度

發布時間:2020-06-01 04:57:27 來源:網絡 閱讀:503 作者:ChinaUnicom110 欄目:大數據

需求:

/ 解決是一個各個子模塊內的熱度排名--》 排名得用sortBy ---》 (可能就是簡單的排序,或者是二次排序) ---》

// 前面有一個wordCount---》 算出次數出來  --》 考慮什么作為key


//算的一個網站下面,每個子模塊下面的網頁熱度前2名 :

// 算的一個網站下面,每個子模塊下面的網頁熱度前2名 --》 每個子模塊下面的網頁的次數的前2名


// 在實際開發中,真正代碼時間可能只占20-30% ,其他時間都在理解需求,想思路

import java.net.URL
import org.apache.spark.{SparkConf, SparkContext}
object Data_anlysis {
  def main(args: Array[String]) {
    val conf = new SparkConf().setAppName("data-anysis").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val linesRDD = sc.textFile("d://web_data.log")
    val rdd01 =linesRDD.map(line => {
      val lineSplited = line.split("\t")
      (lineSplited(1),1)
    })
    val rdd02 = rdd01.reduceByKey(_+_)
    val rdd03 = rdd02.map(tup => {
      val url = tup._1;
      val host = new URL(url).getHost
      (host,url,tup._2)
    })
    val rdd04 = rdd03.groupBy(_._1)
    val rdd05 = rdd04.mapValues(iter => {
      iter.toList.sortBy(_._3).reverse.take(2)
    })
    println(rdd05.collect().toBuffer)
    sc.stop()
  }
}

運行結果會把網站的日志數據按照某一模塊的要求列出排名前2個結果展示出來。

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

旌德县| 汉川市| 依安县| 麻栗坡县| 临夏市| 大同市| 开封市| 安徽省| 依安县| 汉阴县| 富顺县| 黄山市| 壶关县| 合川市| 新巴尔虎左旗| 吉林省| 永仁县| 湘阴县| 旌德县| 班玛县| 宝应县| 师宗县| 甘谷县| 石狮市| 广元市| 班戈县| 贵南县| 大厂| 曲沃县| 闽清县| 辽中县| 鹤峰县| 新乡市| 丹阳市| 偏关县| 澎湖县| 宣汉县| 鸡东县| 探索| 兴山县| 南康市|