91超碰碰碰碰久久久久久综合_超碰av人澡人澡人澡人澡人掠_国产黄大片在线观看画质优化_txt小说免费全本

溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

怎么用Spark求數據的最大值

發布時間:2021-08-25 18:30:43 來源:億速云 閱讀:270 作者:chen 欄目:云計算

本篇內容介紹了“怎么用Spark求數據的最大值”的有關知識,在實際案例的操作過程中,不少人都會遇到這樣的困境,接下來就讓小編帶領大家學習一下如何處理這些情況吧!希望大家仔細閱讀,能夠學有所成!

1: 以前用過hadoop從文件中讀取數據求過最大值。現在用Spark來求最大值。由于spark的資料比較少所以搞了半天才弄完。我親自測試在local狀態下14750778條數據用了10秒。

2:下載spark-0.9.1-bin-hadoop1并解壓到F:\BigData (Spark可以再Windows上運行) 打開目錄F:\BigData\spark-0.9.1-bin-hadoop1\assembly\target\scala-2.10把里面的spark-assembly_2.10-0.9.1-hadoop1.0.4.jar放到新建的工程里面就可以了。

準備數據:新建一個data文件在里面輸入如下內容:

1,1,5.0

1,2,1.0

1,3,5.0

1,4,1.0

2,1,5.0

2,2,1.0

2,3,5.0

2,4,1.0

3,1,1.0

3,2,5.0

3,3,1.0

3,4,5.0

4,1,1.0

4,2,5.0

4,3,1.0

4,4,5.0

1,1,5.0

1,2,1.0

1,3,5.0

1,4,1.0

2,1,5.0

2,2,1.0

2,3,5.0

2,4,1.0

3,1,1.0

3,2,5.0

3,3,1.0

3,4,5.0

4,1,1.0

4,2,5.0

4,3,1.0

4,4,5.0

1,1,5.0

1,2,1.0

1,3,5.0

1,4,1.0

2,1,5.0

2,2,1.0

數據之間用逗號分隔

打開eclipse新建一個javaProject.

在任意包中書寫如下內容

package com.spark.test;

import java.util.Arrays;

import java.util.regex.Pattern;

import org.apache.spark.api.java.JavaDoubleRDD;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.api.java.JavaSparkContext;

import org.apache.spark.api.java.function.DoubleFunction;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

public final class Max {

 private static final Pattern SPACE = Pattern.compile(",");

 public static void main(String[] args) throws Exception {

  // spark安裝目錄

  String spark_home = "F:\\BigData\\spark-0.9.1-bin-hadoop1";

  // "local" 代表了本地運行模式

  JavaSparkContext ctx = new JavaSparkContext("local", "JavaWordCount",

    spark_home, JavaSparkContext.jarOfClass(JavaWordCount.class));

  // 加載文件

  JavaRDD<String> lines = ctx

    .textFile(

      "E:\\workspace\\spark\\src\\com\\spark\\resource\\test.data",

      1);

  // flatMap函數是把每一行根據分隔符把它變成多行。比如1,2,3 用逗號分隔用了flatMap后變成

  // 1

  // 2

  // 3 .這一行的主要作用是把所有的數據放到JavaRDD里面

  JavaRDD<String> words = lines

    .flatMap(new FlatMapFunction<String, String>() {

     @Override

     public Iterable<String> call(String s) {

      return Arrays.asList(SPACE.split(s));

     }

    });

  // 把JavaRDD<String>類型變成JavaDoubleRDD類型的

  JavaDoubleRDD one = words.map(new DoubleFunction<String>() {

   @Override

   public Double call(String s) throws Exception {

    if (s.trim().length() == 0) {

     s = "0";

    }

    return Double.parseDouble(s);

   }

  });

  // 統計有多少條數據

  System.out.println(one.count() + "%%%%%%%%");

  // 求最大值.new Function2<Double, Double, Double>()

  // 函數的3個參數,第一個和第二個參數對應call函數里面的第一個參數和第二個參數。第3個參數代表call函數的返回值類型

  Double max = one.rdd().reduce(new Function2<Double, Double, Double>() {

   @Override

   public Double call(Double i1, Double i2) throws Exception {

    return Math.max(i1, i2);

   }

  });

  System.out.println(max);

  System.exit(0);

 }

}

“怎么用Spark求數據的最大值”的內容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業相關的知識可以關注億速云網站,小編將為大家輸出更多高質量的實用文章!

向AI問一下細節

免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。

AI

宜兰市| 巴中市| 共和县| 万州区| 鄂州市| 化州市| 天镇县| 水城县| 龙口市| 余江县| 太白县| 乐清市| 泸水县| 郎溪县| 忻城县| 房产| 大洼县| 孟连| 曲周县| 嵩明县| 班玛县| 克拉玛依市| 博白县| 临邑县| 光泽县| 南汇区| 衡水市| 贺兰县| 密云县| 盘山县| 哈巴河县| 屯门区| 蕲春县| 绍兴市| 会同县| 宁安市| 鹰潭市| 大埔区| 宿迁市| 湾仔区| 商河县|