SparkSession详解-白红宇

SparkSession详解

阅读量：138 次

发布时间：2019-02-26

本文共 1817 字，大约阅读时间需要 6 分钟。

SparkSession?Spark 2.0?????????

SparkSession??Spark 2.0??????????????Spark???????????????????????????DataFrame?Dataset???API??????????????????????????????????SparkSession????

SparkSession???

SparkSession?Spark 2.0?????????????????????????????????????SparkConf?SparkContext?SQLContext?????????????SparkSession??????

?????SparkSession????DataFrame?Dataset API??????????????????????JSON?CSV?TXT?Parquet???

SQL???????????Spark SQL????????????SparkSession????DataFrame???SQL??????

Hive??????SparkSession????????????Hive????????????????

?????SparkSession?????SparkContext???????????API?????????????

??SparkSession

?Spark 2.0??????????SparkSession?????????????????SparkSession????

val warehouseLocation = "file:${system:user.dir}/spark-warehouse"val spark = SparkSession  .builder()  .appName("SparkSessionZipsExample")  .config("spark.sql.warehouse.dir", warehouseLocation)  .enableHiveSupport()  .getOrCreate()

????

???SparkSession?????????API??????????????????

spark.conf.set("spark.sql.shuffle.partitions", "6")spark.conf.set("spark.executor.memory", "2g")

?????

SparkSession????????????????????????????

spark.catalog.listDatabases.show(false)spark.catalog.listTables.show(false)

??JSON??

??SparkSession?????????JSON????????DataFrame?

val jsonFile = args(0)val zipsDF = spark.read.json(jsonFile)zipsDF.filter(zipsDF.col("pop") > 40000).show(10)

??Spark SQL

SparkSession????SQL???????????????????????

zipsDF.createOrReplaceTempView("zips_table")zipsDF.cache()val resultsDF = spark.sql("SELECT city, pop, state, zip FROM zips_table")resultsDF.show(10)

?SparkContext???

???SparkContext?????????????SparkSession?????????????????????????

??

SparkSession??????Spark????????????????????????????????????????SparkSession?????????????????????Hive????????????Spark 2.0???????????

?????http://www.raincent.com/content-85-7196-1.html

转载地址：http://rdgy.baihongyu.com/

你可能感兴趣的文章

Objective-C实现Length conversion长度转换算法(附完整源码)

查看>>

Objective-C实现Levenshtein 距离算法（附完整源码）

查看>>

Objective-C实现levenshteinDistance字符串编辑距离算法（附完整源码）

查看>>

Objective-C实现lfu cache缓存算法(附完整源码)

查看>>

Objective-C实现LFU缓存算法（附完整源码）

查看>>

Objective-C实现linear algebra线性代数算法(附完整源码)

查看>>

Objective-C实现linear congruential generator线性同余发生器算法(附完整源码)

查看>>

Objective-C实现linear discriminant analysis线性判别分析算法(附完整源码)

查看>>

Objective-C实现linear regression线性回归算法(附完整源码)

查看>>

Objective-C实现linear search线性搜索算法(附完整源码)

查看>>

Objective-C实现Linear search线性搜索算法（附完整源码）

查看>>

Objective-C实现LinearSieve线性素数筛选算法（附完整源码）

查看>>

Objective-C实现LinkedListNode链表节点类算法（附完整源码）

查看>>

Objective-C实现LinkedList链表算法（附完整源码）

查看>>

Objective-C实现local weighted learning局部加权学习算法(附完整源码)

查看>>

Objective-C实现logistic regression逻辑回归算法(附完整源码)

查看>>

Objective-C实现logistic sigmoid函数（附完整源码）

查看>>

Objective-C实现longest Common Substring最长公共子串算法（附完整源码）

查看>>

Objective-C实现longest increasing subsequence最长递增子序列算法(附完整源码)

查看>>

Objective-C实现longestCommonSubsequence最长公共子序列算法（附完整源码）

查看>>