博客
关于我
SparkSession详解
阅读量:138 次
发布时间:2019-02-26

本文共 1817 字,大约阅读时间需要 6 分钟。

SparkSession?Spark 2.0?????????

SparkSession??Spark 2.0??????????????Spark???????????????????????????DataFrame?Dataset???API??????????????????????????????????SparkSession????

SparkSession???

SparkSession?Spark 2.0?????????????????????????????????????SparkConf?SparkContext?SQLContext?????????????SparkSession??????

  • ?????SparkSession????DataFrame?Dataset API??????????????????????JSON?CSV?TXT?Parquet???
  • SQL???????????Spark SQL????????????SparkSession????DataFrame???SQL??????
  • Hive??????SparkSession????????????Hive????????????????
  • ?????SparkSession?????SparkContext???????????API?????????????
  • ??SparkSession

    ?Spark 2.0??????????SparkSession?????????????????SparkSession????

    val warehouseLocation = "file:${system:user.dir}/spark-warehouse"val spark = SparkSession  .builder()  .appName("SparkSessionZipsExample")  .config("spark.sql.warehouse.dir", warehouseLocation)  .enableHiveSupport()  .getOrCreate()

    ????

    ???SparkSession?????????API??????????????????

    spark.conf.set("spark.sql.shuffle.partitions", "6")spark.conf.set("spark.executor.memory", "2g")

    ?????

    SparkSession????????????????????????????

    spark.catalog.listDatabases.show(false)spark.catalog.listTables.show(false)

    ??JSON??

    ??SparkSession?????????JSON????????DataFrame?

    val jsonFile = args(0)val zipsDF = spark.read.json(jsonFile)zipsDF.filter(zipsDF.col("pop") > 40000).show(10)

    ??Spark SQL

    SparkSession????SQL???????????????????????

    zipsDF.createOrReplaceTempView("zips_table")zipsDF.cache()val resultsDF = spark.sql("SELECT city, pop, state, zip FROM zips_table")resultsDF.show(10)

    ?SparkContext???

    ???SparkContext?????????????SparkSession?????????????????????????

    ??

    SparkSession??????Spark????????????????????????????????????????SparkSession?????????????????????Hive????????????Spark 2.0???????????

    ?????http://www.raincent.com/content-85-7196-1.html

    转载地址:http://rdgy.baihongyu.com/

    你可能感兴趣的文章
    NIFI集群_内存溢出_CPU占用100%修复_GC overhead limit exceeded_NIFI: out of memory error ---大数据之Nifi工作笔记0017
    查看>>
    NIFI集群_队列Queue中数据无法清空_清除队列数据报错_无法删除queue_解决_集群中机器交替重启删除---大数据之Nifi工作笔记0061
    查看>>
    NIH发布包含10600张CT图像数据库 为AI算法测试铺路
    查看>>
    Nim教程【十二】
    查看>>
    Nim游戏
    查看>>
    NIO ByteBuffer实现原理
    查看>>
    Nio ByteBuffer组件读写指针切换原理与常用方法
    查看>>
    NIO Selector实现原理
    查看>>
    nio 中channel和buffer的基本使用
    查看>>
    NIO基于UDP协议的网络编程
    查看>>
    NISP一级,NISP二级报考说明,零基础入门到精通,收藏这篇就够了
    查看>>
    Nitrux 3.8 发布!性能全面提升,带来非凡体验
    查看>>
    NI笔试——大数加法
    查看>>
    NLog 自定义字段 写入 oracle
    查看>>
    NLog类库使用探索——详解配置
    查看>>
    NLP 基于kashgari和BERT实现中文命名实体识别(NER)
    查看>>
    NLP 项目:维基百科文章爬虫和分类【01】 - 语料库阅读器
    查看>>
    NLP_什么是统计语言模型_条件概率的链式法则_n元统计语言模型_马尔科夫链_数据稀疏(出现了词库中没有的词)_统计语言模型的平滑策略---人工智能工作笔记0035
    查看>>
    NLP学习笔记:使用 Python 进行NLTK
    查看>>
    NLP的神经网络训练的新模式
    查看>>