Hhanwen_极客社区_安科网

Hhanwen

https://i.ancii.com/hhanwen/

动态

Ta还没有发布动态 ...

文章

Spark SQL(6) OptimizedPlan

在这一步spark sql主要应用一些规则，优化生成的Resolved Plan，这一步涉及到的有Optimizer。之前介绍在sparksession实例化的是会实例化sessionState，进而确定QueryExecution、Analyzer，Op

Hhanwen 0喜欢 / 0评论 2020-07-26

Spark DAG 依赖关系 Stage

记录了RDD之间的依赖关系，即RDD是通过何种变换生成的，如下图：RDD1是RDD2的父RDD，通过flatMap操作生成借助RDD之间的依赖关系，可以实现数据的容错，但是已经尽力避免产生shuffle. Task任务对应的是分区，即一个分区就是一个Ta

Hhanwen 0喜欢 / 0评论 2020-07-05

入门大数据---Spark开发环境搭建

Local 模式是最简单的一种运行方式，它采用单节点多线程方式运行，不用部署，开箱即用，适合日常测试开发。进入 spark-shell 后，程序已经自动创建好了上下文 SparkContext，等效于执行了下面的 Scala 代码：。安装完成后可以先做一个

Hhanwen 0喜欢 / 0评论 2020-06-25

Hive、Spark SQL、Impala比较

Hive、Spark SQL和Impala三种分布式SQL查询引擎都是SQL-on-Hadoop解决方案，但又各有特点。Spark SQL简介 Spark SQL是Spark的一个处理结构化数据的程序模块。与其它基本的Spark RDD API不同，

Hhanwen 0喜欢 / 0评论 2020-06-25

Spark分区

在Spark中，RDD是其最基本的抽象数据集，其中每个RDD是由若干个Partition组成。在Job运行期间，参与运算的Partition数据分布在多台机器的内存当中。图一中，RDD1包含了5个Partition，RDD2包含了3个Partition，这

Hhanwen 0喜欢 / 0评论 2020-05-29

查看更多文章

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号