adayan0_极客社区_安科网

adayan0

https://i.ancii.com/adayan2015/

动态

Ta还没有发布动态 ...

文章

Spark RDD

②通过Spark读取外部存储文件，将文件数据转变为RDD。可以从本地磁盘读取，也可以从HDFS读取

adayan0 0喜欢 / 0评论 2020-07-05

spark 任务提交参数

网上看到的关于Executor，Cores和Memory的分配相关博客，先记录下来，再汇总。Spark处理1Tb数据不需要1Tb的内存。具体需要多少内存是根据executor的core数量和每次读取数据集的block大小决定的。以读取hdfs上1tb大文件

adayan0 0喜欢 / 0评论 2020-05-19

Spark shuffle 相关参数调优

大家可要小心啊。将数据写到磁盘文件之前，会先写入 buffer 缓冲中，待缓冲写满之后，才会溢写到磁盘。在实践中尝试过，发现其性能比开启了

adayan0 0喜欢 / 0评论 2020-04-17

Spark集群搭建

上传scala-2.13.1.tgz和spark-2.4.4-bin-hadoop2.7.tgz到/opt/install目录。在master节点上安装配置完成Spark后，将整个spark目录拷贝到其他节点，并在各个节点上更新/etc/profile文件

adayan0 0喜欢 / 0评论 2020-04-16

Spark基础全解析

RDD是Spark最基本的数据结构。RDD表示已被分区、不可变的，并能够被并行操作的数据集合。

adayan0 0喜欢 / 0评论 2020-03-01

查看更多文章

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号