小草君技术_极客社区_安科网

小草君技术

https://i.ancii.com/ldds520/

动态

Ta还没有发布动态 ...

文章

Spark集群搭建 & spark-shell & Master HA

#SPARK_MASTER_PORT:提交任务的端口，默认是7077. #SPARK_WORKER_CORES：每个worker从节点能够支配的core的个数。步骤三、分发spark到另外两个节点。复制现有配置的spark-2.3.1及环境到新机

小草君技术 0喜欢 / 0评论 2020-03-17

Spark DataFrame处理数据倾斜问题

由于爬虫抓取等原因，会导致单一ID的日志条数过多。在spark中，同一ID的日志会被shuffle到单一的节点上进行处理，导致系统运行缓慢！因为这些用户的访问本来就是无效的，所以可以直接过滤掉这部分用户。话不多说，scala的DataFrame版输出和代码

小草君技术 0喜欢 / 0评论 2017-08-15

流式大数据处理的三种框架：Storm，Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑。由spout发射出的tuple是不可变数组，对应着固定的键

小草君技术 0喜欢 / 0评论 2017-03-08

spark的重分区及排序

昨天说了，mapPartitions 的使用技巧。大家应该都知道mapPartitions值针对整个分区执行map操作。而且对于PairRDD的分区默认是基于hdfs的物理块，当然不可分割的话就是hdfs的文件个数。但是我们也可以给partitionBy

小草君技术 0喜欢 / 0评论 2018-11-03

Spark函数详解系列之RDD基本转换

Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作

小草君技术 0喜欢 / 0评论 2018-09-30

查看更多文章

小草君技术

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号