文章_小草君技术_极客社区_安科网

小草君技术

https://i.ancii.com/ldds520/

文章

Spark集群搭建 & spark-shell & Master HA

#SPARK_MASTER_PORT:提交任务的端口，默认是7077. #SPARK_WORKER_CORES：每个worker从节点能够支配的core的个数。步骤三、分发spark到另外两个节点。复制现有配置的spark-2.3.1及环境到新机

小草君技术 0喜欢 / 0评论 2020-03-17

Spark DataFrame处理数据倾斜问题

由于爬虫抓取等原因，会导致单一ID的日志条数过多。在spark中，同一ID的日志会被shuffle到单一的节点上进行处理，导致系统运行缓慢！因为这些用户的访问本来就是无效的，所以可以直接过滤掉这部分用户。话不多说，scala的DataFrame版输出和代码

小草君技术 0喜欢 / 0评论 2017-08-15

流式大数据处理的三种框架：Storm，Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑。由spout发射出的tuple是不可变数组，对应着固定的键

小草君技术 0喜欢 / 0评论 2017-03-08

spark的重分区及排序

昨天说了，mapPartitions 的使用技巧。大家应该都知道mapPartitions值针对整个分区执行map操作。而且对于PairRDD的分区默认是基于hdfs的物理块，当然不可分割的话就是hdfs的文件个数。但是我们也可以给partitionBy

小草君技术 0喜欢 / 0评论 2018-11-03

Spark函数详解系列之RDD基本转换

Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行转换，仅仅是记住了数据集的逻辑操作

小草君技术 0喜欢 / 0评论 2018-09-30

spark的重分区及排序

当时浪尖也在星球里讲了一下，整个关于分区排序的内容。今天，在这里给大家分享一下。更多大数据小技巧及调优，spark的源码文章，原理文章及源码视频请加入知识星球。昨天说了，mapPartitions 的使用技巧。大家应该都知道mapPartitions值针对

小草君技术 0喜欢 / 0评论 2018-08-23

解析四大Flex4布局方式

在学习Flex4的过程中，你会遇到Flex4布局的概念，这里和大家分享一下，在FlexSDK4的spark组件库里面增加了一个page：spark.layouts。其中包括了比较重要的四个Flex4布局类，请看下文详细介绍。在FlexSDK3里面对应的是

小草君技术 0喜欢 / 0评论 2010-08-13

Spark分布式集群的搭建和运行

集群共三台CentOS虚拟机，一个Matser，主机名为master；三个Worker，主机名分别为master、slave03、slave04。前提是Hadoop和Zookeeper已经安装并且开始运行。source /etc/profile在slave

小草君技术 0喜欢 / 0评论 2017-04-11

Spark2.0安装配置文档

从scala官网下载scala-2.11.8.tgz、spark-2.0.0-bin-hadoop2.7.tgz两个安装包到集群各个节点机器上。解压安装包：tar -zxvfscala-2.11.8.tgz，可以解压到/usr/local目录下，配置环境变

小草君技术 0喜欢 / 0评论 2016-09-20

CentOS 6.4+Hadoop2.2.0 Spark伪分布式安装

For Hadoop 1 : find an Apache mirror or direct file download For CDH4: find an Apache mirror or direct file download For Hadoo

小草君技术 0喜欢 / 0评论 2016-03-09

Spark internal - 多样化的运行模式

Spark的运行模式多种多样，在单机上既可以以本地模式运行，也可以以伪分布式模式运行。而当以分布式的方式运行在Cluster集群中时，底层的资源调度可以使用Mesos 或者是Hadoop Yarn ，也可以使用Spark自带的Standalone Depl

小草君技术 0喜欢 / 0评论 2014-10-13

加载中...

小草君技术

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号