yanqianglifei_极客社区_安科网

yanqianglifei

https://i.ancii.com/yanqianglifei/

动态

Ta还没有发布动态 ...

文章

Spark 源码解读（五）SparkContext的初始化之创建和启动DAGScheduler

DAGScheduler主要用于在任务正式提交给TaskSchedulerImpl提交之前做一些准备工作，包括：创建job,将DAG中的RDD划分到不同的Stage,提交Stage等等。SparkContext中创建DAGScheduler的代码如下所示：

yanqianglifei 0喜欢 / 0评论 2020-07-07

大数据之Spark 模拟数据(本地和kafka方式运行)

/** * 模拟数据数据格式如下： * * 日期卡口ID 摄像头编号车牌号拍摄时间车速道路ID 区域ID * date

yanqianglifei 0喜欢 / 0评论 2020-06-09

RDD和DataFrame和DataSet三者间的区别

在SparkSQL中Spark为我们提供了两个新的抽象，分别是DataFrame和DataSet。他们和RDD有什么区别呢？首先从版本的产生上来看：RDD —> Dataframe —> Dataset. 如果同样的数据都给到这三个数据结构，

yanqianglifei 0喜欢 / 0评论 2020-05-12

Spark中自定义累加器

通过继承AccumulatorV2可以实现自定义累加器。下面是我自己写的一个统计卡种数量的案例。override def merge: Unit = other match {. 通过上面代码，就可以同时统计两个变量的值了，当然如果需要更多，可以扩展。

yanqianglifei 0喜欢 / 0评论 2020-04-24

Spark RDD转DataFrame

* 导入包，支持把一个RDD隐式转换为DataFrame,

yanqianglifei 0喜欢 / 0评论 2020-04-22

查看更多文章

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号