文章_zhixingheyitian_极客社区_安科网

zhixingheyitian

https://i.ancii.com/zhixingheyitian/

文章

spark 广播变量累加器

你还可以使用 destroy 方法彻底销毁广播变量，调用该方法后，如果计算任务中又用到广播变量，则会抛出异常。　　广播变量在一定数据量范围内可以有效地使作业避免 Shuffle，使计算尽可能本地运行，Spark 的 Map 端连接操作就是用广播变量实现的。

zhixingheyitian 0喜欢 / 0评论 2020-07-19

Notebook Docker 安装spark环境

zhixingheyitian 0喜欢 / 0评论 2020-07-04

今天的收获

直接用jar包方便许多。编程似乎在不断完善，没有人知道未来是啥。因为map和reduce不够用。scala编写代码比java精简。sbt相对于scala来说就相当于 maven对java差不多。

zhixingheyitian 0喜欢 / 0评论 2020-06-08

spark的编译

./build/mvn -Pyarn -Phadoop-2.7 -Dhadoop.version=2.7.7 -Phive -Phive-thriftserver -Pyarn -DskipTests clean package. 我们可以使用Spark源

zhixingheyitian 0喜欢 / 0评论 2020-06-01

Spark GraphX企业运用

Spark GraphX 是 Spark 的一个模块，主要用于进行以图为核心的计算还有分布式图的计算。GraphX 他的底层计算也是 RDD 计算，它和 RDD 共用一种存储形态，在展示形态上可以以数据集来表示，也可以图的形式来表示。边的表示用 RDD[E

zhixingheyitian 0喜欢 / 0评论 2020-05-29

Spark RDD编程双Value类型交互

所谓双Value，就是两个数据集RDD之间进行操作。1 union：对源RDD和参数RDD合并后返回一个新的RDD，不会去重。2subtract：计算差的一种函数，去除两个RDD中相同的元素，不同的RDD将保留下来。5zip：将两个RDD组合成Key/Va

zhixingheyitian 0喜欢 / 0评论 2020-05-28

kafka unclean 配置代表啥，会对 spark streaming 消费有什么影响？

unclean.leader.election.enable 为true的话，意味着非ISR集合的broker 也可以参与选举，这样有可能就会丢数据，spark streaming在消费过程中拿到的 end offset 会突然变小，导致 spark st

zhixingheyitian 0喜欢 / 0评论 2020-05-25

在CDH中安装Spark2

第一步，需要在CDH上安装Spark 2，由于我的CDH是5.15.x，只能通过CDS的方式安装。总结下，需要手动下载cds文件上传到CM服务器并修改owner，然后重启系统的cmservice，之后可能还需要登录到CM管理端，从页面重启CM服务，这两者的

zhixingheyitian 0喜欢 / 0评论 2020-05-15

Spark SQL源码解析（二）Antlr4解析Sql并生成树

可能有童鞋没接触过antlr4这个内容，推荐看看《antlr4权威指南》前四章，看完起码知道antlr4能干嘛。这篇首先先介绍调用spark.sql()时候的流程，再看看antlr4在这个其中的主要功能，最后再将探究Logical Plan究竟是什么东西。

zhixingheyitian 0喜欢 / 0评论 2020-04-23

5.Spark 快速起步

This tutorial provides a quick introduction to using Spark. We will first introduce the API through Spark’s interactive shell ,

zhixingheyitian 0喜欢 / 0评论 2020-02-22

2020.2.2

跟着csdn的scala教程搭建了spark所用语言scala的环境。跟着b站的尚硅谷大数据学习了8个知识点，视频号：av62992342. 初步了解了spark的各方面知识，并且使用其做了简单的单词统计实验。通过三个故事，引出pre-architectu

zhixingheyitian 0喜欢 / 0评论 2020-02-02

寒假自学进度报告1

最初由美国加州伯克利大学的AMP实验室于2009年开发，是基于内存计算的大数据计算框架，可用于构建大型，低延迟的数据分析应用程序。每个 Application 都有自己专属的 Executor 进程，并且该进程在 Application 运行期间一直驻留

zhixingheyitian 0喜欢 / 0评论 2020-01-31

spark实验四

熟悉 Spark 的 RDD 基本操作及键值对操作；熟悉使用 RDD 编程解决实际具体问题的方法。该系总共有多少学生；该系共开设来多少门课程；Tom 同学的总成绩平均分是多少；求每名同学的选修的课程门数；使用累加器计算共有多少人选了 DataBase 这门

zhixingheyitian 0喜欢 / 0评论 2020-01-25

【2020/1/18】寒假自学——学习进度报告3

　　紧接上一次。　　这次是对于spark安装的总结。　　从官网上可以找到用户提供Hadoop环境的安装包，另外值得一提的是用户也可以无需自己安装hadoop而是选择原装包括了hadoop的安装包。　　放入虚拟机之后解压缩，修改权限，之后就可以开始配置了。　

zhixingheyitian 0喜欢 / 0评论 2020-01-18

大数据-spark理论(2)算子，shuffle优化

　　　　　　一个Partition中的数据，或多个Partition中的数据放在一个Partition中。　　　　　　　　控制算子有三种，cache,persist,checkpoint，以上算子都可以将RDD持久化，持久化的单位是partition。ch

zhixingheyitian 0喜欢 / 0评论 2020-01-09

Spark 1.5 to 2.1.X

// No pre-defined encoders for Dataset[Map[K,V]], define explicitly. // Primitive types and case classes can be also defined as

zhixingheyitian 0喜欢 / 0评论 2020-01-06

spark 任务导致tmp目录过大

解决办吧：修改spark的环境变量配置文件，在ambari界面上找到spark-env.sh的配置文件，添加参数

zhixingheyitian 0喜欢 / 0评论 2019-12-20

Linux安装Spark

修改主机名，暂时默认为localhost，不修改。启动后可以通过访问如下网址查看SPARK的控制台。_\ \/ _ \/ _ `/ __/ '_/. hadoop fs -mkdir -p /usr/hadoop 创建/usr/hadoop文件夹。had

zhixingheyitian 0喜欢 / 0评论 2019-12-10

spark submit 参数

appPid=0. start_process(){. appPid=$!}. start_process. echo "pid is"echo $appPid. exit

zhixingheyitian 0喜欢 / 0评论 2019-12-06

大数据基础--R语言（刘鹏《大数据》课后习题答案）

　　　　（１）数据存储和处理功能，丰富的数据读取与存储能力，丰富的数据处理功能。　　（２）决策树，是一种依托于分类、训练上的预测树，根据已知预测、归类未来。　　SparkR提供了对机器学习的支持，可实现多种机器学习算法，例如广义线性模型、加速失效时间生存回

zhixingheyitian 0喜欢 / 0评论 2019-12-01

加载中...

zhixingheyitian

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号