文章_aidanmo_极客社区_安科网

aidanmo

https://i.ancii.com/aidanmo/

文章

SparkSQL 在有赞的实践

前言有赞数据平台从2017年上半年开始，逐步使用 SparkSQL 替代 Hive 执行离线任务，目前 SparkSQL 每天的运行作业数量5000个，占离线作业数目的55%，消耗的 cpu 资源占集群总资源的50%左右。本文介绍由 SparkSQL 替换

aidanmo 0喜欢 / 0评论 2019-06-30

spark单一部署版

再记录一下spark的单机版部署最后可以跑通spark自带的例子，不过可能有些参数还需要调整假设你已经部署好了hadoop首先下载scala和spark. Pi is roughly 3.14366这里讲的都是基本的spark配置和例子的运行，接下来会使用

aidanmo 0喜欢 / 0评论 2019-06-20

Spark Streaming与Storm 初步认识

Spark Streaming处于Spark生态技术栈中，可以和Spark Core和Spark SQL无缝整合；而Storm相对来说比较单一；Spark Streaming　　Spark Streaming是Spark的核心API的一个扩展，可以实现高吞

aidanmo 0喜欢 / 0评论 2018-02-11

集群上运行Spark

Spark集群是主从结构。驱动器节点可以和大量的执行器节点进行通信，它们也都作为独立的 Java 进程运行。驱动器节点和所有的执行器节点一起被称为一个 Spark 应用。任务是 Spark 中最小的工作单元，用户程序通常要启动成百上千的独立任务。如果有执

aidanmo 0喜欢 / 0评论 2017-10-14

Ubuntu系统搭建单机Spark注意事项

对于Spark而言，如果大家只是想摸一下、熟悉熟悉而已，可以搭建单机的Spark，大致步骤如下：。$SPARK_HOME/spark-submit --class "类名" --master spark://IP:Port 打包文件名。

aidanmo 0喜欢 / 0评论 2017-10-01

解决百度BMR的Spark集群开启slaves结点的问题

前言最近一直忙于和小伙伴倒腾着关于人工智能的比赛，一直都没有时间停下来更新更新我的博客。不过在这一个过程中，遇到了一些问题，我还是记录了下来，等到现在比较空闲了，于是一一整理出来写成博客。希望对于大家有帮助，如果在此有不对的地方，请大家指正，谢谢！比赛遇到

aidanmo 0喜欢 / 0评论 2017-08-14

重新编译、安装spark assembly，使CDH5.5.1支持sparkSQL

CDH内嵌spark版本不支持spark-sql，sparkR,如果要使用，需要将hive的相关依赖包打进spark assembly jar中，下面就是针对spark-sql的编译、安装步骤。Spark runs on Java 7+, Python 2

aidanmo 0喜欢 / 0评论 2016-08-02

实战Spark分布式SQL引擎

这样做的好处是运行Spark SQL时，减少了启动container上的时间消耗，同时代价是在thrift server空闲的时候，这些container资源仍然占用着不会释放给其他spark或mapreduce作业使用。

aidanmo 0喜欢 / 0评论 2015-08-05

Spark集群安装和使用

本文主要记录 CDH5 集群中 Spark 集群模式的安装过程配置过程并测试 Spark 的一些基本使用方法。操作系统：CentOS 6.5Hadoop 版本：cdh-5.4.0Spark 版本：cdh5-1.3.0_5.4.0关于 yum 源的配置以及

aidanmo 0喜欢 / 0评论 2015-08-02

加载中...

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号