文章_小琳子_极客社区

小琳子

https://i.ancii.com/weiying7/

小琳子

小琳子 weiying7

文章

Spark应用开发（上）

Spark等到action出现，再执行transformation其实是Spark自身在做一个最佳的调优，用最高效的顺序来执行所有的transformation（优化）

小琳子 0喜欢 / 0评论 2019-11-16

spark详解

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job

小琳子 0喜欢 / 0评论 2014-11-24

两款高性能并行计算引擎Storm和Spark比较（转）

Spark基于这样的理念，当数据庞大时，把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储（或缓存）它的数据集，然后任务被提交给节点。这和Hadoopmap/reduce非常相似，除了积极使用内存来避免I/O操作，以使得迭代算法性能更高。

小琳子 0喜欢 / 0评论 2014-11-20

Spark 都干啥

广点通是最早使用Spark的应用之一。腾讯大数据精准推荐借助Spark快速迭代的优势，围绕“数据+算法+系统”这套技术方案，实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法，最终成功应用于广点通pCTR投放系统上，支持每天上百亿

小琳子 0喜欢 / 0评论 2014-09-21

spark学习使用记录

先说一下我对spark-yarn管理的理解，程序是driver，提交到resourcemanage中，申请资源，如果有资源，则允许运行，分配到各个worknode中，一个分区对应一个task，分区与并发有很大关系，当然并发也决定于cores. 有本地模式，

小琳子 0喜欢 / 0评论 2017-01-20

windons下远程提交任务到linux上的spark集群

-- 进行LDA 会使用到一下jar，否则可不引入 -->. 新建项目，引入以上pom依赖，且将spark-assembly-1.4.1-hadoop2.4.0.jar手动加入项目中，新建类MyPi.java

小琳子 0喜欢 / 0评论 2016-01-05

使用spark 对文本分词统计

* 使用spark集群计算的时候，将jieba的类都 implements Serializable

小琳子 0喜欢 / 0评论 2015-04-22

Spark(4)Deal with Mesos

Spark(4)Deal with Mesos5. Running Spark with MesosI am an old developer, I already have Java, Scala, and Spark on my local machi

小琳子 0喜欢 / 0评论 2014-06-21

Spark编译

前提在这里我们编译的是Spark2.2.0,Hadoop版本为hadoop-2.6.0-cdh5.7.0，Scala版本为2.11.8. [ERROR] Java heap space -> [Help 1]应为我这里使用的是CDH版的Hadoop所

小琳子 0喜欢 / 0评论 2019-06-27

intelliJ 单机无sbt调试

单机调试 spark 如果不用sbt，需要下载1.6版本才有 spark-assembly-1.6.0-hadoop2.6.0.jar 相关类似的jar

小琳子 0喜欢 / 0评论 2016-11-21

修改/etc/profile后command not found

exportSPARK_HOME=/opt/spark1.3. exportPATH=$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH. 修改时写错了。然后再执行。source/etc/profile

小琳子 0喜欢 / 0评论 2015-08-11

微软Azure大数据平台发布调试工具集，支持Spark 2.3！

能通吃Hadoop、Spark、Kafka等开源框架的微软Azure云大数据平台HDInsight，近日该平台上发布了Spark调试工具集，可以支持Spark 2.3版及未来的新版本。搭配此调试工具集，可以将Spark任务的工作图表、数据流可视化，让Spa

小琳子 0喜欢 / 0评论 2018-09-10

大公司如何使用Apache Spark

Spark的普通用户案例公司严重依赖各种数据源。这用于他们的分析产品。这些数据处理工作流程都包含像使用内部数据源清理，转换和融合非结构化外部数据一样的处理。特别是当谈到成功的Startups时，Spark被证明是非常有用的。对于非程序员来说，某些公司还创建

小琳子 0喜欢 / 0评论 2018-04-23

Spark单机部署及样例运行

spark单机运行部署环境预装需要预先下载jdk和spark。机器使用CentOS 6.6(推荐)。[root@spark-master root]# yum install -y tar git curl wget. [root@spark-master

小琳子 0喜欢 / 0评论 2017-10-12

Spark 性能相关参数配置详解

但是文档的更新总是落后于代码的开发的, 还有一些配置参数没有来得及被添加到这个文档中, 最重要的是在这个文档中,对于许多的参数也只能简单的介绍它所代表的内容的字面含义, 如果没有一定的实践基础或者对其背后原理的理解, 往往无法真正理解该如何针对具体应用场合

小琳子 0喜欢 / 0评论 2015-08-08

Spark 配置

环境变量用来加载Spark的workers，可以在你的驱动程序或theconf/spark-env.shscript中设定。Java系统属性控制内部配置参数，可以通过编程方式设置或者通过inspark-env.sh中的SPARK_JAVA_OPTS环境

小琳子 0喜欢 / 0评论 2013-10-02

加载中...

小琳子

0 关注 0 粉丝 0 动态