https://i.ancii.com/weiying7/
小琳子 weiying7
Ta还没有发布动态 ...
Spark等到action出现,再执行transformation其实是Spark自身在做一个最佳的调优,用最高效的顺序来执行所有的transformation(优化)
Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job
Spark基于这样的理念,当数据庞大时,把计算过程传递给数据要比把数据传递给计算过程要更富效率。每个节点存储(或缓存)它的数据集,然后任务被提交给节点。这和Hadoopmap/reduce非常相似,除了积极使用内存来避免I/O操作,以使得迭代算法性能更高。
广点通是最早使用Spark的应用之一。腾讯大数据精准推荐借助Spark快速迭代的优势,围绕“数据+算法+系统”这套技术方案,实现了在“数据实时采集、算法实时训练、系统实时预测”的全流程实时并行高维算法,最终成功应用于广点通pCTR投放系统上,支持每天上百亿
先说一下我对spark-yarn管理的理解,程序是driver,提交到resourcemanage中,申请资源,如果有资源,则允许运行,分配到各个worknode中,一个分区对应一个task,分区与并发有很大关系,当然并发也决定于cores. 有本地模式,
0 关注 0 粉丝 0 动态
Copyright © 2013 - 2019 Ancii.com
京ICP备18063983号-5 京公网安备11010802014868号