GeorgeGuo_极客社区_安科网

GeorgeGuo

https://i.ancii.com/guoxiaojie415/

动态

Ta还没有发布动态 ...

文章

Spark Streaming的优化之从Receiver到Direct模式

随着大数据的快速发展，业务场景越来越复杂，离线式的批处理框架MapReduce已经不能满足业务，大量的场景需要实时的数据处理结果来进行分析、决策。Spark Streaming是一种分布式的大数据实时计算框架，他提供了动态的，高吞吐量的，可容错的流式数据处

GeorgeGuo 0喜欢 / 0评论 2019-06-18

SparkR(1)Naive Bayesian

Features-F1,F2,…Fn. Category-C1,C2,…Cm. P(C|F1F2…Fn)=P(F1F2…Fn|C)P(C)/P(F1F2…Fn). P(F1F2…Fn|C)P(C)=P(F1|C)P(F2|C)…P(FN|C)P(C). l

GeorgeGuo 0喜欢 / 0评论 2015-09-09

spark基础知识

官方资料介绍Spark可以将Hadoop集群中的应用在内存中的运行速度提升100倍，甚至能够将应用在磁盘上的运行速度提升10倍。spark本身并没有提供分布式文件系统，因此spark的分析大多依赖于Hadoop的分布式文件系统HDFS. Hadoop的Ma

GeorgeGuo 0喜欢 / 0评论 2018-07-25

spark rdd dataset sql udf udaf

以后为了操作的便利性，把逻辑都包装成udf,udaf.写一个包装接口，对一份数据的操作，直接在repl给hdfs加上metadesc. 可以积累业务逻辑。

GeorgeGuo 0喜欢 / 0评论 2016-10-22

Spark相关术语

最重要的一点是，某个操作计算后的数据集可以缓存在内存中，然后给其他计算使用，这种在迭代计算中很常见。原始的RDD经过一系列转化后，会在最后的RDD上触发一个动作，这个动作会生成一个Job。Job被划分为不同的阶段，每个阶段有一批计算任务组成，这批Task会

GeorgeGuo 0喜欢 / 0评论 2016-05-25

查看更多文章

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号