文章_ahbbwangpei_极客社区_安科网

ahbbwangpei

https://i.ancii.com/ahbbwangpei/

文章

pyspark demo

spark 在不使用mllib的情况下，可以使用python的数据分析。

ahbbwangpei 0喜欢 / 0评论 2020-04-02

搭建Spark前要做的配置

2.安装vm，使用ctrl+alt切换内外鼠标

ahbbwangpei 0喜欢 / 0评论 2017-06-08

spark join

该算法可以将join算子执行在Map端，无需经历shuffle和reduce等阶段，因此效率非常高。在Hadoop MapReduce中， map-side join是借助DistributedCache实现的。在Apache Spark中，同样存在类似于

ahbbwangpei 0喜欢 / 0评论 2016-01-20

openfire与spark 通过redfire实现语音视频通讯

jling插件实现语音未果，顺便研究下red5的redfire插件实现语音视频通讯。根据自己的openfire下载相应的版本。解压后将redfire.war放到openfire的plugins下重启openfire. 在openfire后台http管理

ahbbwangpei 0喜欢 / 0评论 2013-06-29

基于 Kafka 的实时计算引擎如何选择？Spark or Flink？

目前实时计算的业务场景越来越多，实时计算引擎技术及生态也越来越成熟。以 Spark 和 Flink 为首的实时计算引擎，成为实时计算场景的重点考虑对象。那么，今天就来聊一聊基于 Kafka 的实时计算引擎如何选择？而从技术上将，这意味着大数据领域，处理这些

ahbbwangpei 0喜欢 / 0评论 2019-06-13

Spark学习（四）：核心模块之Scheduler详解

Scheduler模块分为两大主要部分，DAGScheduler和TaskScheduler。接收DAGScheduler的Task请求，分发Task到集群运行并监控运行状态，并将结果以event的形式汇报给DAGScheduler 。TaskSchedu

ahbbwangpei 0喜欢 / 0评论 2018-09-17

spark: RDD与DataFrame之间的相互转换方法

DataFrame是一个组织成命名列的数据集。它在概念上等同于关系数据库中的表或R/Python中的数据框架，但其经过了优化。DataFrames可以从各种各样的源构建，例如：结构化数据文件，Hive中的表，外部数据库或现有RDD。在Scala和Java中

ahbbwangpei 0喜欢 / 0评论 2018-06-07

Spark：利用Eclipse构建Spark集成开发环境

前一篇文章“Apache Spark学习：将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包，而本文则在此基础上，介绍如何利用Eclipse构建Spark集成开发环境。

ahbbwangpei 0喜欢 / 0评论 2014-01-07

加载中...

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号