文章_vinflyli_极客社区_安科网

vinflyli

https://i.ancii.com/vinflyli/

文章

PyCharm搭建Spark开发环境实现第一个pyspark程序

通常情况下，Spark开发是基于Linux集群的，但这里作为初学者并且囊中羞涩，还是在windows环境下先学习吧。参照这个配置本地的Spark环境。之后就是配置PyCharm用来开发Spark。本人在这里浪费了不少时间，因为百度出来的无非就以下两种方式：

vinflyli 0喜欢 / 0评论 2019-06-13

Spark Streaming应该如何消费Kafka？

前言在项目中，需要对每天千万级的游戏评论信息进行词频统计，在生产者一端，我们将数据按照每天的拉取时间存入了Kafka当中，而在消费者一端，我们利用了spark streaming从kafka中不断拉取数据进行词频统计。本文首先对spark streamin

vinflyli 0喜欢 / 0评论 2019-05-02

使用Java和Spark MLlib开发一种算法检测欺诈行为，可行吗？

了解如何使用Java和Spark MLlib开发一种算法，该算法能够根据700万条记录的数据集检测欺诈行为。可以在不使用深入的Java知识的情况下，用几种不同的配置和实验来运行代码。在之前的文章中，我们使用Octave实现了相同的异常检测算法。此外，还绘制

vinflyli 0喜欢 / 0评论 2018-01-09

Spark学习（六）：核心模块之Shuffle详解

shuffle 中Map任务产生的结果会根据所设置的partitioner算法填充到当前执行任务所在机器的每个桶中。1）Reduce任务启动时时，会根据任务的ID，所依赖的Map任务ID以及MapStatus从远端或本地的BlockManager获取相应的

vinflyli 0喜欢 / 0评论 2018-09-17

PyCharm+PySpark远程调试的环境配置的方法

首先Spark集群要配置好且能正常启动，版本号可以在Spark对应版本的官方网站查到，注意：Spark 1.5.0作为一个比较古老的版本，不支持Python 3.6+；另外Spark集群的每个节点的Python版本必须保持一致。这里只讲如何加入pyspar

vinflyli 0喜欢 / 0评论 2018-11-29

加载中...

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号