文章_strongyoung_极客社区

strongyoung

https://i.ancii.com/strongyoung88/

strongyoung

Programming with C++, Java, Python. Interested in HadoopecoSys, ML, DistributedSys and JavaEESys

文章

Hadoop基础（二十二）：Shuffle机制（三）

统计过程中对每一个MapTask的输出进行局部汇总，以减小网络传输量即采用Combiner功能。public class WordcountCombiner extends Reducer<Text, IntWritable, Text, IntWr

strongyoung 0喜欢 / 0评论 2020-07-19

hbase2.1.9 centos7 完全分布式搭建随记

export HBASE_PID_DIR-->存储pid，防止pid在tmp文件夹中被删而造成无法通过命令关闭进程

strongyoung 0喜欢 / 0评论 2020-07-04

Flume-0.9.4和Hbase-0.96整合

Flume里面自带了Hbase sink，可以直接调用啊，还用说么？这是因为Flume-0.9.4和Hbase-0.96整合比Flume-1.4.0和Hbase-0.96整合麻烦多了！不是随便几个配置就能搞定的，里面涉及到修改Flume和Hadoop的源码

strongyoung 0喜欢 / 0评论 2020-06-04

Hadoop之HDFS入门实战

某一个副本丢失后，它可以自动恢复。数据规模，可以达到PB级。文件规模，能够处理百万规模的文件数量。可构建在廉价机器上，通过多副本保证可靠性。不适合低延时数据访问。存储大量小文件，他会占用NameNode大量内存存储目录和块信息，这样不可取，因为NameNo

strongyoung 0喜欢 / 0评论 2020-06-01

大数据实践（一）--Hadoop单机搭建（Ubuntu）

保证主机与虚拟机之间相互ping通、关闭防火墙。使用以下命令更新apt-get。如果速度太慢，可以更换源。使用gedit也是可以的。此时如果报错openssh-client的话，是Ubuntu自带的client版本不适配server，安装一个适配的版本：。

strongyoung 0喜欢 / 0评论 2020-05-18

大数据 Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统，简称HDFS。Hadoop的框架最核心的设计就是：HDFS

strongyoung 0喜欢 / 0评论 2020-05-09

大数据01_centos7部署hadoop-3-1-2本地模式与伪分布模式

# 若没有该目录，请先执行一次ssh localhost. # 会有提示，都按回车就可以。A）安装JDK：tar -zxvf jdk-8u241-linux-x64.tar.gz -C /roo/test/. A）解压hadoop：tar -zxvf ha

strongyoung 0喜欢 / 0评论 2020-05-05

kafka auto.offset.reset latest earliest 详解

1，earliest 当各分区下有已提交的offset时，从提交的offset开始消费；无提交的offset时，从头开始消费。提交过offset，latest和earliest没有区别，但是在没有提交offset情况下，用latest直接会导致无法读取旧数

strongyoung 0喜欢 / 0评论 2020-05-04

Hadoop安装，在格式化时有错误

--HDFS数据保存在Linux的哪个目录，默认值是Linux的tmp目录--><property><name>hadoop.tmp.dir</name><value>/root/hadoop/tmp&

strongyoung 0喜欢 / 0评论 2020-04-17

HBase和MapReduce

Apache MapReduce 是一个用于分析大量数据的软件框架。MapReduce 本身超出了本文档的范围。MapReduce 版本2现在是 YARN 的一部分。本章讨论在 HBase 中对数据使用 MapReduce 时需要采取的具体配置步骤。另外，

strongyoung 0喜欢 / 0评论 2020-04-11

Apache Hadoop

ApacheHadoop项目开发了用于可靠，可扩展的分布式计算的开源软件。Apache Hadoop软件库是一个框架，该框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理。它旨在从单个服务器扩展到数千台机器，每台机器都提供本地计算和存储。该库

strongyoung 0喜欢 / 0评论 2020-04-11

一张图告诉你为什么要选择第三方发行版的Hadoop

第三方发行版的好处在于运维成本低，你不需要再去踩一遍坑，人家已经把坑填上了。提供了管理、监控、诊断、配置修改的工具，管理配置方便，定位问题快速、准确，使运维工作简单，有效。去年这两家合并后在今年推出了新的产品CDP，还是值得期待一波的，如果有人对新的产品感

strongyoung 0喜欢 / 0评论 2020-03-26

hadoop之运行官方实例二--WordCount

3、vim wc.input，在wc.input中输入：

strongyoung 0喜欢 / 0评论 2020-03-01

关于Hadoop生态中的HA方案的一点思考

在给学生授课和搭建Hadoop生态实验环境的过程中，我发现无论是网络上的参考资料、还是来自大数据服务功供应商的运维文档，给出Hadoop的HA解决方案都如出一辙——使用 ZooKeeper 加 Quorum Journal Manager 方案。诚然，这一

strongyoung 0喜欢 / 0评论 2020-02-29

2，Hadoop部署

JAVA_HOME：因为Hadoop的配置文件中依赖 $JAVA_HOME。hostname：修改主机名，方便管理。ip hostname：方便管理，hadoop默认是使用hostname作为ip的域名。iptables stop：关闭防火墙，由于集群需要

strongyoung 0喜欢 / 0评论 2020-02-27

#IT明星不是梦#Hadoop整合Hbase案例详解

*要求：读取HBase当中user这张表的f1:name、f1:age数据，将数据写入到另外一张user2表的f1列族里面去==****. put ‘user‘,‘rk001‘,‘f1:age‘,‘12‘。pom.xml文件内容如下：

strongyoung 0喜欢 / 0评论 2020-02-20

如何选择适合自己的Hadoop认证证书

说起国际的Hadoop认证必须提Hadoop商业化的三家马车：Hortonwork、Cloudera和MapR。Hortonwork、Cloudera合并之后由于版本的不同目前的考试认证还是分离的，如果你目前需要一个大数据方面的认证，那真的可以了解一下Cl

strongyoung 0喜欢 / 0评论 2020-02-17

七,sqoop 安装

将mysql放到 Sqoop 目录下的 lib。

strongyoung 0喜欢 / 0评论 2020-01-25

寒假学习进度-2

修改了Spark的配置文件spark-env.sh. 添加了配置信息：。在终端中首先要切换到Spark的目录。如果需要用到HDFS还需要启动Hadoop. 在 spark-shell 中读取 HDFS 系统文件

strongyoung 0喜欢 / 0评论 2020-01-16

2020年寒假假期总结0113

　　接着介绍，spark的安装，不是很难，唯一需要注意的是不同的hadoop版本都有对应的spark版本，下载的时候时候请注意选择。　　如果是在hdfs上操作文件的话，只需要关闭spark，然后启动hadoop，再重新启动spark就可以了，代码基本上没有

strongyoung 0喜欢 / 0评论 2020-01-13

加载中...

strongyoung

0 关注 0 粉丝 0 动态