文章_shenhongdb_极客社区

shenhongdb

https://i.ancii.com/shenhongdb/

shenhongdb

shenhongdb shenhongdb

文章

CentOS Linux中搭建Hadoop和Spark集群详解

也可以使用其他用户，非root的话要注意操作的权限问题。如果安装的Spark要同Hadoop搭配工作，则需注意他们之间的版本依赖关系。可以从spark官网上查询到Spark运行需要的环境，如下：。通过配置，使得hadoop1、hadoop2、和hadoop

shenhongdb 0喜欢 / 0评论 2018-06-10

Hadoop分布式集群搭建Hadoop2.6+Ubuntu 16.04

前段时间搭建Hadoop分布式集群，踩了不少坑，网上很多资料都写得不够详细，对于新手来说搭建起来会遇到很多问题。当然，建议先把HDFS和MapReduce理论原理看懂了再来搭建，会流畅很多。建议Ubuntu下载64位，因为Hadoop2.5.0之后的版本里

shenhongdb 0喜欢 / 0评论 2017-08-21

Hadoop 1.2 集群搭建与环境配置

注意三台机器均要配置，因为启动时，namenode会启动其它机器。分别在三台虚拟机内拷贝hadoop-1.2.1.tar.gz，并解压: tar -zxvf hadoop-1.2.1.tar.gz. 配置完成后，NameNode机器上输入命令,即可完成ha

shenhongdb 0喜欢 / 0评论 2016-12-06

hadoop-2.0.0-cdh4.1.2升级到hadoop-2.7.2

hadoop fsck / -files -blocks -locations |grep -v -E '^\.' > old-fsck.log. hadoop-daemon.sh start namenode -upgrade 启动namenode

shenhongdb 0喜欢 / 0评论 2016-04-19

Eclipse下搭建Hadoop2.4.0开发环境

下载Eclipse，解压安装，例如安装到/usr/local，即/usr/local/eclipse. 此zip文件包含了源码，我们使用使用编译好的jar即可，解压后，release文件夹中的hadoop.eclipse-kepler-plugin-2.2

shenhongdb 0喜欢 / 0评论 2015-01-25

Apache Hadoop 2.2.0 MapReduce1.x向2.x迁移

在Hadoop的2.x中我们引入了一个资源管理器，一个分布式应用的管理框架，同时MRv2仍然是一个纯净的分布式计算框架。总的来讲，以前的MR应用仍然支持不需要做任何修改。因此MRv2仍然大部分支持MRv1的应用，不过仍然需要代码改进和重构，一些api将被不

shenhongdb 0喜欢 / 0评论 2014-06-15

Hadoop中HDFS工作原理

Hadoop Distributed File System，字面意思，Hadoop分布式文件系统，通俗的讲，就是可以将不同节点的设备用来存储。它分为两个部分：NameNode和DateNode，NameNode相当于一个领导，它管理集群内的DataNod

shenhongdb 0喜欢 / 0评论 2014-06-14

Hadoop 2.2.0安装开发环境(单机伪分布模式)

最近一直在自学Hadoop，今天花点时间搭建一个开发环境，并整理成文。单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时，Hadoop无法了解硬件安装环境，便保守地选择了最小配置。当配置文件为空时，Hadoop会完全运行在本地。该模式主要用

shenhongdb 0喜欢 / 0评论 2014-05-13

Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区

一种操作hadoop的轻量级脚本语言，最初又雅虎公司推出，不过现在正在走下坡路了。当初雅虎自己慢慢退出pig的维护之后将它开源贡献到开源社区由所有爱好者来维护。不过现在还是有些公司在用，不过我认为与其使用pig不如使用hive。Pig是一种数据流语言，用来

shenhongdb 0喜欢 / 0评论 2014-03-27

hadoop-lzo-0.4.20安装

9、将target下的hadoop-lzo-xxx.jar拷贝到hadoop/lib下

shenhongdb 0喜欢 / 0评论 2014-03-21

Ubuntu 13.04环境Hadoop1.2.1单机模式安装

老老实实从官网下载安装即可，安装系统不是本文的重点。这里只提一个注意事项：新手安装前，切记断网，因为安装过程中会联网下载，默认情况下连接的是美国的服务器，如果网速慢，这一步就可能会耗费几个小时。断网后，这里会自动跳过，等安装好，再设置服务器，选择国内的服务

shenhongdb 0喜欢 / 0评论 2014-03-14

Hadoop 2.2.0编译安装

Hadoop 2.2.0编译安装。相关阅读：

shenhongdb 0喜欢 / 0评论 2014-03-06

fuse-dfs安装配置

fuse-dfs是Hadoop项目自带的一个功能模块。主要实现把dfs上的数据映射至本地指定mount点。由于现存的软件无法直接使用hdfs上的数据，所以此时可以借助fuse来实现本地文件系统的映射。通过sudo lsmod|grep fuse判断fuse

shenhongdb 0喜欢 / 0评论 2013-10-17

Hadoop集群工具distcp使用笔记

rock无kerberos权限认证，stone有要求认证。在第2步中遇到一个问题：

shenhongdb 0喜欢 / 0评论 2013-09-17

Hadoop datanode重新加载失败无法启动解决步骤

笔者使用的是基于虚拟机的Hadoop分布式安装，由于关闭datanode和namenode的顺序不恰当，所以经常会出现datanode加载失败的情况。本人的解决方法适用于首次已经成功启动整个集群，但是由于不正常的操作造成第二次无法正常启动。首次的启动失败可

shenhongdb 0喜欢 / 0评论 2013-07-27

伪分布式环境下命令行正确运行Hadoop示例WordCount

首先确保Hadoop已经正确安装、配置以及运行。因为在编译过程中需要将jave源文件和class类文件分离，所以在~/ygch/hadoop下还要有一个class目录。该命令的特别之处是利用-classpath选项指定WordCount需要的jar包。这是

shenhongdb 0喜欢 / 0评论 2013-07-26

Hadoop + Hive + Map +reduce 集群安装部署

单台机器的本地host 文件如下：10.129.8.52 master10.129.8.76 slave0110.129.8.33 slave02. -- Put site-specific property overrides in this fi

shenhongdb 0喜欢 / 0评论 2013-07-06

Hadoop+ZooKeeper+HBase集群配置

通常，集群里的一台机器被指定为 NameNode，另一台不同的机器被指定为JobTracker，这些机器是masters。余下的机器即作为DataNode也作为TaskTracker，这些机器是slaves。ssh 必须安装并且保证 sshd一直运行，并使

shenhongdb 0喜欢 / 0评论 2013-06-21

修改Hadoop作业调度算法过程解析

最近几个星期一直在修改Hadoop的计算能力调度算法，遇到了这样那样的问题。重要的是如果修改了capacity-scheduler外的其他内容也需要将修改后的整个Hadoop编译而且要在编译capacity-scheduler之前进行编译。编译整个hado

shenhongdb 0喜欢 / 0评论 2013-06-18

Hadoop在Eclipse中的插件编译

Hadoop自0.20.x版本后不再提供现成的hadoop-eclipse插件而是给出了源码自行编译。安装命令 sudo apt-get install automake autoconf libtool三、构建hadoop1、编辑{HADOOP_HOME

shenhongdb 0喜欢 / 0评论 2013-04-23

加载中...

shenhongdb

0 关注 0 粉丝 0 动态