文章_GMCWXH_极客社区

GMCWXH

https://i.ancii.com/gmcwxh/

GMCWXH

Hadoop Master

文章

CentOS 5.5 下配置Hadoop 0.21单节点

唯一注意的是对于CentOS默认安装后的主机名问题，默认主机名为bogon，需要在/etc/hosts中加入如下一行：。运行bin/Hadoop namenode -format后进行文件系统的格式化，运行bin/start-all.sh启动所有节点，

GMCWXH 0喜欢 / 0评论 2011-04-17

Hadoop2.5.0伪分布式环境搭建

本章主要介绍下在Linux系统下的Hadoop2.5.0伪分布式环境搭建步骤。首先要搭建Hadoop伪分布式环境，需要完成一些前置依赖工作，包括创建用户、安装JDK、关闭防火墙等。使用root账户创建hadoop用户，为了在实验环境下便于操作，赋予hado

GMCWXH 0喜欢 / 0评论 2019-04-30

学习hadoop需要什么基础

“学习hadoop需要什么基础”这已经不是一个新鲜的话题了，随便上网搜索一下就能找出成百上千篇的文章在讲学习hadoop需要掌握的基础。再直接的一点的问题就是——学Hadoop难吗？用一句特别让人无语的话回答就是：难不会，会不难！今年3月初的时候，一个做程

GMCWXH 0喜欢 / 0评论 2018-09-13

Hadoop基础入门之发行版本的选择

经常会看到这样的问题：零基础学习hadoop难不难？看到这样的答案不免觉得有些尴尬，这个问题算是白问了，因为这个回答似乎什么也没给出来。如果是第一种，其实学习hadoop的难度就会相对较小；但如果是第二种，那么难度就会非常大了。DKhadoop是大快搜索推

GMCWXH 0喜欢 / 0评论 2018-11-28

超详细Dkhadoop虚拟机图文安装步骤

前两天看到有人留言问在什么情况下需要部署hadoop，我给的回答也很简单，就是在需要处理海量数据的时候才需要考虑部署hadoop。关于这个问题在很早之前的一篇分享文档也有说到这个问题，数据量少的完全发挥不了hadoop的优势，所以也没必要部署。但对于正在学

GMCWXH 0喜欢 / 0评论 2019-01-07

Hadoop应用基础知识

Hadoop是一个开源的框架，可编写和运行分布式应用处理大规模数据，是专为离线和大规模数据分析而设计的，并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop就是一个分布式计算的解决方案.Hadoop的框架最核心的设计就是：HDFS和MapRedu

GMCWXH 0喜欢 / 0评论 2018-07-25

Apache顶级项目介绍4 - Hadoop

大象起舞，天下太平，极客们应该知道我们的重量级人物Hadoop登场了。提到Hadoop, 正所谓饮水思源，我们不得不提及一下Hadoop之父，其对技术界的影响，在近10年可谓重大，他就是Doug Cutting，其传奇人生及其大作这里不赘述了，大家可以

GMCWXH 0喜欢 / 0评论 2016-05-28

DataNode启动失败解决

DataNode这个在hdfs.site.xml中没有配置默认值是在{dfs.tmp.dir,这个配置是在core.site.xml配置}

GMCWXH 0喜欢 / 0评论 2016-03-25

hive初步了解

hive支持像mysql一样的sql，但是hive一般只有查询和插入，没有更新，在执行select*的时候直接把hdfs中的数据输出，不会执行mapreduce，当执行其他的时候就会先去hadoop集群上面执行mapreduce，然后将结果展现出来。本来m

GMCWXH 0喜欢 / 0评论 2016-02-23

hadoop源码编译

在hadoop的官方网站，每个发行的版本都提供了源码包和编译后的二进制发行包，那如何选择了？下载编译后的包，在系统上解压，设置配置文件后就可以直接使用，但在使用hadoop命名过程中，每次都会显示一个警告，如。提示不能使用本地的lib，使用内部的ja

GMCWXH 0喜欢 / 0评论 2016-01-06

mapreduce 开发以及部署

前面几篇文章的梳理让我对hadoop新yarn 框架有了一个大概的认识，今天开始回归老本行---开始coding。安装lrzsz ./configure && make && make install上面安装过程默认把lsz

GMCWXH 0喜欢 / 0评论 2015-01-16

重走MapReduce之路之报错java.lang.ClassNotFoundException

另外每次更新代码后，需要重新runonhadoop一次，代码才会重新上传。

GMCWXH 0喜欢 / 0评论 2015-01-12

hadoop中hdfs读取文件的原理剖析

上一篇文章中简单介绍了一下hadoop文件存储的一些逻辑与简单原理，既然后写入，那肯定要读取分析数据咯，下面我在白话一下hdfs中文件读取的逻辑与简单原理。知道读取完成之后，文件输入流会调用close方法关闭流，在之前我们一直提到的hadoop的寻找最近的

GMCWXH 0喜欢 / 0评论 2015-01-08

Hadoop学习（一） - 搭建环境&示例程序

配置etc/hadoop/hadoop-env.sh h和 etc/hadoop/yarn-env.sh 中的JAVA_HOME路径

GMCWXH 0喜欢 / 0评论 2014-12-15

hadoop reduce端join ---> 打标记

// 1.1 告诉干活的人输入流位置读取hdfs中的文件。每一行解析成一个<k,v>。每一个键值对调用一次map函数

GMCWXH 0喜欢 / 0评论 2014-12-11

InputFomrat各种子类实例

0 TextInputFormat extends FileInputFomrat<LongWritable,Text> 是默认读取文件的切分器。其内的LineRecordReader:用来读取每一行的内容，initialize()方法内， k

GMCWXH 0喜欢 / 0评论 2014-12-02

探索Hadoop OutputFormat

OutputFormt接口决定了在哪里以及怎样持久化作业结果。Hadoop为不同类型的格式提供了一系列的类和接口，实现自定义操作只要继承其中的某个类或接口即可。你可能已经熟悉了默认的OutputFormat，也就是TextOutputFormat，它是一种

GMCWXH 0喜欢 / 0评论 2014-08-28

[Mahout] 使用Mahout 对Kddcup 1999的数据进行分析 -- Naive Bayes

通常，在网上找到的mahout的naive bayes的例子跟官网的例子，都是针对20 newsgroup. 而且通常是命令行版本。虽然能得出预测、分类结果，但是对于Bayes具体是如何工作，以及如何处理自己的数据会比较茫然。在努力了差不多一个星期之后，终

GMCWXH 0喜欢 / 0评论 2014-07-19

Hadoop的学习历程

说是历程，其实也就两个月。但两个月的时间也是有颇多感慨的。两个月前，我加入了“大数据处理”小组。因此，一加入这个团队，带头人豪翔就给我们交代了接下来要做的事，“当务之急，是要搭建好hadoop平台，因为hadoop就是用来做大数据处理的”。其实，并没有切实

GMCWXH 0喜欢 / 0评论 2014-05-31

hadoop单机版安装

1.安装虚拟机的时候选择开发版本把ssh服务安装上，省的后面单独安装

GMCWXH 0喜欢 / 0评论 2013-11-13

加载中...

GMCWXH

0 关注 0 粉丝 0 动态