文章_IT智囊_极客社区

IT智囊

https://i.ancii.com/itboxes/

IT智囊

底层C转Hadoop~红苕 https://yingyinliu.github.io/

文章

Window 10 WSL 下hadoop 伪分布式安装

Window 10 下的WSL子系统的安装可以参考之前的文章：window10 WSL子系统上设置redis开发环境。有时候，为了在window系统上进行hadoop开发和测试，可以在WSL上安装hadoop的伪分布式系统

IT智囊 0喜欢 / 0评论 2020-04-15

Hadoop的MapReduce的插件使用

　　HADOOP_HOME=e:hadoop/hadoop-2.7.7　　Path=%HADOOP_HOME%/bin;%HADOOP_HOME%/sbin;都配置进去

IT智囊 0喜欢 / 0评论 2020-03-05

hadoop之为什么不能一直格式化namenode

格式化NameNode会产生新的集群id，导致NameNode和DataNode的集群id不一致，集群找不到以往数据，所以，格式化NameNode前，先关闭掉NameNode和DataNode，然后一定要删除data数据和log日志。最后再进行格式化。可以

IT智囊 0喜欢 / 0评论 2020-03-01

Hadoop架构: HDFS中数据块的状态及其切换过程，GS与BGS

如果不清楚NameNode，DataNode等概念请先阅读HDFS架构文档:Hadoop架构中文文档。为了确保上述这些特点，HDFS对块的状态进行了定义，以控制数据块在传输过程中的有效性。在NameNode看来，块主要有以下4种状态。在DataNode看来

IT智囊 0喜欢 / 0评论 2020-02-20

Hadoop的伪分布式安装和部署的流程

下载一些用到的命令。mkdir install software other test #新建目录。cd /opt/install #进入安装包目录。mv jdk1.8.0_221 jdk1.8 #改名为JDK1.8. vim

IT智囊 0喜欢 / 0评论 2020-02-20

Hadoop：Hadoop的学习路线

这里介绍在windows电脑搭建完全分布式，1主2从。主要适用于大批量的集群任务，由于是批量执行，故时效性偏低。Spark 是专为大规模数据处理而设计的快速通用的计算引擎，其是基于内存的迭代式计算。

IT智囊 0喜欢 / 0评论 2020-02-15

Hadoop的安装与环境配置

安装的版本为：hadoop-2.6.0-cdh5.7.0.tar.gz jdk-8u241-linux-x64.tar.gz. slaves一行配置一个datanode的主机名称，单节点配置本主机名称。当启动集群时，namenode扫描slaves像dat

IT智囊 0喜欢 / 0评论 2020-02-13

MapReduce和Hive学习文档链接学习顺序

18、《sqoop的使用之导入到hive和mysql》。21、《Hive中利用日志数据学习分析思路》

IT智囊 0喜欢 / 0评论 2020-02-02

寒假第八天

启动 Hadoop，在 HDFS 中创建用户目录“/user/hadoop”；删除HDFS中“/user/hadoop”目录下的test.txt文件，删除HDFS中“/user/hadoop” 目录下的 input 子目录及其子目录下的所有内容。

IT智囊 0喜欢 / 0评论 2020-02-02

Hadoop学习之Windows单机版安装

编辑“D:\hadoop-2.7.5\etc\hadoop”下的core-site.xml文件，将下列文本粘贴进去，并保存；请自行创建data目录，在这里我是在HADOOP_HOME目录下创建了workplace/data目录:. -- 这个参数设置为1，

IT智囊 0喜欢 / 0评论 2020-01-30

hadoop全分布虚拟机网络配置（一）

基于VMware 15+CentOS 7+Hadoop 2.6，hadoop的搭建主要用于个人学习，水平有限。本篇主要记录了hadoop全分布搭建中：固定ip地址，master节点和slave节点连接。两种模式区别在于主从性。

IT智囊 0喜欢 / 0评论 2020-01-19

Hadoop学习之路(7)MapReduce自定义排序

MapReduce中，根据key进行分区、排序、分组MapReduce会按照基本类型对应的key进行排序，如int类型的IntWritable，long类型的LongWritable,Text类型，默认升序排序为什么要自定义排序规则？现有需求，需要自定义k

IT智囊 0喜欢 / 0评论 2020-01-01

搭建高可用的flink JobManager HA

　　JobManager协调每个flink应用的部署，它负责执行定时任务和资源管理。　　下面开始构建一个单机版flink的JobManger高可用HA版。　　首先需要设置SSH免密登录，因为启动的时候程序会通过远程登录访问并且启动程序。　　执行命令，就可以

IT智囊 0喜欢 / 0评论 2020-01-01

大数据（5）---分布式任务资源调度Yarn

前面也说到过的Yarn是hadoop体系中的资源调度平台。所以在整个hadoop的包里面自然也是有它的。这里我们就简单介绍下，并配置搭建yarn集群。首先来说Yarn中有两大核心角色Resource Manager和Node Manager。Resourc

IT智囊 0喜欢 / 0评论 2020-01-04

hadoop菜鸟教程 Hadoop学习资料（云计算学习电子书）

https://blog.csdn.net/fengliaoai/article/details/89890303 http://www.xuexiluxian.net/hadoop-xuexi.html https://edu.51cto.c

IT智囊 0喜欢 / 0评论 2019-12-31

hadoop中 namenode的持久化

　　namenode通过内存存储hdfs集群的元数据，如果内存出现问题，那么会数据丢失，需要通过持久化，把内存中的数据定期的存储在硬盘中，进而保证namenode的数据安全。　　　　FSImage 会在集群格式化时，生成空的FSImage ，后续用户的操作

IT智囊 0喜欢 / 0评论 2019-12-29

Hadoop学习之路(4)Intelij+Maven搭建Hadoop项目

设置maven自动导入依赖jar包勾选 Import Maven projects automatically,点击apply配置pom.xml文件

IT智囊 0喜欢 / 0评论 2019-12-26

搭建Hadoop集群需要注意的问题：

搭建Hadoop集群需要注意的问题：。[master：主机名server1：第一台从机名server2：第二台从机名]. 接下来依次检查以下文件：。如果没有，进到 modules，发送。如果有错误，欢迎大家指出~

IT智囊 0喜欢 / 0评论 2019-12-15

Hive支持的文件格式和压缩格式及各自特点

文本格式，Hive的默认格式，数据不压缩，磁盘开销大、数据解析开销大。可结合Gzip、Bzip2使用，但是使用这种方式，hive不会对数据进行切分，从而无法对数据进行并行操作。Hadoop提供的二进制文件，Hadoop支持的标准文件；数据直接序列化到文件中

IT智囊 0喜欢 / 0评论 2019-12-14

hadoop 》》 django 简单操作hdfs 语句

with client.read(filename, encoding=‘utf-8‘, delimiter=‘

IT智囊 0喜欢 / 0评论 2019-12-13

加载中...

IT智囊

0 关注 0 粉丝 0 动态