hanhan_极客社区_安科网

hanhan

https://i.ancii.com/hanhan1/

动态

Ta还没有发布动态 ...

文章

Spark - 大数据Big Data处理框架

Spark是一个针对超大数据集合的低延迟的集群分布式计算系统，比MapReducer快40倍左右。　　Spark是hadoop的升级版本，Hadoop作为第一代产品使用HDFS，第二代加入了Cache来保存中间计算结果，并能适时主动推Map/Reduce任

hanhan 0喜欢 / 0评论 2014-07-08

Hadoop hdfs-site.xml文件常用配置

namenode的http访问页面中针对每个文件的内容显示大小，通常无需设置。NN所使用的元数据保存，一般建议在nfs上保留一份，作为1.0的HA方案使用，也可以在一台服务器的多块硬盘上使用。设置hdfs超级权限的组，默认是supergroup，启动had

hanhan 0喜欢 / 0评论 2015-05-27

Sqoop 导数据到HDFS, 用Spark SQL进行查询

serverTimezone=Asia/Shanghai \. .getOrCreate();Order order = new Order();String[] items = line.getString(0).split(",")

hanhan 0喜欢 / 0评论 2019-09-02

HDFS 与 GFS 的设计差异

HDFS在考虑写入模型时做了一个简化，就是同一时刻只允许一个写入者或追加者。GFS使用租约机制来保障在跨多个副本的数据写入中保持顺序一致性。chunk租约机制的设计主要是为了减轻Master的负担，由主副本所在的chunkserver来承担流水线顺序的安排

hanhan 0喜欢 / 0评论 2017-08-23

第二章 HDFS

HDFS将每个文件存储为一个数据块，默认为64MB，每个数据块都会存在多个副本。HDFS针对一个数据块写操作时只能有一个用户，DataNode使用本地文件系统存储HDFS数据。BlockReport：当DataNode启动时，它会遍历本地文件系统，会产生一

hanhan 0喜欢 / 0评论 2015-07-10

查看更多文章

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号