文章_sujins_极客社区

sujins

https://i.ancii.com/sujins5288/

sujins

sujins sujins5288

文章

大数据一阶段总结

Hadoop三大发行版本：Apache、Cloudera、Hortonworks。Apache版本最原始（最基础）的版本，对于入门学习最好。Cloudera在大型互联网企业中用的较多。HDFS是为了处理大型数据集而设计的，主要是为了达到高的数据吞吐量而设计

sujins 0喜欢 / 0评论 2020-07-26

HDFS【概述、数据流】

能处理PB级别数据、能处理百万的文件数据量。1）客户端通过Distributed FileSystem模块向NameNode请求上传文件，NameNode检查目标文件是否已存在，父目录是否存在。4）NameNode返回3个DataNode节点，分别为dn1

sujins 0喜欢 / 0评论 2020-06-14

HDFS【shell操作hdfs命令】

-moveFromLocal：从本地剪切粘贴到HDFS. -copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去。-appendToFile：追加一个文件到已经存在的文件末尾。2）-get：等同于copyToLocal，就是从HDFS下载文

sujins 0喜欢 / 0评论 2020-06-14

HDFS【Java API操作】

* conf > 工程下的xxx-site.xml > 集群中xxx-site.xml > 集群中xxx-default.xml. //配置副本数 - 该配置只针对本次的操作有效。* boolean overwrite --如果

sujins 0喜欢 / 0评论 2020-06-13

15.HA高可用

HA即高可用，实现高可用最关键的策略就是消除单点故障。HA严格地来说应该分成各个组件的HA机制，HDFS的HA和YARN的HA。Hadoop2.0之前，在HDFS集群中NameNode存在单点故障。HDFS HA功能通过配置Active/Standby两个

sujins 0喜欢 / 0评论 2020-06-10

hadoop两个namenode都是standby问题

经过不断地排查，发现在自己进行关闭和重启namenode的组件的时候，没有通过pip文件正常关闭，只能挨个关闭，这个也不是重点。经过修改pip文件的路径，解决了这个批量关闭启动的问题，原因是/tmpe目录系统会定期清理，导致进程号对不上了。关闭再启动hdf

sujins 0喜欢 / 0评论 2020-06-05

hadoop 数据处理总结

最近工作中用了了Hadoop，比如用Hadoop来处理广告的一些pv量数据、点击数据等，最后统计后给运营展示每个广告的数据报表。hadoop平台提供了分布式存储，分布式计算，任务调度、对象存储、和组件支撑服务。Hadoop主要用来存储以及处理大量并且复杂的

sujins 0喜欢 / 0评论 2020-05-30

Hadoop简介

要求被注入的属性 , 必须有set方法 , set方法的方法名由set + 属性首字母大写 , 如果属性是boolean类型 , 没有set方法 , 是 is .

sujins 0喜欢 / 0评论 2020-05-29

大数据之hadoop深入学习

Hadoop是使用Java编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的Apache的开源框架。Hadoop通用：这是Java库和其他Hadoop组件所需的实用工具。这个过程包括以下核心任务由 Hadoop 执行：。然后这些文件被分布在不

sujins 0喜欢 / 0评论 2020-05-03

hadoop-HDFS概述

　　随着数据量越来越大，在一个操作系统存不下所有的数据，那么就分配到更多的操作系统管理的磁盘中中，但是不方便管理和维护，迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理。HDFS只是分布式文件管理系统中的一种；它专门存储超大数据文件，为整个ha

sujins 0喜欢 / 0评论 2020-03-20

MapReduce编程模型

1.环境搭建起来伪分布式2.MapReduce是基于HDFS之上的 MapReduce计算的内容应该是HDFS上的文件/文件夹3.计算=>统计=>Mapper阶段=>Reduce阶段　　MapReduce的编程模型4.Mapper

sujins 0喜欢 / 0评论 2020-03-06

Hadoop——HDFS概念

hdfs文件系统主要设计为了存储大文件的文件系统；如果有个TB级别的文件，我们该怎么存储呢？hdfs的出现就是为了解决上面的问题。hdfs为了满足大文件的存储和可读性，对数据进行切成多个小块进行存储，同时为了保证数据的可靠性，又对每个小块数据做复制，然后分

sujins 0喜欢 / 0评论 2020-02-23

java API 操作HDFS服务器

　　依赖包：hadoop-2.7.7.tar.gz安装包　share/hadoop/下　common、hdfs中的jar包

sujins 0喜欢 / 0评论 2020-02-22

Java Api操作HDFS

首先需要配置好Maven环境，如果下载jar包下的慢，可以将镜像站换为阿里云的镜像。pom.xml中所使用到的jar包【自行去maven仓库找jar包，认准下载量最多的。--COMMON是hadoop一切的核心，不是具体的功能，操作HDFS需要导入COMM

sujins 0喜欢 / 0评论 2020-02-22

hadoop fs(HDFS文件系统命令)

　　HDFS是存取数据的分布式文件系统，那么对HDFS的操作就是对文件系统的操作，比如文件的创建、修改、删除；文件夹的创建、修改、删除。Hadoop作者认为大家对linux文件系统的命令很熟悉，于是借鉴了linux文件系统的命令来作为HDFS的操作命令。递

sujins 0喜欢 / 0评论 2020-02-21

Hadoop

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统，简称HDFS。HDFS放宽了POSIX的要求，可以以流的形式访问文件系统中的数据。Hadoop的框架最核心的设计就

sujins 0喜欢 / 0评论 2020-01-09

Sqoop的安装和使用

sqoop 是 apache 旗下一款“Hadoop 和关系数据库服务器之间传送数据”的工具。将导入或导出命令翻译成 MapReduce 程序来实现在翻译出的 MapReduce 中主要是对 InputFormat 和 OutputFormat 进行定制

sujins 0喜欢 / 0评论 2020-01-04

03 HDFS的客户端操作

服务器和客户端的概念。hdfs的客户端有多种形式

sujins 0喜欢 / 0评论 2020-01-01

BeWhatever

Hadoop Distributed File System：分布式文件系统。HDFS基于流数据模式访问和处理超大文件需求开发，具有高容错性，高可靠性，高可扩展性，多部署在低成本的硬件上。HDFS提供对应用程序数据的高吞吐量访问，便利了海量数据的处理。Be

sujins 0喜欢 / 0评论 2019-12-25

HDFS知识点

参数优先级排序：客户端代码中设置的值>ClassPath下的用户自定义配置文件>然后是服务器的默认配置

sujins 0喜欢 / 0评论 2019-12-23

加载中...

sujins

0 关注 0 粉丝 0 动态