Sweeneyzuo_极客社区_安科网

Sweeneyzuo

https://i.ancii.com/sweeneyzuo/

动态

Ta还没有发布动态 ...

文章

常用大数据组件

1、实时 flume--> kafka--》storm--》hdfs

Sweeneyzuo 0喜欢 / 0评论 2018-09-08

Logstash安装部署配置

为了实现各业务平台日志信息采集到大数据平台hdfs上。之前的定技术栈是flume->kafka->storm->hdfs.其中通过storm需要写代码，稳定性，可扩展性，维护性不好。现请部署到生产环境。zk_connect=>&qu

Sweeneyzuo 0喜欢 / 0评论 2017-04-28

hadoop map join 思路待补充

.map端join适用场景：小表可以全部读取放到内存中。在一个TaskTracker中可以运行多个map任务。每个map运行时只需要从linux磁盘加载数据就行了，不必每次从HDFS加载。

Sweeneyzuo 0喜欢 / 0评论 2014-12-11

InputFormat简析

hadoop把处理的文件读取到并解析成键值对，这个操作是通过InputFormat类的子类实现的。切分好后形成一系列的map reduce任务，taskertracker通过心跳机制和jobtracker定期交互，告诉jobtracker其资源使用情况，m

Sweeneyzuo 0喜欢 / 0评论 2014-11-30

Sqoop详解

通常一个组织中有价值的数据都要存储在关系型数据库系统中。但是为了进一步进行处理，有些数据需要抽取出来，通过MapReduce程序进行再次加工。为了能够和HDFS系统之外的数据库系统机型交互，MapReduce程序需要使用外部API来访问数据。Sqoop就是

Sweeneyzuo 0喜欢 / 0评论 2014-11-19

查看更多文章

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号