蜗牛之窝_极客社区_安科网

蜗牛之窝

https://i.ancii.com/muzieryueniao/

动态

Ta还没有发布动态 ...

文章

spark sql/hive小文件问题

而且Hive提供了原生支持，如果使用的不是分区表，则可创建成外部表，并使用har://协议来指定路径。如果不想因此增加运行时间，可以自行编写一些脚本，在系统空闲时对分区内的文件进行合并，也能达到目的。

蜗牛之窝 0喜欢 / 0评论 2020-08-03

Hive1.2.2（一）

本课堂主要围绕hive的基础知识点进行讲解。主要包括以下几个方面。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。对于Hive来说默认就是mapreduce任务。与操作本地文件系统类似，这里需要使用

蜗牛之窝 0喜欢 / 0评论 2020-06-26

KILL hive 执行中的job任务

使用hadoop job -list来列出当前hadoop正在执行的jobs

蜗牛之窝 0喜欢 / 0评论 2020-05-07

Hive on Tez 出现的bug 及原因解析

t2 --t1 与t2 left join ，结果为7条。(select order_id,str_to_map(concat_ws(‘,‘,collect_set(concat(order_status,‘=‘,operate_time))),‘,‘

蜗牛之窝 0喜欢 / 0评论 2020-04-10

16、Hive数据倾斜与解决方案

在执行任务的时候，任务进度长时间维持在99%左右，查看任务监控页面，发现只有少量reduce子任务未完成。因为其处理的数据量和其他reduce差异过大。单一reduce的记录数与平均记录数差异过大，通常可能达到3倍甚至更多。最长时长远大于平均时长。--有数

蜗牛之窝 0喜欢 / 0评论 2020-02-10

查看更多文章

0 关注 0 粉丝 0 动态

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号-5 京公网安备11010802014868号