文章_tugangkai_极客社区

tugangkai

https://i.ancii.com/tugangkai/

tugangkai

tugangkai tugangkai

文章

hive函数之~窗口函数与分析函数

)row format delimited fields terminated by ‘,‘;第一个参数为列名，第二个参数为往上第n行，第三个参数为默认值。当ORDER BY和窗口从句都缺失, 窗口规范默认是 ROW BETWEEN UNBOUNDED P

tugangkai 0喜欢 / 0评论 2020-07-05

Hive使用

大量的hive查询任务，如果用交互式shell来进行输入的话，显然效率及其低下，因此，生产中更多的是使用脚本化运行机制：。hive -e "insert into table t_dest select * from t_src;".

tugangkai 0喜欢 / 0评论 2020-07-04

Hive学习----查询操作练习一

1、因为最终的输出结果中，时间日期的格式要求的是用“-”连接年月，那么首先需要将原始数据中的“/”转换成“-”，此时可以使用regexp_replace函数实现对所有出现在字符串中的指定字符替换成另一个指定的字符，它主要包括三个参数，第一个是要进行修改的字

tugangkai 0喜欢 / 0评论 2020-06-25

【大数据】windows 下python3连接hive

impyla ERROR - ‘TSocket‘ object has no attribute ‘isOpen‘。这是由于auth_mechanism设置的问题导致的，加上或将其改为auth_mechanism="PLAIN"即可。

tugangkai 0喜欢 / 0评论 2020-05-27

spark利用sparkSQL将数据写入hive两种通用方式实现及比较

第二种方式是利用sparkSQL将获取的数据Rdd转换成dataFrame，再将dataFrame写成缓存表，最后利用sparkSQL直接插入hive表中。这两种方式各有各自的优点。但大多数开发者更倾向于后者一次编码一步到位的方式。而对于利用sparkSQ

tugangkai 0喜欢 / 0评论 2020-05-09

从源码看Spark读取Hive表数据小文件和分块的问题

有同事问到，Spark读取一张Hive表的数据Task有一万多个，看了Hive表分区下都是3MB~4MB的小文件，每个Task只处理这么小的文件，实在浪费资源浪费时间。而我们都知道Spark的Task数由partitions决定，所以他想通过reparti

tugangkai 0喜欢 / 0评论 2020-05-03

HD6.5.1集群问题记录

1）先判断是否存在账户被锁。原因：客户端配置的密码未同步改过来，需同步修改loader-tools-1.99.3/loader-tool/job-config/login-info.xml 中的密码，无需重启。Number of dynamic parti

tugangkai 0喜欢 / 0评论 2020-04-23

hive数据库如何去重，去除相同的一模一样的数据

create table 表1_bak as select distinct 字段1，字段2 from 表1; --备份表数据。insert into 表1 select * from 表1_bak；

tugangkai 0喜欢 / 0评论 2020-04-08

Hive窗口函数

　　假如我们有这样一组数据，我们需要求出不同性别的年龄top2的人的信息。可能我们会首先想到分组，但是分组只能值top1，怎么样能求出top2，top3呢？这时候我们想如果分组后能够按照年龄排序然后标出来序号就好了！1，18，xiaoli,male2，19

tugangkai 0喜欢 / 0评论 2020-02-13

02hive数据类型

　　对于 Hive 的 String 类型相当于数据库的 varchar 类型，该类型是一个可变的字符串，不过它不能声明其中最多能存储多少个字符，理论上它可以存储 2GB 的字符数。　　Hive 的原子数据类型是可以进行隐式转换的，类似于 Java 的类型

tugangkai 0喜欢 / 0评论 2020-01-26

ubuntu16.04 安装hive及配置

Cannot find hadoop installation: $HADOOP_HOME or $HADOOP_PREFIX must be set or hadoop must be in the path

tugangkai 0喜欢 / 0评论 2020-01-02

Hive数据模型之历史拉链表

http://lxw1234.com/archives/2015/04/20.htm http://lxw1234.com/archives/2015/08/473.htm

tugangkai 0喜欢 / 0评论 2019-12-26

Hive数据倾斜的原因及主要解决方法

分组的维度过少，每个维度的值过多，导致处理某值的reduce耗时很久；当按照类型进行group by的时候，会将相同的group by字段的reduce任务需要的数据拉取到同一个节点进行聚合，而当其中每一组的数据量过大时，会出现其他组的计算已经完成而这个r

tugangkai 0喜欢 / 0评论 2019-12-14

nodejs中使用archive压缩文件的实现代码

// create a file to stream archive data to.zlib: { level: 9 } // Sets the compression level.// 'close' event is fired only when

tugangkai 0喜欢 / 0评论 2019-11-26

Hive之累计报表生成

create table action row format delimited fields terminated by "\t";create table action_amountas select tmp.userid,tmp

tugangkai 0喜欢 / 0评论 2019-12-02

hive配置文件

</configuration>

tugangkai 0喜欢 / 0评论 2019-12-01

Hive的基本使用（一）—— 数据类型

可以指定字符集。可以使用单引号或者双引号。和c语言中的struct类似，都可以通过“点”符号访问元素内容。MAP是一组键-值对元组集合，使用数组表示法可以访问数据。数组是一组具有相同类型和名称的变量的集合。Hive有三种复杂数据类型ARRAY、MAP 和

tugangkai 0喜欢 / 0评论 2019-11-03

hive基础知识

从早期的互联网大数据爆发开始，主要的搜索引擎公司和电子商务公司就一直在和不断增长的数据进行较量。最近社交网站也遇到了同样的问题。如今，许多组织已经意识到他们所收集的数据是让他们了解用户，提高业务在市场上的表现以及提高基础架构效率的一个宝贵资源。Hadoop

tugangkai 0喜欢 / 0评论 2019-11-02

hive sql学习

status = 1 and dp = ‘active‘ and on_where =2) as b

tugangkai 0喜欢 / 0评论 2019-10-31

hive安装部署

hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射成一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为Mapreduce任务进行运行。由于hive需要元数据，存储到mysql中，把mysql connector java

tugangkai 0喜欢 / 0评论 2019-10-29

加载中...

tugangkai

0 关注 0 粉丝 0 动态