文章_成长之路_极客社区

成长之路

https://i.ancii.com/godfrey90/

成长之路

成长之路 godfrey90

文章

Hive函数大全-完整版

现在虽然有很多SQL ON Hadoop的解决方案，像Spark SQL、Impala、Presto等等，但就目前来看，在基于Hadoop的大数据分析平台、数据仓库中，Hive仍然是不可替代的角色。尽管它的相应延迟大，尽管它启动MapReduce的时间相当

成长之路 0喜欢 / 0评论 2020-07-28

（一）hive远程模式搭建

# scp -r /opt/soft/mysql-5.7.18-1.el7.x86_64.rpm-bundle.tar :/usr/ 发安装包。# rpm -qa|grep mariadb 检查：这是离线包安装方式所以要检查并且卸载mariadb. #

成长之路 0喜欢 / 0评论 2020-06-26

hive开窗开窗函数进阶

NTILE：把有序分区中的行分发到指定数据的组中，各个组有编号，编号从 1 开始，对于每一行， NTILE 返回此行所属的组的编号。hive > select name,orderdate,cost, sum over as sample f

成长之路 0喜欢 / 0评论 2020-06-25

理解hive中的开窗函数

与聚合函数一样，开窗函数也是需要对行进行分组, 然后使用聚合算子. 可是它不像普通聚合函数那样每组只返回一个值，而是每一行返回一个窗口的聚合结果.表示: 窗口没有分组, 所有行在同一个行组中, 该行组一共5行. 每行都有一个开窗聚合结果, 聚合结果是5.h

成长之路 0喜欢 / 0评论 2020-06-25

Hive之row_number() over分组排序

语法：ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COLUMN). select user_id,times,row_number() over(partition by times order by us

成长之路 0喜欢 / 0评论 2020-06-21

hive 查询表数据量大小

在做数据仓库管理时，数据导入hive或向表生成数据后形成的数据资产，表里的数据量和占用存储空间是总要的元数据属性。为方便数据使用时对数据有基本的了解，需要对表的数据量做统计。comment=单位基本信息},‘numFiles‘=‘6‘,‘numRows‘=

成长之路 0喜欢 / 0评论 2020-06-05

hive优化

　　如果不指定 MapJoin 或者不符合 MapJoin 的条件，那么 Hive 解析器会将 Join 操作转换成 Common Join，即：在 Reduce 阶段完成 join。容易发生数据倾斜。可以用 MapJoin 把小表全部加载到内存在 map

成长之路 0喜欢 / 0评论 2020-02-22

GRIDVIEW单击事件

referthese:http://www.cnblogs.com/insus/archive/2011/06/30/2094151.htmlhttp://www.cnblogs.com/insus/archive/2012/09/22/2697862.h

成长之路 0喜欢 / 0评论 2020-01-07

cdh 系统配置文件更新 error parsing conf core-site.xml

报错描述：airflow调度程序，最近2周偶尔报错，报错类型有2类：1、无法初始化集群配置；2、读取配置权限问题。Number of reduce tasks is set to 0 since there‘s no reduce operator

成长之路 0喜欢 / 0评论 2019-12-24

hive select 出现问题 SemanticException

use hive;update DBS set DB_LOCATION_URI=REPLACE (DB_LOCATION_URI,‘localhost‘,‘192.168.65.128‘). update SDS set LOCATION=REPLACE

成长之路 0喜欢 / 0评论 2019-12-20

hive.groupby.skewindata为

会生成两个job来执行group by，第一个job中，各个map是平均读取分片的，在map阶段对这个分片中的数据根据group by 的key进行局部聚合操作，这里就相当于Combiner操作。因为第一个job中分区是随机的，所有reduce结果的数据的

成长之路 0喜欢 / 0评论 2019-12-17

Hive常用命令及作用

create table aa partitioned by ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t‘；修改列名和列数据类型：alter table aa change col2 name string

成长之路 0喜欢 / 0评论 2019-12-14

Hive常用的10个系统函数及作用

函数处理的数据粒度为多条记录。

成长之路 0喜欢 / 0评论 2019-12-14

Hive的数据模型及各模块的应用场景

Hive的数据模型主要有：database、table、partition、bucket四部分；database：相当于关系型数据库中的命名空间，作用是将数据库应用隔离到不同的数据库模式中，hive提供了create database dbname、use

成长之路 0喜欢 / 0评论 2019-12-14

Hive拉链表实现

delimited fields terminated by ‘\t‘;from order_info where create_time=‘2019-12-02‘ or operate_time=‘2019-12-02‘;create_time stri

成长之路 0喜欢 / 0评论 2019-12-12

二、hive调优

Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。Some select queries can be converted to single FETCH task minimizing latency.Currently

成长之路 0喜欢 / 0评论 2019-11-03

Hive脚本中切勿使用/**/注释

Hive脚本的注释目前好像只有 -- ，我之前在做初版数据的时候使用NotePad++ 习惯性的有时候注释会写成 /**/ ,然后就引发了问题。脚本上传到hue，加入调度，调度正常执行不报错，但是应该有的数据却为空！！！再仔细看看，原因问题出在注释上

成长之路 0喜欢 / 0评论 2019-10-20

大数据技术之Azkaban学习_(阿兹卡班)介绍 + 安装部署 + 实战

一概述1.1 为什么需要工作流调度系统1.2 常见工作流调度系统1.3 各种调度工具特性对比1.4 Azkaban 与 Oozie 对比二 Azkaban 介绍三 Azkaban 安装部署3.1 安装前准备3.2 安装 azkaban3.2 创建 SSL

成长之路 0喜欢 / 0评论 2019-03-12

hive优化

explain extended:除咯有计划，还有抽象语义树。Statistics: Num rows: 1 Data size: 82 Basic stats: COMPLETE Column stats: NONE. ListSinkstage：一个s

成长之路 0喜欢 / 0评论 2018-10-18

mr使用hcatalog读写hive表

企业中，由于领导们的要求，hive中有数据存储格式很多时候是会变的，比如为了优化将tsv，csv格式改为了parquet或者orcfile。那么这个时候假如是mr作业读取hive的表数据的话，我们又要重新去写mr并且重新部署。这个时候就很蛋疼。hcatal

成长之路 0喜欢 / 0评论 2018-08-23

加载中...

成长之路

0 关注 0 粉丝 0 动态