文章_victorzhzh_极客社区

victorzhzh

https://i.ancii.com/victorzhzh/

victorzhzh

victorzhzh victorzhzh

文章

Hive安装，以及一些问题处理

把apache-hive-1.2.1-bin.tar.gz上传到linux的/opt/software目录下。注意以tab键间隔。hive> create table student ROW FORMAT DELIMITED FIELDS TERMI

victorzhzh 0喜欢 / 0评论 2020-06-16

hive从入门到实战六

在讲解中我们需要贯串一个例子，所以需要设计一个情景，对应还要有一个表结构和填充数据。如下：有 3 个字段，分别为 personId 标识某一个人，company 标识一家公司名称，money 标识该公司每年盈利收入。hive 中的 cluster by 在

victorzhzh 0喜欢 / 0评论 2020-05-30

DataSphere安装配置

linkis：。links/conf/conf.sh. deployUser=hadoop. linkis/conf/db.sh. DSS. dss/conf/config.sh. deployUser=hadoop

victorzhzh 0喜欢 / 0评论 2020-05-16

3、Hive-sql优化，数据倾斜处理

注意：设置太大也不会校验，所以要根据自己的数据集调整set hive.auto.convert.join = true; -- 开启mapjoin，默认falseset hive.mapjoin.followby.gby.localtask.max.mem

victorzhzh 0喜欢 / 0评论 2020-05-11

SQOOP增量抽取时，在HIVE中实现类似Oracle的merge操作

数据仓库建设中的数据抽取环节，常常需要增量抽取业务库数据。但业务库数据不是一层不变的，会根据时间发生状态变更，那么就需要同步更新变化数据到HIVE中。过去在Oracle上做数据仓库时，可以使用merge的方法合并新老数据。但hive中没有该功能，本文旨在通

victorzhzh 0喜欢 / 0评论 2020-04-07

利用hive-hbase表做hive表快速入库hbase功能,纬度表的查询

有个需求是纬度表需要秒出数据,首先表刚好也是1-1批对的情况,首先想到了利用hbase的索引机制。虽然网上有很多直接建立hive表,自动创建hbase表的例子,但是这种情况不能进行hbase表的region预分区,导致热点问题比较严重。删除hbase表hi

victorzhzh 0喜欢 / 0评论 2020-03-26

大数据生态之数据处理框架探索

Apache Pig是MapReduce的一个抽象。它是一个工具/平台，用于分析较大的数据集，并将它们表示为数据流。Pig通常与 Hadoop 一起使用；我们可以使用Apache Pig在Hadoop中执行所有的数据处理操作.MapReduce是低级和刚性

victorzhzh 0喜欢 / 0评论 2020-03-03

hive学习

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name -- . [CLUSTERED BY [SORTED BY ] INTO num_buckets BU

victorzhzh 0喜欢 / 0评论 2020-02-26

2020年寒假假期总结0202

　　首先在使用java连接前我们需要在虚拟机上开启hiveserver2，hiveserve2的作用是实现hive可以进行并发操作，否则没有办法实现java对hive的操作。　　使用命令：hiveserver2即可打开hiveserver2服务，需要注意的

victorzhzh 0喜欢 / 0评论 2020-02-02

大数据-hive理论(1)

　　　　数据仓库，对海量数据的离线处理；　　　　解释器，编译器，优化器；　　　　HDFS或HBase ---映射--> HIVE表 -- HiveQL--> HDFS. 　　　　　　因为hdfs中存储的数据文件都是数据不包括数据的头等信息，所以

victorzhzh 0喜欢 / 0评论 2020-01-09

Hive(1)-基本概念

　　Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。　　1) 操作接口采用类SQL语法，提供快速开发的能力。　　2) 避免了去写MapReduce，减少开发人员的学习成本。由于Hive建立在集群上并

victorzhzh 0喜欢 / 0评论 2019-12-27

EMR问题

需要设置为true，打开允许多个Query同时编译。

victorzhzh 0喜欢 / 0评论 2019-12-20

hive函数

hive> select case when 1=1 then ‘tom‘ when 2=2 then ‘mary‘ else ‘tim‘ end from lxw_dual;

victorzhzh 0喜欢 / 0评论 2019-12-03

HBase的部署与其它相关组件（Hive Phoenix）的集成

victorzhzh 0喜欢 / 0评论 2019-12-02

Hive_列转行(集合/数组转多行)

　　explode接受一个数组作为输入，并将数组元素作为单独的行输出。UDTF可以在SELECT表达式列表中使用，也可以作为LATERAL VIEW的一部分使用。用在FROM语句后：LATERAL VIEW udtf tableAlias AS colum

victorzhzh 0喜欢 / 0评论 2019-11-06

Hive_创建数据库

2）避免要创建的数据库已经存在错误，增加if not exists判断。hive > create database db_hive2 location ‘/db_hive2.db‘;

victorzhzh 0喜欢 / 0评论 2019-11-05

Hive_创建表

如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXISTS 选项来忽略这个异常。COMMENT：为表和列添加注释。用户在建表的时候可以自定义SerDe或者使用自带的SerDe。如果没有指定ROW FORMAT 或者ROW FORMAT D

victorzhzh 0喜欢 / 0评论 2019-11-05

Hive_修改表

hive > alter table dept_partition2 rename to dept_partition3;详见分区表基本操作。ALTER TABLE table_name CHANGE [COLUMN] col_old_name co

victorzhzh 0喜欢 / 0评论 2019-11-05

离线数据全量导入与增量导入方案

如果是硬删除，需将删除的数据行放入额外审计表中audit_table，与base_table和incremental_table一起进行合并过滤处理后，再写回base_table。采用Oozie、NiFi或者Shell脚本等方式，将上述流程统一做成一个工作

victorzhzh 0喜欢 / 0评论 2019-10-31

hive开发规范

不进入hive的交互窗口执行sql语句。可以指定字符集。map是一组键-值对元组集合，使用数组表示法可以访问数据。数组是一组具有相同类型和名称的变量的集合。例如，数组值为[‘john’, ‘doe’]，那么第2个元素可以通过数组名[1]进行引用。用户可以使

victorzhzh 0喜欢 / 0评论 2019-10-22

加载中...

victorzhzh

0 关注 0 粉丝 0 动态