文章_genshengxiao_极客社区

genshengxiao

https://i.ancii.com/genshengxiao/

genshengxiao

genshengxiao genshengxiao

文章

hive函数之~条件函数

‘tom‘ when 2=2 then ‘mary‘ else ‘tim‘ end from tableName;

genshengxiao 0喜欢 / 0评论 2020-07-05

Hadoop

Zookeeper：用于 Hadoop 的分布式协调服务。Hadoop 的许多组件依赖于 Zookeeper，它运行在计算机集群中，用于管理 Hadoop 集群。像 Pig 一样，Hive 作为一个抽象层工具，吸引了很多熟悉 SQL 而不是 Java 编程

genshengxiao 0喜欢 / 0评论 2020-06-26

hive总结

　　　　　　hive不建议对数据改写。而数据库通常是需要对数据进行更新操作的。　　　　　　hive的执行延迟较高，而数据库的执行比较快，但是是基于数据量不大的基础上，当数据量过大，数据库的处理能力会骤降，而此时hive的分布式处理的优势就得到了体现。　　　

genshengxiao 0喜欢 / 0评论 2020-06-21

如何在CDH 6.3.2 启用Kerberos 中使用sentry限制用户读写

mysql> grant all privileges on sentry.* to ‘sentry‘@‘%‘ identified by ‘sentry_1234‘ with grant option;完成以上配置后，回到Cloudera Mana

genshengxiao 0喜欢 / 0评论 2020-06-04

hive从入门到实战五

通过观察原始数据形式，可以发现，视频可以有多个所属分类，每个所属分类用&符号分割，且分割的两边有空格字符，同时相关视频也是可以有多个元素，多个相关视频又用“\t”进行分割。为了分析数据时方便对存在多个子元素的数据进行操作，我们首先进行数据重组清洗操

genshengxiao 0喜欢 / 0评论 2020-05-30

hive cast( as integer)报错 in primitive type specification

原因是hive版本太老，不能识别integer，只能识别int

genshengxiao 0喜欢 / 0评论 2020-05-09

大数据 hadoop ------ pig 、hive、Mahout、hbase

Pig最早是雅虎公司的一个基于Hadoop的并行处理架构，后来Yahoo将Pig捐献给Apache的一个项目，由Apache来负责维护，Pig是一个基于 Hadoop的大规模数据分析平台。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口，这一

genshengxiao 0喜欢 / 0评论 2020-02-17

HIVE客户端启动缓慢处理步骤

如果使用failover出现超时，则大概率是因为合并editlog, fsimage耗时非常久，直接导致active nn异常退出，所以通过直接kill掉active nn来实现切换。

genshengxiao 0喜欢 / 0评论 2020-01-29

05hive函数

1）查看系统自带的函数 hive> show functions;2）显示自带的函数的用法 hive> desc function upper;UDAF 聚集函数，多进一出。需要实现 evaluate 函数；evaluate 函数支持重载；b）

genshengxiao 0喜欢 / 0评论 2020-01-26

OLAP分析工具之Presto

2）将presto-server-0.196.tar.gz导入hadoop101的/opt/software目录下，并解压到/opt/module目录。7）Presto可以支持多个数据源，在Presto里面叫catalog，这里我们配置支持Hive的数据源

genshengxiao 0喜欢 / 0评论 2020-01-10

Hive中运行任务报错：Error during job, obtaining debugging information...

namenode内存空间不够，JVM剩余内存空间不够新job运行所致

genshengxiao 0喜欢 / 0评论 2019-12-17

Hive面试准备

Hive与HBase的区别Hive架构原理Hive的数据模型及各模块的应用场景Hive支持的文件格式和压缩格式及各自特点Hive内外表的区分方法及内外部差异Hive视图如何创建、特点及应用场景Hive常用命令及作用Hive常用的10个系统函数及作用简述UD

genshengxiao 0喜欢 / 0评论 2019-12-14

Hive内外表的区分方法及内外部差异

查看hive元数据：进入mysql中hive元数据库，查看TBLS表，查看对应的表名和表类型；在hive-cli界面：desc extended tablename，查看TableType，一般在展示结果的最后显示；hive创建表的时候如果指定locati

genshengxiao 0喜欢 / 0评论 2019-12-14

sqoop导入数据到hive中，数据不一致

--hive-delims-replacement 导入到hive时用自定义的字符替换掉 \n, \r, and \01

genshengxiao 0喜欢 / 0评论 2018-12-11

hive 配置自定义用户安全认证

HiveServer2提供了JDBC链接操作Hive的功能，非常实用，但如果在使用HiveServer2时候，不注意安全控制，将非常危险，因为任何人都可以作为超级用户来操作Hive及HDFS数据。HDFS上也是以超级用户hadoop创建的目录。再执行dro

genshengxiao 0喜欢 / 0评论 2019-08-13

安装的Hive

下载具体看下安装的步骤和过程:. 下载Hive0.13的bin包，并解压。涉及hadoop的目录，和hive的conf目录。配置hive属性和集成MySQL存储元数据。建库，建表,测试hive. 测试hive是否正常工作

genshengxiao 0喜欢 / 0评论 2016-01-17

Hive安装及与HBase的整合

1 Hive简介Hive是一个基于Hadoop的开源数据仓库工具，用于存储和处理海量结构化数据。它把海量数据存储于Hadoop文件系统，而不是数据库，但提供了一套类数据库的数据存储和处理机制，并采用类SQL语言对这些数据进行自动化管理和处理。我们可以把Hi

genshengxiao 0喜欢 / 0评论 2016-12-23

Hadoop上时实类SQL查询系统对比

以前只用过Hive与impala两个类SQL查询系统，最近又将Hortonworks开源的Stinger与Apache的Drill做了些调研。累死累活搞了一天的资料，头都大了。为了纪念我那逝去的脑细胞，特将这些信息整理出来。由于调查时间比较短，所写之处难免

genshengxiao 0喜欢 / 0评论 2013-12-01

hive lateral view语句

lateral view用于和split, explode等UDTF一起使用，它能够将一列数据拆成多行数据，在此基础上可以对拆分后的数据进行聚合。一个简单的例子，假设我们有一张表pageAds，它有两列数据，第一列是pageid string，第二列是ad

genshengxiao 0喜欢 / 0评论 2013-04-16

Hive 0.9.0编译过程

下面介绍在hadoop的编译环境中，下载hive并编译。在根目录的build/dist目录中，为可最终迁移到节点服务器进行部署的内容。非常简单，首先设置HADOOP_HOME目录；然后运行./bin/hive，即可启动hive的命令行窗口，输入hql进行数

genshengxiao 0喜欢 / 0评论 2012-10-11

加载中...

genshengxiao

0 关注 0 粉丝 0 动态