文章_leys_极客社区

leys

https://i.ancii.com/leys123/

leys

leys leys123

文章

Hive元数据管理

众所周知，hive表中的数据是HDFS上的文件，可是hive怎么知道这些文件的内容都对应哪个字段，对应哪个分区呢？就是hive的元数据管理着这一切。通常在hive-site.xml中的元数据库配置成MySQL，替换Derby。下面我们进MySQL看看元数据

leys 0喜欢 / 0评论 2019-11-17

Hive常用函数的使用

Hive是一个可以将SQL翻译为MR程序的工具，支持用户将HDFS上的文件映射为表结构，然后用户就可以输入SQL对这些表进行查询分析。Hive将用户定义的库、表结构等信息存储hive的元数据库中。Hive-on-MR is deprecated in Hi

leys 0喜欢 / 0评论 2019-11-16

row_number() over partition by使用中出现的一个现象

目前仓库中有这么个需求，根据书本，科目，知识点分组，分组时按照知识点对应的章节排序，排序后只获取排名第一条的数据，因为只需要第一条，为了防止出现并列第一，这里使用hive支持的开窗函数：。截图数据现象是这样,和order by 的字段值unit_sort都

leys 0喜欢 / 0评论 2018-01-10

hive语法详解

Hive是基于Hadoop构建的一套数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据，可以将结构。要的内容，这套SQL简称HiveSQL，使不熟悉mapreduce的用户很方便的利用SQL语言查询，汇总，分析数据

leys 0喜欢 / 0评论 2016-09-29

Hive的内置服务和hiveserver/hiveserver2的比较

Service List: beeline cli help hiveburninclient hiveserver2 hiveserver hwi jar lineage metastore metatool orcfiledump rcfilecat

leys 0喜欢 / 0评论 2016-09-23

Hive优化的五种方式

设置以上属性后，每次hive查询都会利用tez执行任务。customerID int, name string, age int, address string. INSERT INTO TABLE A_ORC SELECT * FROM A;custom

leys 0喜欢 / 0评论 2016-03-14

Hive 即将支持存储过程

最近在承接一个项目，碰到了PL/SQL的需求，于是查看了一下相关的文档。在hive的主分支上，发送hplsql module，

leys 0喜欢 / 0评论 2015-10-09

csv文件导入hive表

在本文中的CSV格式的数据就不是简单的逗号分割的），其文件以纯文本形式存储表格数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列。

leys 0喜欢 / 0评论 2015-02-04

shell中执行hive语句

$HIVE_HOME/bin/hive -e "use mydb;select a.col from tab1 a where a.dt='2015-01-07';". $HIVE_HOME/bin/hive -S -e 'select

leys 0喜欢 / 0评论 2015-01-08

Heritrix学习及遇到问题汇总（四）

比如，在应该是Prefetcher的地方，设置成了Writer。这样就会导致错误

leys 0喜欢 / 0评论 2014-10-05

多个包共用类名引起的问题（hive-exec&guava)

今天做UT，发现一个NoSuchMethod的Error.原因是Hive.exec把版本11的guava打了进去。这种问题一般都是由编译和运行不一样导致的。想吧classpath输出出来，试了下verbose:classes和jps+jinfo，都没搞定。

leys 0喜欢 / 0评论 2014-07-14

java访问hive的方式

privatestatic Connection conn = null;privatestatic Connection connToMysql = null;publicstatic Connection GetHiveConn() throwsSQL

leys 0喜欢 / 0评论 2013-11-07

hive中自定义RegexSerDe尝试

当原始数据中包好了诸如'\u0001'、'\u0002'、'\u0003'等hive默认的column分隔字符时，在select数据时就可能出现数据格式错乱的情况，为了避免这类现象，可以用自定义的RegexSerDe规避这类特殊字符。然后在加载数据后做se

leys 0喜欢 / 0评论 2013-03-10

Hive使用LEFT OUTER JOIN 实现not in 子句

select a.key from a where key not in. select a.key from a left outer join b on a.key=b.key where b.key1 is null

leys 0喜欢 / 0评论 2012-05-15

MySQL向Hive/HBase的迁移工具

ApacheHive是目前大型数据仓库的免费首选产品之一，使用ApacheHive的人是不会期望在小数据量上做什么文章，例如把MySQL中的数据搬到Hive/HBase中去，那样的话原先很快能执行完毕的SQL，估计在Hive上运行跟原来相比时间延长10倍都

leys 0喜欢 / 0评论 2011-04-21

警报：线上事故之CountDownLatch的威力

2019.2.22号凌晨3点半，是一个让人难以忘怀的、和瑞哥最后一次一起奋战的夜晚。线上事故应用每天凌晨1点10分进行自清理重启后，会进行数据源连接池的初始化操作。总结不要过分相信监控指标等信息针对长耗时的业务，一定要做超时限制，不可无所谓的放任Count

leys 0喜欢 / 0评论 2019-07-01

美团DB数据同步到数据仓库的架构与实践

背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS数据。在互联网企业中，常见的ODS数据有业务日志数据和业务DB数据两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重

leys 0喜欢 / 0评论 2019-06-29

如何将其他RDBMS的数据到迁移到Trafodion

本文介绍了如何将数据从现有的RDBMS迁移到Trafodion数据库。从其它的RDBMS或外部数据源向Trafodion集群中导入大量的重要数据，可以通过下面两步完美实现：。使用下列方法之一:. 使用Sqoop将数据导入Hive使用Apache Sqoop

leys 0喜欢 / 0评论 2019-06-28

Kettle Table Exists控件优化

经过进一步分析，了解到在判断hive数据库时，当表的数据量很大或视图的查询逻辑非常复杂，控件调用就会变得非常耗时。初步想法是控件在运行时，可能是数据库连接或查询数据的TEST SQL有问题，导致对大量数据表的判断没有进行优化。为了验证这一想法并进行彻底的优

leys 0喜欢 / 0评论 2019-06-26

学习钻MapR Sandbox Lesson2：用ANSI SQL运行查询《译》

目标这节课展示了如何在Apache Drill中做一些标准的SQL分析：例如，总结数据通过使用简单集合函数和连接数据源。注意,Apache Drill提供ANSI SQL支持,不是一个“类似sql”接口（界面）。这些查询演示Drill如何支持ANSI SQ

leys 0喜欢 / 0评论 2019-06-20

加载中...

leys

0 关注 0 粉丝 0 动态