文章_zhulinyanyu_极客社区

zhulinyanyu

https://i.ancii.com/zhulinyanyu/

zhulinyanyu

zhulinyanyu zhulinyanyu

文章

Impala：新一代开源大数据分析引擎

大数据处理是云计算中非常重要的问题，自Google公司提出MapReduce分布式处理框架以来，以Hadoop为代表的开源软件受到越来越多公司的重视和青睐。以Hadoop为基础，之后的Hbase，Hive，Pig等系统如雨后春笋般的加入了Hadoop的生态

zhulinyanyu 0喜欢 / 0评论 2017-04-22

Hive自定义函数之UDF

虽然Hive已经提供了很多内存的函数，但是还是不能，满足用户的需求，因此有提供了自定义函数供用户自己开发函数来满足自己的需求。之定义函数主要分三类： 1)、UDF用户自定义函数，输入一个数据然后产生一个数据； 2)、UDAF用户自定义聚合函数，多个输入数据

zhulinyanyu 0喜欢 / 0评论 2014-08-04

java applet 签名和实例

<applet code="Main.class" id="forwardport" codebase="." ARCHIVE = "forwardport.jar" w

zhulinyanyu 0喜欢 / 0评论 2013-08-09

Hive安装配置学习笔记

GRANT ALL PRIVILEGES ON *.* TO 'root'@'localhost' IDENTIFIED BY 'root' WITH GRANT OPTION;CREATE DATABASE metastore; CREATE DATA

zhulinyanyu 0喜欢 / 0评论 2012-11-24

用正则表达式匹配w3c日志，导入hive

用正则表达式匹配w3c日志，导入hivew3c格式建表语句：CREATE EXTERNAL TABLE w3c(. describe extended tablename;建表的其他配置方面的信息，partition, table type 等等将表查询出

zhulinyanyu 0喜欢 / 0评论 2012-11-08

Hive安装与配置——深入浅出学Hive

Hive 内建操作符与函数开发

zhulinyanyu 0喜欢 / 0评论 2012-10-31

Hive分享教程2-Hive语法

STORED AS SEQUENCEFILE; #采用那种存储方式存储数据 SEQUENCEFILE是hadoop自带的文件压缩格式一些常用的命令。ROW FORMT DELIMITED FIELDS TERMINATED BY '44' LINES T

zhulinyanyu 0喜欢 / 0评论 2012-07-03

hive 用mysql存储元信息

grant all privileges on hivedb.* to hiveuser@'%' identified by 'hiveuser';然后，把mysql-connector-java-5.1.12-bin.jar拷贝到/cq/hive/lib

zhulinyanyu 0喜欢 / 0评论 2011-01-22

hive执行作业时reduce任务个数设置为多少合适？

Hive怎样决定reducer个数？Hadoop MapReduce程序中，reducer个数的设定极大影响执行效率，这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的估计机制很弱，不指定reducer个数的情况下，Hive会猜测

zhulinyanyu 0喜欢 / 0评论 2011-01-12

源码编译hive

examples/ 需要的工具：ant 具体安装，请自己在网上查找。修改shims目录下的build.xml跟ivy.xml，将里面不需要的hadoop的版本删除。如果列表中没有自己需要的hadoop，可修改。</dependency>至此，在

zhulinyanyu 0喜欢 / 0评论 2010-12-02

Hive Installation and Configuration

http://wiki.apache.org/hadoop/Hive/GettingStarted#Installation_and_Configuration

zhulinyanyu 0喜欢 / 0评论 2010-11-25

http://blog.csdn.net/minjiaren/archive/2009/08/20/4465153.aspx

zhulinyanyu 0喜欢 / 0评论 2011-05-25

六大主流开源SQL引擎

导读本文涵盖了6个开源领导者：Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto，还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。以及2个商业化选择Oracle Big Data SQL 和

zhulinyanyu 0喜欢 / 0评论 2019-01-11

hive大表优化

如果Hive优化实战2中mapjoin中小表dim_seller很大呢？比如超过了1GB大小？这种就是大表join大表的问题。首先引入一个具体的问题场景，然后基于此介绍各自优化方案。A表为一个汇总表，汇总的是卖家买家最近N天交易汇总信息，即对于每个卖家最近

zhulinyanyu 0喜欢 / 0评论 2018-10-01

Python项目打包和发布（内附python教程分享）

通常我们开发一个Python开源项目，想在多台服务器上部署，或者贡献项目为其他开发者来使用，最好的方式是发布到PyPI ，之后可以通过pip install package方式安装包，下面将介绍最基本的Python项目打包和发布的方法，其实目前有很多方法，

zhulinyanyu 0喜欢 / 0评论 2019-03-18

Hive 优化 tips

Hive不支持where子句中的子查询，SQL常用的exist in子句需要改写。这一改写相对简单。如果一个表中的map数特别多，可能是由于文件个数特别多，而且文件特别小照成的，可以进行如下操作，合并文件，： set mapred.max.split.s

zhulinyanyu 0喜欢 / 0评论 2013-11-10

加载中...

zhulinyanyu

0 关注 0 粉丝 0 动态