Hive自定义函数（generic）

博客分类：

Hive分享

Hive自定义generic（通用）函数，性能比simple性能高，同时能处理simple不能处理的问题，如：simple不能处理Hive的struct结构。 hive generic 函数详细见hive 目录： src\ql\src\java\org\apache\hadoop\hive\ql\udf\generic 一、GenericUDF 1.UDF首先将输入数据转化为对应的ObjectInspectors对象 2.Hive自带的很多函数都是使用GenericUDF，例如：concat_ws, case when等等 3.UDF输入是单行数据， ...

2013-04-21 16:56
浏览 8786
评论(0)
分类:开源软件

Hive自定义函数（simple）

博客分类：

Hive分享

Hive可以自定义函数，自定义函数分为两种，一种是simple，simple是通过java反射机制，所以效率上有一定的折扣，对性能有一定的损耗。另一种是generic，generic使用分布式JAVA API，类似于Hadoop的一套API 一、分类 UDF（普通）：操作作用于单个数据行，产生一个数据行作为输出。（数学函数，字符串函数） UDAF（用户定义聚集函数）：接收多个输入数据行，并产生一个输出数据行。（count，max） UDTF（用户定义表生成函数）：操作作用于单个数据行，并产生多个数据行----一个表作为输出二、添加函数到hive库 ...

2013-04-20 22:25
浏览 4491
评论(0)
分类:开源软件

Hive锁与并发模型

博客分类：

Hive分享

Hive 并发模型使用案例并发支持 (http://issues.apache.org/jira/browse/HIVE-1293) 是数据库的必须,而且他们的使用案例很好懂。至少，我们要尽可能支持并发读和写。添加几个发现当前已经锁定的锁，是有用的。这里没有一个直接的需求 ...

2013-04-20 21:57
浏览 5321
评论(0)
分类:开源软件

HIVE Explain

博客分类：

Hive分享

EXPLAIN语法 Hive提供EXPLAIN命令，显示查询的执行计划。语法如下： EXPLAIN [EXTENDED] query EXPLAIN语句使用EXTENDED，提供执行计划关于操作的额外的信息。这是典型的物理信息，如文件名。 Hive查询被转换成序列（这是一个有向 ...

2013-04-20 20:31
浏览 4816
评论(0)
分类:开源软件

HIVE lateral view

博客分类：

Hive分享

Lateral View语法 lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)* fromClause: FROM baseTable (lateralView)* 描述 lateral view用于和split, explode等UDTF一起使用，它能够将一行数据拆成多行数据，在此基础上可以对拆分后� ...

2013-04-18 23:15
浏览 3335
评论(0)
分类:开源软件

HIVE中的排序细谈

博客分类：

Hive分享

order by order by 会对输入做全局排序，因此只有一个reducer（多个reducer无法保证全局有序）只有一个reducer，会导致当输入规模较大时，需要较长的计算时间。 set hive.mapred.mode=nonstrict; (default value / 默认值) set hive.mapred.mode=strict; ...

2013-04-18 23:06
浏览 12160
评论(1)
分类:开源软件

Hive的JOIN用法

博客分类：

Hive分享

Hive表连接的语法支持如下： join_table: table_reference JOIN table_factor [join_condition] | table_reference {LEFT|RIGHT|FULL} [OUTER] JOIN table_reference join_condition | table_reference LEFT SEMI JOIN table_reference join_condition | table_reference CROSS JOIN table_refe ...

2013-04-18 14:06
浏览 34658
评论(0)
分类:开源软件

HIVE原生和复合类型的数据加载和使用

博客分类：

Hive分享

原生类型原生类型包括TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY (Hive 0.8.0以上才可用),TIMESTAMP (Hive 0.8.0以上才可用)，这些数据加载很容易，只要设置好列分隔符，按照列分隔符输出到文件就可以了。假设有这么一张用户登陆表 CREATE TABLE login ( uid BIGINT, ip STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; ...

2013-04-17 23:49
浏览 2429
评论(0)
分类:开源软件

HIVE表创建/删除/ 截断

博客分类：

Hive分享

下文只描述不常见的Hive创建|删除|截断表的用法指定数据库创建表如果不指定数据库，hive会把表创建在default数据库下，假设有一个hive的数据库mydb,要创建表到mydb,如下: CREATE TABLE mydb.pokes(foo INT,bar STRING); 或者是 use mydb; - ...

2013-04-17 23:44
浏览 6060
评论(0)
分类:开源软件

Hive数据类型

博客分类：

Hive分享

列类型 Hive支持的数据类型如下：原生数据类型： TINYINT SMALLINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING BINARY（好像是较高版本才有的类型） TIMESTAMP 复合类型： arrays:ARRAY<data_type> maps:MAP<primitive_type,data_type> structs:STRUCT<col_name : data_type> union:UNIONTYPE<data_type,data_type,. ...

2013-04-17 23:33
浏览 11675
评论(0)
分类:开源软件

hive并发调用的运行方式-个人经验篇

博客分类：

Hive分享

前言使用hive，我们很多情况下会并发调用hive程序，将sql任务转换成mapreuce提交到hadoop集群中，而在本人使用hive的过程中，发现并发调用hive有几个问题,在这个和大家分享下. 正文默认安装hive，hive是使用derby内存数据库保存hive的元数据，这样是不可以并发调用hive的，需要配置为使用mysql保存hive的元数据。运行hive，可以有以下访问方式: 1.hiveserver:hive以thrift服务的服务器形式运行，允许不同的语言编写客户端进行访问，通过thrift，jdbc，odbc连接器和hive服务器与hive通信， ...

2013-04-17 23:22
浏览 2440
评论(0)
分类:开源软件

Hive CLI 常用操作

博客分类：

Hive分享

hive命令行执行一个查询 $HIVE_HOME/bin/hive -e 'select a.col from tab1 a' 之后过程中，会在终端上显示mapreduce的进度，执行完毕后，最后把查询结果输出到终端上，接着hive进程退出，不会进入交互模式。使用静音模式执行一个查询 $HIVE_HOME/bin/hive -S -e 'select a.col from tab1 a' 加入-S，终端上的输出不会有mapreduce的进度，执行完毕，只会把查询结果输出到终端上。这个静音模式很实用，,通过第三方程序调用，第三方程序通过hive的标准输出获 ...

2013-04-17 23:04
浏览 3978
评论(0)
分类:开源软件

hive元数据中utf8的修改

博客分类：

Hive分享

表或者字段有中文的时候需要修改hive的元数据库的设置。以mysql为例子，当mysql的字符集设置成utf8的时候使用hive会有问题，详细见hive的wiki。所以当hive使用mysql作为元数据库的时候mysql的字符集要设置成latin1。为了保存那些utf8的中文，要将mysql中存储注释的那几个字段的字符集单独修改为utf8。修改字段注释字符集 alter table COLUMNS modify column COMMENT varchar(256) character set utf8; 修改表注释字符集 ...

2013-04-16 17:55
浏览 4128
评论(0)
分类:数据库

Map根据Value排序

博客分类：

java

Map的特性 Map是Key-Value的架构集合体，而Key属于Set的架构，也就是说Key值是唯一的，而Value值是可以重复；一般常用的Map结构是HashMap与TreeMap，其中TreeMap是Key有序的，如果需要Key有序则选择使用TreeMap，一般来说，考虑效率问题，则使用HashMap。 import java.util.ArrayList; import java.util.Collections; import java.util.Comparator; import java.util.HashMap; import java.util ...

2013-03-14 12:06
浏览 8877
评论(0)
分类:编程语言

Java类Comparator和Comparable在排序中的应用

博客分类：

Java类排序

在集合或者数组中，有时候需要对里面的元素,也就是对象进行排序，依照对象的某个或者某几个属性从大到小或者从小到大进行排序，我们可以采用直接编码的方式，将集合或者数组中的元素进行重新排列，但，采用java本身提供的接口，无疑是一种更有效的方法。 java提供两种方式来提供比较功能。通常可以使用Comparator或Comparable，以简单的方式实现对象排序或自定义排序。一、Comparator 强行对某个对象collection进行整体排序的比较函数，可以将Comparator传递给Collections.sort或Arrays ...

2013-03-01 11:14
浏览 1335
评论(0)
分类:编程语言

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

Hive自定义函数（generic）

Hive自定义函数（simple）

Hive锁与并发模型

HIVE Explain

HIVE lateral view

HIVE中的排序细谈

Hive的JOIN用法

HIVE原生和复合类型的数据加载和使用

HIVE表创建/删除/ 截断

Hive数据类型

hive并发调用的运行方式-个人经验篇

Hive CLI 常用操作

hive元数据中utf8的修改

Map根据Value排序

Java类Comparator和Comparable在排序中的应用

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>