Hive决定reducer个数的标准 - valder fields - ITeye博客

`

yugouai

浏览: 492280 次
性别:
来自: 深圳

最近访客更多访客>>

淡定情绪

spaceandroid

fengbin2005

hundun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

IT_LDB：哥们你帮我大忙了，谢啦。一直在尝试使用内嵌的disco ...
FaceBook PrestoDB 安装文档
wxcking： yugouai 写道wxcking 写道请问，Windows下 ...
阿里DataX编译与案例
yugouai： wxcking 写道请问，Windows下怎么配置呢？Data ...
阿里DataX编译与案例
wxcking：请问，Windows下怎么配置呢？
阿里DataX编译与案例
developerinit：总结的非常好，每次都来看
HIVE中的排序细谈

Hive决定reducer个数的标准

博客分类：

Hive分享

阅读更多

Hadoop MapReduce程序中，reducer个数的设定极大影响执行效率，这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的估计机制很弱，不指定reducer个数的情况下，Hive会猜测确定一个reducer个数，

基于以下两个设定：

1. hive.exec.reducers.bytes.per.reducer（默认为1000^3）

2. hive.exec.reducers.max（默认为999）

计算reducer数的公式很简单：

N=min(参数2，总输入数据量/参数1)

通常情况下，有必要手动指定reducer个数。考虑到map阶段的输出数据量通常会比输入有大幅减少，因此即使不设定reducer个数，重设参数2还是必要的。依据Hadoop的经验，可以将参数2设定为0.95*(集群中TaskTracker个数)。

分享到：

hive的hive.exec.parallel参数说明 | Hive中UDTF的编写与使用

2013-04-21 22:42
浏览 1584
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

分布式数据仓库Hive大全: 9.4 怎样决定reducer个数 55 9.5 合并MapReduce操作 55 9.6 Bucket 与 sampling 56 9.7 Partition 57 9.8 JOIN 58 9.8.1 JOIN原则 58 9.8.2 Map Join 58 9.8.3 大表Join的数据偏斜 60 9.9 合并小文件 62 9.10 Group ...

Hive用户指南: 9.4 怎样决定reducer个数 55 9.5 合并MapReduce操作 55 9.6 Bucket 与 sampling 56 9.7 Partition 57 9.8 JOIN 58 9.8.1 JOIN原则 58 9.8.2 Map Join 58 9.8.3 大表Join的数据偏斜 60 9.9 合并小文件 62 9.10 Group ...

Hive用户指南(Hive_user_guide)_中文版.pdf: 高，决定了 Hive 不适合在线数据查询。 6. 执行。 Hive 中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的（类似 select * from tbl 的查询不需要 MapReduce）。而数据库通常有自己的执行引擎。

Hive研发参考手册_V1: Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以...同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

java大数据内容_6Hive、Kettle: 1.Hive开发 1.1 Hive安装部署 1.1.1 Hive概述 Hive概述 ...同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive编程指南: 学习hive，做大数据分析。Hive是建立在 Hadoop 上的数据仓库基础构架。...同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

apache-hive-2.3.5-bin.tar.gz: 同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上，控制...

Hive 用户指南 v1.0: Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以...同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive基本概念及常用操作.rar: 这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 Hive概念及常用操作文件包含Hive的基本概念与架构，以及在平常的工作中常用的...

Hive学习笔记: Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以...同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

Hive拉拉扯扯的order by,sort by,distribute by, cluster by: Hive支持两个层面的排序：全局排序部分排序全局排序用 order by col [ASC | DESC] 实现，效果和传统的RDMS一样，...鉴于此，Hive有一些自己特定，比如order by的实现需要把所有数据汇集到一个reducer中处理，如果数

hadoop_pcap_analyzer:基于Hadoop和Hive的pcap分析工具: Hadoop PCAP分析器该项目是基于Hadoop和Hive的pcap软件包分析工具。...这将为您提供有关传输层每个时间间隔的传输协议数量的信息要使用此功能，可以使用以下命令： hadoop jar ./analyzer-0.0.1-SNAPSHOT.jar co

大数据之运维.pptx: 同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。大数据之运维全文共12页，当前为第7页。 Hive使用场景 Hive 构建在基于...

HiveQueryMRJoin:使用减少端连接将Hive查询转换为Java MapReduce: 使用减少端连接将Hive查询转换为Java MapReduce 执照 Apache许可。连接可能是可在MapReduce中执行的最复杂的操作之一。通过设计，MapReduce非常适合通过隔离地查看每个记录或组来处理大型数据集，因此将两个非常...

基于hadoop对某网站日志分析部署实践课程设计报告参考模板.doc: 至此，我们通过Python网络爬虫手段进行数据抓取，将我们网站数据（2013-05-30,2013-05-31）保存为两个日志文件，由于文件大小超出我们一般的分析工具处理的范围，故借助Hadoop来完成本次的实践。 2. 总体设计 2.1 ...

Hadoop实战（陆嘉恒）译: 经过学术界和业界近10年的努力，Hadoop技术已经趋于完善而且应用广泛，几乎已经成为Big Data领域的事实标准。Hadoop技术本身比较复杂，而且还涉及Pig、ZooKeeper、Hive、HBase等一系列技术，学习门槛比较高，对于...

Hadoop实战(第2版): 技术点31　小文件技术点32　不可切割的文件6．2．3　reduce 端问题技术点33　reducer 任务数过大或过小．技术点34　定位reduce 端数据倾斜问题技术点35　确定reduce 任务是否存在整体吞吐量过低技术点36　缓慢的洗...

Hadoop硬实战 [（美）霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载带书签目录高清完整版.rar ): 技术点33　reducer 任务数过大或过小．技术点34　定位reduce 端数据倾斜问题技术点35　确定reduce 任务是否存在整体吞吐量过低技术点36　缓慢的洗牌（shuffle）和排序． 6．2．4　任务的一般性能问题技术点37...

Hadoop权威指南（中文版）2015上传.rar: reducer 本地运行测试数据在本地作业运行器上运行作业测试驱动程序在集群上运行打包启动作业 MapReduce的Web界面获取结果作业调试使用远程调试器作业调优分析任务 MapReduce的工作流将问题分解成...

Hadoop实战中文版: Hive及Hadoop群　11.1 Hive　11.1.1 安装与配置Hive　11.1.2 查询的示例　11.1.3 深入HiveQL　11.1.4 Hive小结　11.2 其他Hadoop 相关的部分　11.2.1 HBase　11.2.2 ZooKeeper　11.2.3 Cascading　11.2.4 Cloudera　...

Global site tag (gtag.js) - Google Analytics