`
yugouai
  • 浏览: 492280 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Hive决定reducer个数的标准

 
阅读更多

Hadoop MapReduce程序中,reducer个数的设定极大影响执行效率,这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的估计机制很弱,不指定reducer个数的情况下,Hive会猜测确定一个reducer个数,

 

基于以下两个设定:

 

1. hive.exec.reducers.bytes.per.reducer(默认为1000^3

2. hive.exec.reducers.max(默认为999

 

计算reducer数的公式很简单:

N=min(参数2,总输入数据量/参数1)

通常情况下,有必要手动指定reducer个数。考虑到map阶段的输出数据量通常会比输入有大幅减少,因此即使不设定reducer个数,重设参数2还是必要的。依据Hadoop的经验,可以将参数2设定为0.95*(集群中TaskTracker个数)

分享到:
评论

相关推荐

    分布式数据仓库Hive大全

    9.4 怎样决定reducer个数 55 9.5 合并MapReduce操作 55 9.6 Bucket 与 sampling 56 9.7 Partition 57 9.8 JOIN 58 9.8.1 JOIN原则 58 9.8.2 Map Join 58 9.8.3 大表Join的数据偏斜 60 9.9 合并小文件 62 9.10 Group ...

    Hive用户指南

    9.4 怎样决定reducer个数 55 9.5 合并MapReduce操作 55 9.6 Bucket 与 sampling 56 9.7 Partition 57 9.8 JOIN 58 9.8.1 JOIN原则 58 9.8.2 Map Join 58 9.8.3 大表Join的数据偏斜 60 9.9 合并小文件 62 9.10 Group ...

    Hive用户指南(Hive_user_guide)_中文版.pdf

    高,决定了 Hive 不适合在线数据查询。 6. 执行。 Hive 中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的(类似 select * from tbl 的查询不需要 MapReduce)。而数据库通常有自己的执行引擎。

    Hive研发参考手册_V1

    Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以...同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

    java大数据内容_6Hive、Kettle

    1.Hive开发 1.1 Hive安装部署 1.1.1 Hive概述 Hive概述 ...同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

    Hive编程指南

    学习hive,做大数据分析。Hive是建立在 Hadoop 上的数据仓库基础构架。...同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

    apache-hive-2.3.5-bin.tar.gz

    同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 Hive 没有专门的数据格式。 Hive 可以很好的工作在 Thrift 之上,控制...

    Hive 用户指南 v1.0

    Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以...同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

    Hive基本概念及常用操作.rar

    这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 Hive概念及常用操作文件包含Hive的基本概念与架构,以及在平常的工作中常用的...

    Hive学习笔记

    Hive 是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以...同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。

    Hive拉拉扯扯的order by,sort by,distribute by, cluster by

    Hive支持两个层面的排序: 全局排序 部分排序 全局排序用 order by col [ASC | DESC] 实现,效果和传统的RDMS一样,...鉴于此,Hive有一些自己特定,比如order by的实现需要把所有数据汇集到一个reducer中处理,如果数

    hadoop_pcap_analyzer:基于Hadoop和Hive的pcap分析工具

    Hadoop PCAP分析器 该项目是基于Hadoop和Hive的pcap软件包分析工具。...这将为您提供有关传输层每个时间间隔的传输协议数量的信息 要使用此功能,可以使用以下命令: hadoop jar ./analyzer-0.0.1-SNAPSHOT.jar co

    大数据之运维.pptx

    同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。 大数据之运维全文共12页,当前为第7页。 Hive使用场景 Hive 构建在基于...

    HiveQueryMRJoin:使用减少端连接将Hive查询转换为Java MapReduce

    使用减少端连接将Hive查询转换为Java MapReduce 执照 Apache许可。 连接可能是可在MapReduce中执行的最复杂的操作之一。 通过设计,MapReduce非常适合通过隔离地查看每个记录或组来处理大型数据集,因此将两个非常...

    基于hadoop对某网站日志分析部署实践课程设计报告参考模板.doc

    至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 2. 总体设计 2.1 ...

    Hadoop实战(陆嘉恒)译

    经过学术界和业界近10年的努力,Hadoop技术已经趋于完善而且应用广泛,几乎已经成为Big Data领域的事实标准。Hadoop技术本身比较复杂,而且还涉及Pig、ZooKeeper、Hive、HBase等一系列技术,学习门槛比较高,对于...

    Hadoop实战(第2版)

    技术点31 小文件技术点32 不可切割的文件6.2.3 reduce 端问题技术点33 reducer 任务数过大或过小 .技术点34 定位reduce 端数据倾斜问题技术点35 确定reduce 任务是否存在整体吞吐量过低技术点36 缓慢的洗...

    Hadoop硬实战 [(美)霍姆斯著][电子工业出版社][2015.01]_PDF电子书下载 带书签目录 高清完整版.rar )

    技术点33 reducer 任务数过大或过小 . 技术点34 定位reduce 端数据倾斜问题 技术点35 确定reduce 任务是否存在整体吞吐量过低 技术点36 缓慢的洗牌(shuffle)和排序 . 6.2.4 任务的一般性能问题 技术点37...

    Hadoop权威指南(中文版)2015上传.rar

    reducer 本地运行测试数据 在本地作业运行器上运行作业 测试驱动程序 在集群上运行 打包 启动作业 MapReduce的Web界面 获取结果 作业调试 使用远程调试器 作业调优 分析任务 MapReduce的工作流 将问题分解成...

    Hadoop实战中文版

    Hive及Hadoop群 11.1 Hive 11.1.1 安装与配置Hive 11.1.2 查询的示例 11.1.3 深入HiveQL 11.1.4 Hive小结 11.2 其他Hadoop 相关的部分 11.2.1 HBase 11.2.2 ZooKeeper 11.2.3 Cascading 11.2.4 Cloudera ...

Global site tag (gtag.js) - Google Analytics