当前位置: 代码迷 >> 综合 >> Hadoop1.0和2.0的主要区别
  详细解决方案

Hadoop1.0和2.0的主要区别

热度:34   发布时间:2024-01-16 19:32:13.0

Hadoop 1.0指的是版本为Apache Hadoop0.20.x、1.x或者CDH3系列的Hadoop,组件主要由HDFS和MapReduce两个系统组成,HDFS是一个分布式文件存储系统,MapReduce是一个离线处理框架,分为三部分,运行时环境为JobTracker和TaskTracker,编程模型为Map映射和Reduce规约,数据处理引擎为MapTask和ReduceTask,Hadoop1.0资源管理由两部分组成:资源表示模型和资源分配模型,其中,资源表示模型用于描述资源的组织方式,Hadoop 1.0采用“槽位”(slot)组织各节点上的资源,而资源分配模型则决定如何将资源分配给各个作业/任务,在Hadoop中,这一部分由一个插拔式的调度器完成。

Hadoop 2.0指的是版本为Apache Hadoop 0.23.x、2.x或者CDH4系列的Hadoop,组件主要由HDFS、MapReduce和YARN三个系统组成,其中,YARN是一个2.0新增的一个通用的资源管理系统(也可以作为spark,storm等的资源调度器),负责集群资源管理和调度,而MapReduce得运行时环境则是运行在YARN上。

Hadoop1.0和2.0的主要区别:
1.新增yarn,1.0时mr的运行环境为JobTracker和TaskTracker,2.0则取消了JobTracker和TaskTracker,使用yarn作为mr的资源调度调度器
2.解决了hadoop1.0中NN的单点故障,可以使用NN的Ha
3.Hadoop 2.x默认的block大小是128MB,Hadoop 1.x默认的block大小是64MB