Hadoop Internals: in-depth study of MapReduce Hadoop Internals: in-depth study of MapReduce Hadoop Internals: in-depth study of MapReduce

《Hadoop技术内幕》系列丛书目前有三本(图书封面见右),分别介绍Common+HDFS、MapReduce和YARN,均已经出版,你可以在当当、京东、亚马逊等网站购买。

《Hadoop技术内幕:深入解析Hadoop Common和HDFS架构设计与实现原理》一书由蔡斌老师编写,该书基于hadoop 1.x分析了Hadoop Common和HDFS的实现原理和源代码,该书目前已经出版。

《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》一书由董西成编写,该书基于hadoop 1.x分析了Hadoop MapReduce的实现原理和源代码,该书目前已经出版。该书详细介绍,可阅读:Hadoop-MapReduce

《Hadoop技术内幕:深入解析YARN架构设计与实现原理》一书由董西成编写,该书基于hadoop 2.x分析了Hadoop YARN的实现原理和源代码, 你可以在当当亚马逊京东china-pub等网站购买。

该书详细介绍,可阅读:Hadoop-YARN

新书《Hadoop技术内幕:深入解析YARN架构设计与实现原理》包含以下内容:

  • Hadoop YARN安装部署、源代码编译方法、基本架构等基础知识
  • Hadoop YARN 内部实现,包括基础库、ResourceManager、NodeManager、资源调度器等组件和服务的内部实现
  • 运行在YARN上的计算框架,包括离线计算框架MapReduce、DAG计算框架Tez、内存计算框架Spark和流式计算框架Storm等
  • 其他类YARN系统,包括Facebook Corona和Mesos等

《Hadoop技术内幕:深入解析YARN架构设计与实现原理》一书每一章后面带有一些问题讨论题目, 大家可在博客专栏“Hadoop技术内幕(YARN)问题讨论”中进行讨论。

常见问题以及回答:

(1)MapReduce和YARN是什么关系?

答:YARN并不是下一代MapReduce(MRv2),下一代MapReduce与第一代MapReduce(MRv1)在编程接口、数据处理引擎(MapTask和ReduceTask)是完全一样的, 可认为MRv2重用了MRv1的这些模块,不同的是资源管理和作业管理系统,MRv1中资源管理和作业管理均是由JobTracker实现的,集两个功能于一身,而在MRv2中,将这两部分分开了, 其中,作业管理由ApplicationMaster实现,而资源管理由新增系统YARN完成,由于YARN具有通用性,因此YARN也可以作为其他计算框架的资源管理系统,不仅限于MapReduce,也是其他计算框架,比如Spark、Storm等, 通常而言,我们一般将运行在YARN上的计算框架称为“X on YARN”,比如“MapReduce On YARN”, "Spark On YARN",“Storm On YARN”等, 关于MapReduce编程接口、数据处理引擎以及第一代资源管理和作业管理的实现,可参考《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》一书。

(2)能否详细介绍一下Hadoop技术内幕系列丛书作者的联系方式?

答:蔡斌老师微博:caibinbupt,可与作者互动

董西成微博:西成懂,可与作者互动

董西成博客:董的博客,可阅读hadoop相关技术文章

微信公众账号:hadoop123(微信号:hadoop-123),分享hadoop技术内幕,hadoop最新技术进展,发布hadoop相关职位和求职信息,hadoop技术交流聚会、讲座以及会议等。微信二维码如下:

(3)YARN这本书是否是MapReduce那本书的升级版?

答:不是,Hadoop 2.0由三个子系统组成,分别是HDFS、YARN和MapReduce,其中,YARN是一个崭新的资源管理系统,而MapReduce则只是运行在YARN上的一个应用,如果把YARN看成一个云操作系统,那么MapReduce可认为是运行在这个操作系统上的App

(4)读了YARN这本书,是否还需读MapReduce那一本?

答:当然需要。这两本讲的是不同层次的系统,YARN这一本专讲Hadoop 2.0中新引入的资源管理系统YARN,它之上可以运行各种计算框架,而MapReduce只是运行在它之上的一个离线框架, 其他计算框架还有Tez、Spark、Storm等。YARN是一个通用资源管理平台,而MapReduce则是一个计算框架,可以像Hadoop 1.0那样独立运行,也可以运行在YARN上(Hadoop 2.0)。

(5)HDFS和MapReduce这两本全是针对1.x版本的吗,是否在针对2.x编写第二版?

答:这两本全是针对1.x版本的,目前有计划根据最新的2.x编写第二版。