Big Data Technical System

《大数据技术体系详解:原理、架构与实践》(点击查看京东网网址是一本 从数据收集、数据存储、资源管理与协调、计算引擎、数据分析以及数据可视化等六个层次全面介绍了大数据技术体系中所有核心技术与原理。不仅让读者从宏观角度 全面了解大数据技术,也可以从微观角度了解实现细节。

该书包含以下内容:

  • 数据收集技术,主要涉及关系型数据收集工具Sqoop与Canel,非关系型数据收集系统Flume以及分布式消息队列Kafka。
  • 数据存储技术,涉及数据存储格式,分布式文件系统以及分布式数据库三部分,包括Thrift、Protobuf、Avro、HDFS和HBase等。
  • 分布式协调与资源管理技术,涉及资源管理和调度系统YARN以及资源协调系统Zookeeper。
  • 计算引擎技术,涉及批处理、交互式处理以及流式实时处理三类引擎,包括MapReduce、Spark、Impala/Presto、Storm等常用技术。
  • 数据分析技术,涉及基于数据分析语言HQL与SQL,大数据统一编程模型及机器学习库等
  • 应用案例,包括Lambda架构、基于大数据技术的数据仓库、用户行为实时统计系统。

更多更新技术,可通过阅读作者的博客学习,链接是 董的博客

该书不会涉及(有些可能会简单提及)以下内容:

如果你是Hadoop初学者,推荐阅读Hadoop入门级书籍《Hadoop权威指南》、《Hadoop实战》、《Hadoop Operation》等

如果你是Hadoop中级或者高级学者,推荐《Hadoop技术内幕:深入解析YARN架构设计与实现原理》

你也可以访问作者的技术博客董的博客了解更多大数据技术知识。

微信公众号为hadoop-123,专注大数据中台技术分享,涉及大数据架构(hadoop/spark/flink),数据平台(数据交换、服务、治理、机器学习、用户画像)和数据产品(BI、AB测试、数据分析)等,也会分享最新技术,大数据职位信息,技术交流聚会、讲座以及会议等。 。

二维码如下,欢迎扫描加入(目前粉丝数约30000):

hadoop123二维码