大数据平台自动化运维

大数据平台自动化运维
    马上咨询

    董西成  资深Hadoop技术实践者和研究者

    《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》书籍作者。拥有超过7年的Hadoop/Spark平台研发经验,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计与研发。

    课程简介

    当前,我国已经进入大数据时代,在这样的时代背景下,以Hadoop和Spark为基础的大数据应用也逐渐深入,正在从互联网企业,逐渐拓展到电信,金融,政府,医疗这些传统行业。目前Hadoop和Spark应用场景已广泛应用于日志存储、查询和非结构化数据处理等大数据应用领域,随着Hadoop和Spark技术的不断成熟以及生态系统相关产品的完善,包括Hadoop和Spark对SQL不断加强的支持,以及主流商业软件厂商对Hadoop和Spark支持的不断增强,必定会带动Hadoop 和Spark渗透到越来越多的应用场景中。

    培训特色

    越来越多的行业用户开始重视并启动大数据相关的项目。而在大数据领域的众多技术中,最受关注的是衍生于开源平台的Hadoop和Spark生态系统。Hadoop从2006 年诞生至今已经超10年时间。整个生态系统变得比以往更加丰富,无论是在开源领域,商业软件厂商或是硬件厂商,都开始推出基于Hadoop 的相关产品。Hadoop之所以受到如此的关注,主要原因在于它支持用户在低价的通用硬件平台上实现对大数据集的处理和分析,在某种程度上替代了传统数据处理所需的昂贵 的硬件设备和商业软件。本课程将全面剖析大数据自动化运维的实战经验和技巧,帮助大数据平台管理和运维工程师轻松运维千节点规模的大数据集群。本课程采用循序渐进的课程讲授方法,首先讲解大数据基本特点以及大数据运维系统构成,接着依次剖析大数据七层架构中每层的运维经验与技巧,最后总结运维千节点集群的常见问题及解决方案。

    目标收益

    本课程将为大家全面而又深入的介绍Hadoop和Spark平台的运维实践经验,包括自动化运维、管理、监控以及报警平台的构建经验。通过本课程实践,帮助学员对大数据运维系统有一个清晰明了的认识;掌握常用的大数据运维工具和系统;了解每个大数据系统的特点以及运维实践。

    培训对象

    各类 IT/软件企业和研发机构的大数据工程师以及运维工程师。对于怀有大数据平台管理和运维疑问和问题,需要梳理解答的团队和个人,效果最佳。

    学员基础

    学员学习本课程应具备下列基础知识: 1)了解Java语言; 2) 了解Linux系统; 3)数据挖掘基础

    课程大纲

    第一天
    大数据运维系统基础
    大数据架构概述

    1. 大数据技术特点
    剖析开源、社区模式、更新快等特点
    2. 大数据六层架构
    介绍大数据系统基本架构
    3. Hadoop与Spark生态系统概述以及版本演化
    概要介绍Hadoop与Spark生态系统及其版本演化历史
    大数据自动化运维挑战
    1. 大规模集群
    2. 复杂的软件栈
    3. 问题的复杂性(操作系统、网络、软件、应用程序及用户)
    大数据运维体系
    1. 大数据运维系统特点
    2. 大数据运维系统构成
    包括自动化部署、自动化配置管理、监控、报警、自动审批系统(存储空间审核、计算资源审核)等
    大数据运维常用技术栈
    1.Linux机器资源监控与报警
    ganglia与nagios
    2. 常用linux命令
    top、free、sar、iostat、nmon、jstack、ssh、rsync等
    3. Java基础
    JVM、内存管理、GC调优
    4. 用户管理
    LDAP系统
    5. 自动化安装部署
    6. ambari、cloudera manager等
    Linux系统基本配置
    1. 大数据系统对linux要求
    2. 大数据系统常见linux配置
    第二天
    数据收集与存储系统运维、分布式数据收集系统运维
    1.flume与sqoop基本架构与原理
    介绍如何使用flume和sqoop两个系统将外部流式数据(比如网站日志,用户行为数据等)、关系型数据库(比如MySQL、Oracle等)中的数据导入Hadoop中进行分析和挖掘
    2. Flume与sqoop运维
    分布式存储系统运维
    1.HDFS 原理、特性与基本架构
    2 介绍HDFS原理与架构
    3 HDFS运维
    4用户管理
    5存储空间管理(目录组织方式、份额设置等)
    6 HDFS冷热数据分析与优化
    7 NameNode管理
    8 动态增加新的结点
    9 尝试恢复丢失的数据块
    关键参数设置(垃圾桶、GC等)
    10 HBase原理与基本架构
    11 介绍HBase应用场景、原理和架构
    12 HDFS运维
    13 表管理
    14 常见参数调优
    第三天 
    资源管理系统运维、资源管理系统YARN基础
    1YARN产生背景及原理
    2 YARN基本架构
    3 YARN资源调度器
    4 以YARN为核心的生态
    资源管理系统YARN运维
    1. 参数配置与调优
    2. 用户管理
    3. 资源池划分
    4. 资源监控
    分布式协调服务Zookeeper
    1.Zookeeper产生背景
    2. Zookeeper基本架构
    3. Zookeeper设计原理
    4. Zookeeper安装部署及运维
    5 参数配置与调优
    第四天
     分布式计算框架运维、分布式计算框架概述
    1. 批处理计算框架MapReduce与Spark
    2. 交互式分析框架Presto与Impala
    3. 流式计算框架Storm与SparkStreaming
    分布式计算框架(应用程序)运维
    1. 批处理应用监控指标
    2.交互式框架运维实践
    3. 流式计算框架运维实战
    总结:大规模大数据集群的运维新挑战与应对方案
    1.大规模集群新挑战
    2.大规模集群自动化运维系统