大数据(HadoopNoSQL等)的技术与实践

大数据(HadoopNoSQL等)的技术与实践
    马上咨询

    董西成  资深Hadoop技术实践者和研究者

    《Hadoop技术内幕:深入解析MapReduce架构设计与实现原理》和《Hadoop技术内幕:深入解析YARN架构设计与实现原理》书籍作者。拥有超过7年的Hadoop/Spark平台研发经验,曾参与商用Hadoop原型研发,以及分布式日志系统、全网图片搜索引擎、Hadoop调度器等项目的设计与研发。

    培训特点

    相对于其它专注于培训大数据技术的课程,本课程有如下特点:一是除了对各种大数据智能技术本身的原理、设计与使用方法进行全面深入的讲解以外,更重要的是对各种技术的本质与特点进行了深入的分析、比较与讨论,从而使学员对各种技术的真正适用场景能客观准确的判断;二是结合企业实际对大数据智能的概 念进行了明确的澄清;三是结合企业应用实际,介绍了各种大数据智能技术具体定位与应用规划与方法。

    目标收益

    通过该课程学习,洞悉大数据智能体系包括采集与通道(Flume、Kafka)、计算(Hadoop,Spark,Storm,NoSQL)、机器学习算法等技术的原理、架构与技术手段;结合丰富实例掌握其设计与开发方法,以及掌握如软件架构、性能调优等使用过程中的实用技巧;深入理解Hadoop,Spark,Storm,NoSQL成员的正确适用场景,了解技术最新发展动向,同时对人工智能的机器学习算法体系进行完整全面的介绍,能对大数据智能技术体系在学员企业、学员项目、学员研发中是否可用、如何定位以及如何使用做出正确判断与学习,并且对如何结合大数据智能技术规划企业数据架构得到相当的启发与收获

    培训对象

    企业中高层技术管理人员、企业技术战略决策者、软件架构师、软件研发人员与大数据技术爱好者,有大数据及海量数据管理与处理需求的企业优先

    学习基础

    企业数据架构基础知识;数据管理基础知识;关系数据库的操作与实践;大数据概念了解

    课程大纲

    主题
    授课内容

    大数据智能时代关系数据库的挑战与应对

    1. 现代数据管理技术综述

    2. 关系数据库技术的核心特征

    3. 主流关系数据库的挑战

    4. SQL数据分析方法的局限性

    大数据智能技术综述

    1. 大数据概念澄清

    2. 大数据技术家族

    3. NoSQL技术综述

    3.1最早的NoSQL---BDB

    3.2Hadoop之Hbase与Facebook之Cassandra

    3.3 MongoDB与CouchDB

    3.4 Memcached与Redis

    3.5 图形数据库Neo4j

    4. 分布式计算框架:MapReduce,MPI与参数服务器

    5. 关系数据库联邦

    6. 海量分布式文件系统

       7 大数据技术理论基础

              CAP,BASE,ACID

          8 人工智能技术综述

    存储与计算框架:Hadoop与MapReduce

    1. Hadoop技术概论

    1.1 Hadoop体系架构总论

            1.2 HDFS-工作原理与架构

            1.3 平民化的分布式计算MapReduce

            1.4 MapReduce工作原理与架构

            1.5 Hadoop数据仓库-Hive

            1.6 Hadoop NoSQL数据库-HBase

            1.7 工作流调度-Ooize

            1.8 分布式协调系统--Zookeeper

    2. Hadoop部署

    2.1 Hadoop版本介绍与选择

            2.2 Hadoop部署实践

            2.3 Hadoop安装文件构成与配置体系

            2.4 机器硬件建议配置

            2.5 系统环境配置

            2.6 基本参数配置与说明

            2.7 进程分布规划与启动

    3. 分布式文件系统HDFS实用教程

    3.1 HDFS操作

    3.2 HDFS编程—文件读写

    3.3 HDFS数据压缩

    3.4 HDFS技术要点

    4.  MapReduce实用教程

    4.1 MapReduce原理与架构

    4.2 MapReduce编程方法

    4.3 MapReduce实用技术要点

    4.4 MapReduce排序与关联

    4.5 MapReduce工作流

    4.6 MapReduce调优

    5. MapReduce2.0-YARN

    5.1 YARN的原理

    5.2 YARN设计架构

    5.3 YARN工作流程

    5.4 YARN与MapReduce1.0比较

    6. MapReduce实例讲解

    6.1普通实例

    6.2 高级实例

            6.3 MapReduce高级数据分析(时间允许时)

    7. Hadoop数据仓库Hive

    7.1 Hive编程

            7.2 Hive环境部署与搭建

            7.3 Hive工作机制

    1. Hive语法与实践

    8. 大数据采集

            8.1 日志采集:Flume

            8.2 消息发布与订阅:Kafka

    8. 其它ZooKeeper,Sqoop,Chukwa,Avro……

    Hadoop技术分析

    1. Hadoop MapReduce技术解析

    6.1关于效率 

    6.2关于扩展性 

    6.3关于可靠性与可用性 

    6.4关于与关系数据库 

    6.5关于适用的数据类型 

    6.6关于数据存储与管理 

    1. Hadoop与关系数据库
      1. MapReduce与关系数据库
      2. Hive与MPP关系数据库

    NoSQL实用教程

    1.NoSQL理论基础---CAP与BASE深入分析

    2.NoSQL实用教程

       2.1 HBase实用教程

         2.1.1 HBase原理

         2.1.2 HBase实用安装部署要点

         2.1.3 HBase数据模型

         2.1.4 HBase 索引与关联的实现

         2.1.5 HBase使用

         2.1.6HBase性能调优

         2.1.7 HBase高级设计教程---如何真正用好HBase

         2.1.8 HBase与关系数据库结合

    3. NoSQL设计实例

       3.1 HBase实现全属性查询

       3.2 HBase实现时间序列数据管理

       3.3 HBase与MapReduce结合示例

    4. Facebook Cassandra介绍

    5. MongoDB介绍

    6. 图数据库Neo4J介绍

    NoSQL技术分析

    1. NoSQL技术手段总结

    1.1 水平分割

    1.2 数据副本与读写一致性

    1. In-Memory架构

    1.4 MVCC

    1.5列存储

    1.6 COW

    2. NoSQL技术解析

    1. 关于水平扩展性

    2.2关于模式自由

    3. NoSQL与关系数据库

       3.1 理论原则分析

       3.2 逻辑模型分析

       3.3 物理模型分析

       3.4 索引、事务与关联

       3.5 使用场景定位

       3.6 企业数据体系定位

    Spark教程

       1. Spark组成与体系架构

       2. Spark原理

       3. Spark与Hadoop

       4. Scala简介

       5. Spark技术流程

    Storm教程

       1. Storm组成与体系架构

       2. Storm原理

       3. Storm技术流程

    机器学习教程

       1. 机器学习算法总述

       2. 线性回归与梯度下降

       3. 逻辑回归算法

       4. 朴素贝叶斯与生成式分类算法

       5. 随机森林与GBDT

       6. 聚类算法

       7. 深度学习

       8. 数据挖掘工程方法论

    最新技术进展

    1. 现有技术体系的不足与尴尬
    2. 新技术介绍
    3. 互联网技术体系介绍
    4. 数据管理技术发展趋势分析

    大数据技术实践分享

    1. 海量数据处理架构设计
    2. 大数据驱动与企业业务/运营
    3. 实践中的企业大数据分析技术流程

    3.1采集---各种方法的比较

    3.2存储---原始数据与业务数据提取

    3.3模型---Web分析指标体系

    3.4分析---大数据分析方法

    3.5 行动---个性化推荐

    4. 大数据与企业交易

    5. 大数据与企业交互

    5. 自已设计大数据技术体系

    大数据与企业新一代数据体系建设

    1.传统的以关系数据库为主的企业数据架构

    2.大数据时代的新一代企业数据逻辑架构

    1. 数据分类
    2. 数据分布
    3. 数据流转
    4. 数据集成
    5. 数据交换
    6. 数据分析
    7. 应用展示

    3. 新一代企业数据技术架构

    3.1逻辑架构

    3.2技术方法

    3.3物理平台

    1. 新一代企业数据架构中Hadoop/NoSQL与关系数据库的相互配合
    2. 典型场景示例