大数据建模与分析挖掘应用实战

大数据建模与分析挖掘应用实战
    马上咨询

    刘刚  云平台架构中心,系统架构设计师  

    毕业于大连理工大学,本科,有多年大数据分析类大型项目的架构实施经验,目前任职TD,先后服务于北京大学软件研究所、高德软件、阿里巴巴和Teradata,实施过基于Hadoop平台PageRank算法的实现、高德大数据中心的建设(300+的Hadoop集群开发、优化、运维和提供服务)、阿里巴巴OPDS大数据平台维护、内蒙移动大数据平台试点(Hadoop)、台湾远传Hadoop平台开发和优化、兰州银行大数据平台的架构和开发(Hadoop)、招商银行的大数据咨询规划和设施。在大数据架构、数据集成、数据挖掘/机器学习、实时推荐和营销方面有丰富经验,了解大数据在互联网的使用场景。

    • 编写并出版《Hadoop应用开发技术详解》图书,销售10000+册——机械工业出版社(2014-01)
    • 专利《海量数据基于记录级别的容错》
    • 在infoQ和CSDN等技术论坛都有采访和发表过文章
    • 2015 Chinahadoop summit 的特约演讲嘉宾

    课程信息

    大数据建模与分析挖掘技术已经逐步地应用到新兴互联网企业(如电子商务网站、搜索引擎、社交网站、互联网广告服务提供商等)、银行金融证券企业、电信运营等行业,给这些行业带来了一定的数据价值增值作用。

    培训特色

    本次课程面向有一定的数据分析挖掘算法基础的工程师,带大家实践大数据分析挖掘平台的项目训练,系统地讲解数据准备、数据建模、挖掘模型建立、大数据分析与挖掘算法应用在业务模型中,结合主流的Hadoop与Spark大数据分析平台架构,实现项目训练。结合业界使用最广泛的主流大数据平台技术,重点剖析基于大数据分析算法与BI技术应用,包括分类算法、聚类算法、预测分析算法、推荐分析模型等在业务中的实践应用,并根据讲师给定的数据集,实现两个基本的日志数据分析挖掘系统,以及电商(或内容)推荐系统引擎。本课程采用技术原理与项目实战相结合的方式进行教学,在讲授原理的过程中,穿插实际的系统操作,本课程讲师也精心准备的实际的应用案例供学员动手训练。

    目标收益

    • 本课程让学员充分掌握大数据平台技术架构、大数据分析的基本理论、大数据分析挖掘应用实战技能、国内外主流的大数据分析与BI商业智能分析解决方案、以及大数据分析在搜索引擎、广告服务推荐、电商数据分析、金融客户分析方面的应用案例。
    • 本课程强调主流的大数据分析挖掘算法技术的应用和分析平台的实施,让学员掌握主流的基于大数据Hadoop和Spark、R的大数据分析平台架构和实际应用,并用结合实际的生产系统案例进行教学,掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及商业和开源的数据分析产品加上Hadoop平台形成大数据分析平台的应用剖析。

    学员基础

    本课程基本的实践环境是开源大数据技术,JDK1.8,Hadoop 2.7.3,Spark 2.2.0。学员需要准备的电脑最好是i5及以上CPU,8GB及以上内存,硬盘空间预留50GB(可用移动硬盘),基本的大数据分析平台所依赖的软件包和依赖库等,讲师已经提前部署在虚拟机镜像(VMware镜像),学员根据讲师的操作任务进行实践。

    课程大纲

    数据建模概念
    为什么要数据建模
    数据建模解决哪些问题
    什么是逻辑数据模型
    模型设计的流程
    逻辑模型设计
    物理模型设计
    数据建模的工具介绍
    基于大数据平台分析和挖掘工具
    业界主流的基于Hadoop和Spark的大数据分析挖掘项目解决方案
    业界数据仓库与数据分析挖掘平台软件工具
      Hadoop数据仓库工具Hive、Tez、Kylin和Presto
      Spark实时数据仓库工具SparkSQL
      Spark机器学习与数据分析挖掘工具MLlib和SparkR
    大数据分析挖掘项目的实施步骤
    数据集成
    日志数据解析和导入导出到数据仓库的操作训练
    从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库
    数据分析挖掘模块从大型的集中式数据仓库中访问数据,一个数据仓库面向一个主题,构建两个数据仓库
    同一个数据仓库中的事实表数据,可以给多个不同类型的分析挖掘任务调用
    去除噪声
    HIVE数据仓库集群的多维分析建模应用实践
    基于Hadoop的大型分布式数据仓库在行业中的数据仓库应用案例
      Hive数据仓库集群的平台体系结构、核心技术剖析
      Hive Server的工作原理、机制与应用
      Hive数据仓库集群的安装部署与配置优化
      Hive应用开发技巧
      Hive SQL剖析与应用实践
      Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧
      Hive数据仓库报表设计
    将原始的日志数据集,经过整理后,加载至Hadoop + Hive数据仓库集群中,用于共享访问
    R语言介绍
    R语言介绍
      R语言常用的分析库介绍
      R语言开发环境介绍
      R分析分析和挖掘案例实战
      Spark和R的整合
    聚类分析建模与挖掘算法的实现原理和技术应用
    聚类分析建模与算法原理及其在Spark MLlib中的实现与应用,包括:
      a)Canopy聚类(canopy clustering)
      b)K均值算法(K-means clustering)
      c)模糊K均值(Fuzzy K-means   clustering)
      d)EM聚类,即期望最大化聚类(Expectation Maximization)
      e)以上算法在Spark MLib中的实现原理和实际场景中的应用案例。
      Spark聚类分析算法程序示例
    分类分析建模与挖掘算法的实现原理和技术应用
    分类分析建模与算法原理及其在Spark MLlib中的实现与应用,   包括:
      a.Spark决策树算法实现
      b.逻辑回归算法(logistics regression)
      c.贝叶斯算法(Bayesian与Cbeyes)
      d.支持向量机(Support vector machine)
      e.以上算法在Spark MLlib中的实现原理和实际场景中的应用案例。
      Spark客户资料分析与给用户贴标签的程序示例
      Spark实现给商品贴标签的程序示例
      Spark实现用户行为的自动标签和深度技术
    推荐分析挖掘模型与算法技术应用
    推荐算法原理及其在Spark MLlib中的实现与应用,包括:
      a)Spark协同过滤算法程序示例
      b)Item-based协同过滤与推荐
      c)User-based协同过滤与推荐
    交叉销售推荐模型及其实现
    回归分析模型与预测算法
    利用线性回归(多元回归)实现访问量预测
    利用非线性回归预测成交量和访问量的关系
    基于SparkR实现回归分析模型及其应用操作
      Spark回归程序实现异常点检测的程序示例
    Spark Graphx数据挖掘
    Spark Graphx介绍
      GraphxFrame介绍
    复杂社交网落分析实战
    图分析实战