企业级大数据分析建模与机器学习最佳实践

企业级大数据分析建模与机器学习最佳实践
    马上咨询

    威  高级研发管理顾问,资深系统架构师,微软企业护航专家

    曾在多个全球500强研发中心研发中心服务近17年时间,参与多个全球协作的大型研发过程,积累了丰富的研发设计及管理的实战经验。国内最早接触大数据实时分析平台的一批架构师,曾在某全球500强研发中心设计大数据平台的应用架构,及海量实时数据分析平台的架构。在Hadoop、Spark、私有云计算架构体系具有丰富的设计、原型、性能调优的实践经验。参与对Hadoop、Spark体系的源码深入分析及研究工作。

    近17年从事研发管理、产品管理及高端架构设计方面的工作。具有10多款大中型产品的研发管理、设计、实施及质量管理经验,包括可口可乐GKPMS,Schlumberger Horizon(全球下一代能源勘探开发平台)Viewers,RTPM(全球实时油藏分析与管理平台),Dolphin(面向全球的中间件开发平台),中国移动BI个性化客户沟通项目, CCM-   Customer CommunicationManagement(全球最大个性化客户沟通产品),Sagent(全球著名BI产品)。近17年的产品及项目的研发过程中,在多个全球协作开发的大型项目上实践过,如:大数据分析体系架构设计,基于大数据体系下的高并发架构设计,大型分布式应用系统的核心架构设计,基于领域模型的软件架构设计,大型海量数据处理系统架构设计,大型可扩展性系统架构设计,通用解耦系统架构方案设计,大型高并发系统架构设计,大型高可靠系统架构设计,大型高性能系统架构设计,基于用例的需求分析,基于功能点的项目管理过程实践,敏捷开发, 单元测试, TDD(测试驱动的开发), 持续集成,高质量代码管理,等多种先进的软件架构

    课程实施

    课程通过4种方式实施:

    • 实践经验分享
    • 大型实例案例分析 
    • 深入探讨
    • 系统性理论知识梳理

    课程特色

    本课程方案注重大数据环境处理的实战过程,去掉了一定量的理论,把实战的比重增大到总课时数的60%。其余40%为理论以及指导性的流程。

    课程大纲

    第一天   
    大数据数据分析与挖掘基础
    • 数据分析基本概念
    • 数据分析算法
    • 数据分析常用的算法与指标
    • 数据分析工具
    • 数据分析流程
    • 数据分析范畴
    • 数据挖掘基本概念
    • 数据挖掘模型
    • 数据挖掘目标
    • 数据挖掘数据质量
    • 数据挖掘的9大定律
    数据挖掘发展趋势
    Spark实时数据分析
    1. 介绍计算框架Spark基本原理,架构及程序设计方式
    2. Spark Streaming的实时数据应用

    案例实战:
    使用Spark进行商品推介系统迭代算法的实时计算
    大数据建模与分析的主流算法与语言
    Scala算法实现编程基础
    Python算法实践编程基础
    SPSSModeler进行大数据建模
    1.   SPSS软件常用的功能介绍
    2.   数据输入;SPSS数据编辑窗口介绍
    3.   数据变量定义
    4.   数据的处理:变量排序、变量等级、合并档案、分割档案、选择观察变量、
    5.   数据的转换:计算变量、重新编码、遗漏值的侦测与插补
    基本统计分析介绍与解读:频率分配表、叙述性统计、相关分析、t检定及ANOVA
    第二天
    大数据与机器学习的核心算法建模-营销应用
    基于流行度的算法与建模分析
    协同过滤算法及相似度度量模型
    • 基于用户的协同过滤推荐
    • 基于物品的协同过滤推荐
    • 相似度的计算
    • 欧几里德距离
    • 皮尔森相关系数
    • Cosine 相似度
    • 相似邻居的计算
    • 调整余弦相似度
    基于内容的算法与建模分析
    基于模型的算法与建模分析
    混合算法应用
    如何进行加权算法的分析
    结果列表
    模型计算结果评估
    分析模型改进策略
    大数据与机器学习的核心算法建模-重要模型
    向量机建模
    朴素贝叶斯建模
    决策树建模
    1、熟悉SPSS Modeler建模方法。
    2、掌握SPSS Modeler分布图、散点图、网络图的创建方法。
    3、掌握决策树C5.0决策方法。
    实验:使用决策树进行银行贷款决策模型
    关联规则挖掘
    1、熟悉关联规则归纳
    实验:掌握购物篮分析的方法。
    神经网络建模
    1、熟悉各种聚类分析方法
    2、了解神经网络分析方法与过程
    3、掌握异常检测的方法。
    多项 Logistic 回归
    1、熟悉Logistic 回归。
    2、掌握Modeler中Logistic 回归建模方法。
    第三天
    大数据自然语言处理简介
    什么是自然语言处理
    开发环境介绍:python
    自然语言处理实战之:分词算法
    自然语言处理实战之:文本分类算法
    自然语言处理实战之:文本聚类算法
    数据挖掘与机器学习
    常见的数据挖掘与机器学习算法
    Hadoop数据挖掘库mahout
    Spark数据挖掘库mllib
    Spark机器学习
    11.1 机器学习基础知识
            l 机器学习基础知识
            l 图计算基础知识
            l MLlib,以及GraphX的操作示
    11.2 广义线性模型
            l 逻辑回归
            l 线性回归
    11.3 SVM
    11.4 聚类算法
            l k-means
            l LDA
            l 高斯混合模型
            l 聚类算法应用示例(如主题建模及地理位置聚类)
    11.6 图计算模型
            l GraphX进阶
            l GraphX中的图算法
            l 再议LDA与ALS算法
            l 图模型的示例(如网络中的社团聚类)
    11.7决策树与组合学习
            l MLlib中的决策树
            l 随机森林算法
            l Gradient-BoostedTrees
    11.8机器学习算法评测
            l 评测方法
            l Crossvalidation与Grid Search
            l MLlib中的实现
            l 在线、离线测评方法
    案例实战:
    用户忠诚度与应用粘性的数据分析与设计
    商品推介与商品预测分析
    用户画像的分析与预测
    大数据分析应用案例:用户画像系统的分析建模
    1. 什么是用户画像系统
    2. 如何构建用户画像系统使用Flume/sqoop+HDFS+HBase+Hive+MapReduce/Spark+redis构建用户标签系统
    3. 用数据挖掘方式构建用户标签
    4. 应用逻辑回归、聚类、分类等机器学习和数据挖掘算法构建用户标签
    5. 用户画像系统应用

    6. 用户画像系统在用户信用等级分级、大数据营销中、用户流失预警、潜在用户分析等方面的应用
    应用案例2:商品推荐系统
    1.什么是商品推荐系统
    2.商品推介系统的详细建模案例分析
    3. 商品推荐系统基本架构
    4. 使用Flume+HDFS +Spark+Redis构建推荐系统