基于工业领域的大数据技术与数据挖掘分析

基于工业领域的大数据技术与数据挖掘分析
    马上咨询

    俞志鹏  资深数据库专家 兼 BI 主管

    14 年的行业经验(电信、移动、互联网、证券行业),曾先后就职于 3 家上市公司,主要负责系统架构设计、数据库管理、数据仓库规划设计、数据挖掘、项目管理等工作,资深 BI 主管,资深数据库(DBA)专家,资深数据分析专家,有 11 年以上大型数据库系统架构规划设计经验,精通产品规划、产品设计、产品研发及软件设计模式,有丰富的业务模型设计、数据分析经验,具有行业数据仓库建设、数据质量管理以及信息统计方面的成功经验;精通数据挖掘工具 SPSS,数据库建模工具 Power Designer。

    培训特色

    本课程通过了解当前数据增长,出现海量数据的情况下,我们需要用到大数据的数据分析技术,同时认识在工业行业下数据分析和数据挖掘的特点,主要介绍了大数据的相关思想及相关技术和应用案例,ETL(数据如何抽取、采集、清洗、转换和加载)的一些经验和注意事项及数据库优化设计的一些经验和案例分享,同时把大数据的Hadoop存储和计算的实践做了相应的介绍和实践,并深入介绍了数据挖掘的实际应用技术如何落地,包括数据分析方法、案例以及数据挖掘中的关联分析技术、分类和预测技术、聚类分析技术等。解释了如何将数据挖掘应用于解决实际问题,从而使你能将数据挖掘技术应用于自己的实际工作中去。课程还结合工业、互联网及运营商等行业的例子着重介绍了数据挖掘模型的建立与测试,以及数据挖掘结果的解释与验证以及数据分析和数据挖掘在相关行业的应用实例等内容。本课程不是简单的数据挖掘的概念讲解,把技术、案例、问题结合起来,把理论实践化,让学者能深入体会数据挖掘的应用。

    目标收益

    通过本课程的教学,使学员充分了解和认识大数据的相关知识(大数据的应用范围及相关技术思想),同时学习数据的抽取、清洗,转换和加载的过程思想和数据库优化经验,学会用主流的数据挖掘软件完成数据挖掘建模任务,使学员掌握数据挖掘方法论CRISP-DM的本质。通过几个具体的、典型的数据挖掘案例,使学员在掌握这些案例所用的技巧的同时,充分理解数据挖掘的方法论,实现举一反三的效果,提高学员分析问题解决问题的实际能力。

    课程大纲

    第一部分大数据知识进阶
    1.大数据的本质
        海量非结构化数据本身+处理方法
    2.大数据为什么重要及大数据带来的机遇
       决定了公司是否有未来和业务可延伸范围
    3.对大数据的深层理解
    大数据的组成及特点介绍
    4.大数据的相关技术与应用案例
    5.大数据专题可能的演进路径
    第二部分:数据分析进阶—结合制造行业的例子分析说明
    1.认识数据分析:
       1)数据分析的含义
       2)数据分析主要做什么?
    2.为什么要学习做好数据分析
       1)从数据分析的描述问题、对比问题、分析问题 到最后解决问题说明为什么要做好
       2)通过案例说明一般人员与数据分析师的区别
    3.数据分析的误区和分析的关键
    4.数据分析的6个步骤,3大方向(理清思路,寻找答案,观点表达)
         步骤1:需求明确--理清思路
         步骤2:数据收集--理清思路
         步骤3:数据处理--寻找答案
         步骤4:数据分析--寻找答案
         步骤5:数据展示--观点表达   
         步骤6:报表撰写--观点表达
       分别对以上6个步骤以案例的方式详细说明。
    方式:结合工业公司的数据分析项目,学习怎样将数据分析的技能与具体业务项目结合起来应用于实际的工作之中

    第三部分:ETL(数据收集、加工、转换和加载)及数据库性能优化
    1、     结合案例说明做好ETL的前提和原则
    ETL定义及目标
    ETL前提
    ETL原则
    2、     ETL过程介绍
    数据抽取:数据来源、抽取方式、抽取效率、抽取策略
    数据清洗:清洗规则(补缺、替换、格式化、主外键等)
    数据转换:转换规则(合并、拆分、行列互换、排序、数据验证、实现方式等)
    数据加载:时戳、日志表、全表对比、全表删除插入等
    案例及实践举例
    3、   ETL特性主要从以下特性及案例说明:
    1)稳定性:如何保证稳定性?案例
    2)安全性:安全性需要注意什么?案例
    3)可扩展性:扩展性的考虑对象有哪些?案例
    4)健壮性:ETL的健壮性的关注点案例
    5)可维护性:ETL的可维护性需要具备哪些条件?案例
    6)高可用性:高可用性的综合决定因素有哪些?案例
    4、海量数据库物理设计
    包括:索引、多维索引、物化视图、分区表、压缩、数据库分区、表空间、硬件规划等
    第四部分:基于大数据的HADOOP架构及开发
    1、Hadoop分布式基础(如何考虑和设计数据存储及运算平台)   
    2、Hadoop安装部署
    3、Hadoop管理操作
    4、Hadoop组成
    5、MapReduce开发初步
    实践:HADOOP集群模拟及结合HADOOP的开发实践,把工作中的案例结合大数据的存储和计算应用来实践。
    第五部分:数据挖掘进阶
    1、数据挖掘的思想
    数据挖掘基本思想
    数据挖掘历史发展进程
    数据挖掘主要功能
    数据挖掘的发展趋势
    2、数据挖掘方法论
    CRISP-DM
    SEMMA
    3、数据处理过程
    变量和数据
    变量的分类及类型
    数据的质量
    数据理解过程
    数据准备过程
    第六部分:数据挖掘及数据分析技术
    1.数据挖掘主要分析方法:
    1.聚类分析(Clustering)
    2.分类分析(Classification)
    3.关联分析(Association)
    4.预测分析(Prediction)
    5.回归分析
    6.相关分析
    7.数据比较分析
    8.数据挖掘的可视化
    2.数据挖掘的实施
    3.分析图形:正态性检验描述性统计箱型图、区间图、时序图介绍
    4.数据挖掘的关键技术:数据预处理
    5.数据挖掘效果的评估
    实践:SPSS结合相应的分析算法及展示图形
    第七部分:构建据挖掘分析体系
    1、分析团队建设
    2、分析工作管理
    3、数据分析核心能力建设
    4、分析工作与业务协同
    第八部分.数据挖掘应用和实践
    1.数据挖掘及管理经验
    2.数据挖掘应用分析
    2.1客户行为与潜在客户分析
    2.2   用户信用度分析
    2.3趋势预测
    2.4新产品交叉营销分析
    3.结合业务场景需求,进行数据挖掘实践(手把手学习数据挖掘实践)
    1.客户细分聚类分析实践
    2.购物篮的交叉销售分析
    3.防欺诈挖掘分析
    4.对销售业务的预测分析
    5.客户流失预测挖掘分析
    以上涉及当下主流的聚类、相关、决策树、神经网络及回归分析等

    (结合SPSS软件)
    实践:内容包括从设计->形成模型->应用.   
    第九部分数据挖掘工具及未来研究的方向和热点
    1.几种数据挖掘工具比较
    2.典型工具介绍及使用范围
    3.如何选择数据挖掘工具
    4.数据挖掘的方向和热点