人工智能-Python+Spark数据挖掘实战大纲

人工智能-Python+Spark数据挖掘实战大纲
    马上咨询


    尹老师  资深软件架构师,移动云计算专家

    多年从事大数据、云计算研发工作经验,数学博士,北航移动云计算硕士,资深软件架构师,移动云计算专家,主要研究方向包括云计算、大数据、移动开发、互联网营销、电子商务、项目管理等;某大型知名企业首席架构,负责PaaS平台研发。

    IT从业近二十年,秉承理论与实践相结合,在学习中实践,在实践中学习,积累了丰富的理论与实践经验,并且乐于将自己的经验分享。尹老师具有敏锐的目光与头脑,发现并集成整合社会资源,为企业节省资源并创造价值,达到为合作伙伴创收的目的。曾为多家国内知名企业提供培训与咨询,包含阿里集团、阿尔卡特朗讯、中国移动、中国电信、当当网、中石油、中航国际等。拥有大数据、大流量、高并发、分布式的大型网站架构和设计经验。曾主导过多个私有云建设项目,早些年也主导过ERP、CMS等软件项目,这些项目中包含多个数百万、上千万的大型项目。

    在工作中研究新技术、新框架、及时更新知识体系,并长期坚持编写架构核心代码。在技术平台方面,善于Hadoop、Spark、Docker、OpenStack、Storm等技术平台的应用与运维。深入理解Hadoop、HDFS、HBase、MapReduce、Zookeeper、Hive、Sqoop、BigTable 等大数据技术和开源框架理论。对于云计算体系有深刻认识,及独到的见解,如OpenStack的技术架构、安装部署、运维等。在移动云计算方面,善于设计与建设云计算体系;也善于移动云计算相关的咨询与培训。在项目管理方面,善于使用敏捷项目管理方法,把客户的需求变更作为常态,作为软件架构设计的一部分,减少需求变更带来的返工;善于捕捉、挖掘、分析客户需求,为用户提供满意的产品,项目经历:贵州省政府云呼叫中心建设项目、广东发展银行电营、运维大数据分析项目、中石油工程设计西南分公司云计算项目评审委员、中石油大数据挖掘项目,电商库存预测大数据分析项目、大型ERP、电子商务、CRM、电子政务等多个项目。

    2015年到2018年着重在AI人工智能方向研究,曾给平安,中国银行培训过。

    课程简介

    本课程是关于Python+Spark与深度学习实战的一门课程。本课程讲解Python+Spark中各种概念、操作和使用方法,针对Python+Spark的基础知识,在传统数据分析中应用、CNN和RNN都进行详细讲解,并且给出了丰富的深度学习模型实战。

    目标收益

    通过本课程的学习,学员们能够在短时间内掌握深度学习原理,学会使用Python+Spark构建深度学习网络的技巧和方法,能够在图像识别、序列预测等深度学习项目上迅速入手。

    培训对象

    本课程适合从事数据分析、数据挖掘、大数据分析师和算法工程师等相关方面工作的学员。

    课程内容

    模块一:数据挖掘入门介绍

    • 人工智能概述
    • 什么是机器学习
    • 机器学习算法分类
    • 机器学习开发流程
    • 学习框架和资料介绍
    • 可用数据集
    • sklearn数据集使用

    模块二:数据挖掘介绍

    • 数据挖掘技术介绍
    • 数据挖掘应用场景介绍
    • 数据挖掘常用的算法介绍
    • 数据挖掘应用架构
    • 数据挖掘流程CRISP-DM模型介绍
    • 数据挖掘流程方法论介绍

    模块三:数据特征工程构建

    • 数据特征工程构建方法论
    • 字典特征抽取
    • 文本特征抽取CountVectorizer
    • 中文文本特征抽取
    • 文本特征抽取TfidfVevtorizer
    • 数据预处理-归一化
    • 数据预处理-标准化
    • 什么是降维
    • 删除低方差特征与相关系数
    • instacart降维案例
    • 主成分分析

    模块四:核心数据挖掘算法详解和实战

    • 转换器与预估器
    • KNN算法
    • 模型选择与调优
    • 朴素贝叶斯算法对文本分类
    • 朴素贝叶斯算法原理
    • 认识决策树
    • 决策树算法对鸢尾花分类
    • 泰坦尼克号乘客分类案例流程分析
    • 泰坦尼克号案例代码实现
    • 随机森林算法原理和调优

    模块五:模型优化实战

    • 损失函数
    • 线性模型
    • 优化方法1-正规方程
    • 梯度下降优化器
    • 正规方程与梯度下降对比
    • 优化方法2-梯度下降
    • 逻辑回归原理
    • 岭回归
    • 过拟合与欠拟合
    • 模型保存与加载
    • ROC曲线与AUC指标
    • 精确率、召回率、F1-score
    • 逻辑回归分类案例实战
    • 聚类的模型评估
    • KMeans算法原理

    模块六:Spark使用实战

    • Spark的编程模型
    • Spark编程模型解析
    • Partition实现机制
    • RDD的特点、操作、依赖关系
    • Transformation RDD详解
    • Action RDD详解
    • Spark的累加器详解
    • Spark的广播变量详解
    • Spark容错机制
    • lineage和checkpoint详解
    • Spark的运行方式
    • Spark的Shuffle原理详解
    • —Sort-Based原理
    • —Hash-Based原理
    • Spark3.0的新特性
    • Spark DataFrame和DateSet介绍

    模块七:Spark SQL原理和实践

    • Spark SQL原理
    • Spark SQL的Catalyst优化器
    • Spark SQL内核
    • Spark SQL和Hive
    • DataFrame和DataSet架构
    • Fataframe、DataSet和Spark SQL的比较
    • SparkSQL parquet格式实战
    • Spark SQL的实例和编程
    • Spark SQL的实例操作demo
    • Spark SQL的编程

    模块八:Python+Spark数据挖掘实战

    • PySpark的原理和安装
    • PySpark特征工程构建
    • 基于PySpark实战决策树、贝叶斯、随机森林、聚类等
    • PySpark的优化