毕业于大连理工大学,本科,有多年大数据分析类大型项目的架构实施经验,目前任职TD,先后服务于北京大学软件研究所、高德软件、阿里巴巴和Teradata,实施过基于Hadoop平台PageRank算法的实现、高德大数据中心的建设(300+的Hadoop集群开发、优化、运维和提供服务)、阿里巴巴OPDS大数据平台维护、内蒙移动大数据平台试点(Hadoop)、台湾远传Hadoop平台开发和优化、兰州银行大数据平台的架构和开发(Hadoop)、招商银行的大数据咨询规划和设施。在大数据架构、数据集成、数据挖掘/机器学习、实时推荐和营销方面有丰富经验,了解大数据在互联网的使用场景。
课程信息
大数据建模与分析挖掘技术已经逐步地应用到新兴互联网企业(如电子商务网站、搜索引擎、社交网站、互联网广告服务提供商等)、银行金融证券企业、电信运营等行业,给这些行业带来了一定的数据价值增值作用。
培训特色
本次课程面向有一定的数据分析挖掘算法基础的工程师,带大家实践大数据分析挖掘平台的项目训练,系统地讲解数据准备、数据建模、挖掘模型建立、大数据分析与挖掘算法应用在业务模型中,结合主流的Hadoop与Spark大数据分析平台架构,实现项目训练。结合业界使用最广泛的主流大数据平台技术,重点剖析基于大数据分析算法与BI技术应用,包括分类算法、聚类算法、预测分析算法、推荐分析模型等在业务中的实践应用,并根据讲师给定的数据集,实现两个基本的日志数据分析挖掘系统,以及电商(或内容)推荐系统引擎。本课程采用技术原理与项目实战相结合的方式进行教学,在讲授原理的过程中,穿插实际的系统操作,本课程讲师也精心准备的实际的应用案例供学员动手训练。
目标收益
学员基础
本课程基本的实践环境是开源大数据技术,JDK1.8,Hadoop 2.7.3,Spark 2.2.0。学员需要准备的电脑最好是i5及以上CPU,8GB及以上内存,硬盘空间预留50GB(可用移动硬盘),基本的大数据分析平台所依赖的软件包和依赖库等,讲师已经提前部署在虚拟机镜像(VMware镜像),学员根据讲师的操作任务进行实践。
课程大纲
数据建模概念 |
为什么要数据建模 数据建模解决哪些问题 什么是逻辑数据模型 模型设计的流程 逻辑模型设计 物理模型设计 数据建模的工具介绍 |
基于大数据平台分析和挖掘工具 |
业界主流的基于Hadoop和Spark的大数据分析挖掘项目解决方案 业界数据仓库与数据分析挖掘平台软件工具 Hadoop数据仓库工具Hive、Tez、Kylin和Presto Spark实时数据仓库工具SparkSQL Spark机器学习与数据分析挖掘工具MLlib和SparkR 大数据分析挖掘项目的实施步骤 |
数据集成 |
日志数据解析和导入导出到数据仓库的操作训练 从原始搜索数据集中抽取、集成数据,整理后形成规范的数据仓库 数据分析挖掘模块从大型的集中式数据仓库中访问数据,一个数据仓库面向一个主题,构建两个数据仓库 同一个数据仓库中的事实表数据,可以给多个不同类型的分析挖掘任务调用 去除噪声 |
HIVE数据仓库集群的多维分析建模应用实践 |
基于Hadoop的大型分布式数据仓库在行业中的数据仓库应用案例 Hive数据仓库集群的平台体系结构、核心技术剖析 Hive Server的工作原理、机制与应用 Hive数据仓库集群的安装部署与配置优化 Hive应用开发技巧 Hive SQL剖析与应用实践 Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧 Hive数据仓库报表设计 将原始的日志数据集,经过整理后,加载至Hadoop + Hive数据仓库集群中,用于共享访问 |
R语言介绍 |
R语言介绍 R语言常用的分析库介绍 R语言开发环境介绍 R分析分析和挖掘案例实战 Spark和R的整合 |
聚类分析建模与挖掘算法的实现原理和技术应用 |
聚类分析建模与算法原理及其在Spark MLlib中的实现与应用,包括: a)Canopy聚类(canopy clustering) b)K均值算法(K-means clustering) c)模糊K均值(Fuzzy K-means clustering) d)EM聚类,即期望最大化聚类(Expectation Maximization) e)以上算法在Spark MLib中的实现原理和实际场景中的应用案例。 Spark聚类分析算法程序示例 |
分类分析建模与挖掘算法的实现原理和技术应用 |
分类分析建模与算法原理及其在Spark MLlib中的实现与应用, 包括: a.Spark决策树算法实现 b.逻辑回归算法(logistics regression) c.贝叶斯算法(Bayesian与Cbeyes) d.支持向量机(Support vector machine) e.以上算法在Spark MLlib中的实现原理和实际场景中的应用案例。 Spark客户资料分析与给用户贴标签的程序示例 Spark实现给商品贴标签的程序示例 Spark实现用户行为的自动标签和深度技术 |
推荐分析挖掘模型与算法技术应用 |
推荐算法原理及其在Spark MLlib中的实现与应用,包括: a)Spark协同过滤算法程序示例 b)Item-based协同过滤与推荐 c)User-based协同过滤与推荐 交叉销售推荐模型及其实现 |
回归分析模型与预测算法 |
利用线性回归(多元回归)实现访问量预测 利用非线性回归预测成交量和访问量的关系 基于SparkR实现回归分析模型及其应用操作 Spark回归程序实现异常点检测的程序示例 |
Spark Graphx数据挖掘 |
Spark Graphx介绍 GraphxFrame介绍 复杂社交网落分析实战 图分析实战 |