曾在多个全球500强研发中心研发中心服务近17年时间,参与多个全球协作的大型研发过程,积累了丰富的研发设计及管理的实战经验。国内最早接触大数据实时分析平台的一批架构师,曾在某全球500强研发中心设计大数据平台的应用架构,及海量实时数据分析平台的架构。在Hadoop、Spark、私有云计算架构体系具有丰富的设计、原型、性能调优的实践经验。参与对Hadoop、Spark体系的源码深入分析及研究工作。
近17年从事研发管理、产品管理及高端架构设计方面的工作。具有10多款大中型产品的研发管理、设计、实施及质量管理经验,包括可口可乐GKPMS,Schlumberger Horizon(全球下一代能源勘探开发平台)Viewers,RTPM(全球实时油藏分析与管理平台),Dolphin(面向全球的中间件开发平台),中国移动BI个性化客户沟通项目, CCM- Customer CommunicationManagement(全球最大个性化客户沟通产品),Sagent(全球著名BI产品)。近17年的产品及项目的研发过程中,在多个全球协作开发的大型项目上实践过,如:大数据分析体系架构设计,基于大数据体系下的高并发架构设计,大型分布式应用系统的核心架构设计,基于领域模型的软件架构设计,大型海量数据处理系统架构设计,大型可扩展性系统架构设计,通用解耦系统架构方案设计,大型高并发系统架构设计,大型高可靠系统架构设计,大型高性能系统架构设计,基于用例的需求分析,基于功能点的项目管理过程实践,敏捷开发, 单元测试, TDD(测试驱动的开发), 持续集成,高质量代码管理,等多种先进的软件架构
课程实施
课程通过4种方式实施:
课程特色
本课程方案注重大数据环境处理的实战过程,去掉了一定量的理论,把实战的比重增大到总课时数的60%。其余40%为理论以及指导性的流程。
课程大纲
第一天 |
大数据数据分析与挖掘基础
|
Spark实时数据分析 1. 介绍计算框架Spark基本原理,架构及程序设计方式 2. Spark Streaming的实时数据应用 案例实战: 使用Spark进行商品推介系统迭代算法的实时计算 |
大数据建模与分析的主流算法与语言 Scala算法实现编程基础 Python算法实践编程基础 |
SPSSModeler进行大数据建模 1. SPSS软件常用的功能介绍 2. 数据输入;SPSS数据编辑窗口介绍 3. 数据变量定义 4. 数据的处理:变量排序、变量等级、合并档案、分割档案、选择观察变量、 5. 数据的转换:计算变量、重新编码、遗漏值的侦测与插补 基本统计分析介绍与解读:频率分配表、叙述性统计、相关分析、t检定及ANOVA |
第二天 |
大数据与机器学习的核心算法建模-营销应用 基于流行度的算法与建模分析 协同过滤算法及相似度度量模型
基于模型的算法与建模分析 混合算法应用 如何进行加权算法的分析 结果列表 模型计算结果评估 分析模型改进策略 |
大数据与机器学习的核心算法建模-重要模型 向量机建模 朴素贝叶斯建模 决策树建模 1、熟悉SPSS Modeler建模方法。 2、掌握SPSS Modeler分布图、散点图、网络图的创建方法。 3、掌握决策树C5.0决策方法。 实验:使用决策树进行银行贷款决策模型 关联规则挖掘1、熟悉关联规则归纳 实验:掌握购物篮分析的方法。 神经网络建模1、熟悉各种聚类分析方法 2、了解神经网络分析方法与过程 3、掌握异常检测的方法。 多项 Logistic 回归1、熟悉Logistic 回归。 2、掌握Modeler中Logistic 回归建模方法。 |
第三天 |
大数据自然语言处理简介 什么是自然语言处理 开发环境介绍:python 自然语言处理实战之:分词算法 自然语言处理实战之:文本分类算法 自然语言处理实战之:文本聚类算法 |
数据挖掘与机器学习 常见的数据挖掘与机器学习算法 Hadoop数据挖掘库mahout Spark数据挖掘库mllib |
Spark机器学习 11.1 机器学习基础知识 l 机器学习基础知识 l 图计算基础知识 l MLlib,以及GraphX的操作示 11.2 广义线性模型 l 逻辑回归 l 线性回归 11.3 SVM 11.4 聚类算法 l k-means l LDA l 高斯混合模型 l 聚类算法应用示例(如主题建模及地理位置聚类) 11.6 图计算模型 l GraphX进阶 l GraphX中的图算法 l 再议LDA与ALS算法 l 图模型的示例(如网络中的社团聚类) 11.7决策树与组合学习 l MLlib中的决策树 l 随机森林算法 l Gradient-BoostedTrees 11.8机器学习算法评测 l 评测方法 l Crossvalidation与Grid Search l MLlib中的实现 l 在线、离线测评方法 案例实战: 用户忠诚度与应用粘性的数据分析与设计 商品推介与商品预测分析 用户画像的分析与预测 |
大数据分析应用案例:用户画像系统的分析建模 1. 什么是用户画像系统 2. 如何构建用户画像系统使用Flume/sqoop+HDFS+HBase+Hive+MapReduce/Spark+redis构建用户标签系统 3. 用数据挖掘方式构建用户标签 4. 应用逻辑回归、聚类、分类等机器学习和数据挖掘算法构建用户标签 5. 用户画像系统应用 6. 用户画像系统在用户信用等级分级、大数据营销中、用户流失预警、潜在用户分析等方面的应用 |
应用案例2:商品推荐系统 1.什么是商品推荐系统 2.商品推介系统的详细建模案例分析 3. 商品推荐系统基本架构 4. 使用Flume+HDFS +Spark+Redis构建推荐系统 |