井源 曾任小米科技运维总监
- 2006~2012 百度运维部 T7运维架构师 技术经理
- 2012~至今 小米运维部 运维总监
课程信息
面对大规模用户突发请求,而在系统达到瓶颈时无法快速扩容?一个新功能上线从测试到正式上线可能需要经历数十小时甚至高达数周时间?一次服务器上线、重装、配置服务都需要经历漫长的等待?如果业务需要一次性上线几百台服务器,该怎么办? 传统的运维常常会遇到以下难题:
- 缺少大规模运维经验,摸着石头过河;
- 缺少系统整体规划,进行到一半才想起来;
- 缺少必要的规范,面对不同的需求总是一味着满足对方;
- 对工具的掌握与合理利用程度不够深入;
有效解决以上难题是一个系统工程,不仅仅是一个工具的运用。自动化运维包括三个重要系统:命令执行系统、配置管理系统、监控报警系统。而其它基础系统又包括:系统自动安装系统、资产管理系统、持续集成系统、自动化部署系统、变更管理系统、故障管理系统、智能数据中心。课程中介绍的每个系统、每个系统所运用的技术、以及每个工具背后都是大量项目实践的总结,都有讲师亲身经历的“自动化运维故事”。
目标收益
该课程使学员:
- 熟悉业界主流的自动化运维体系;
- 掌握最流行系统安装软件Cobbler的用法;
- 掌握最流行命令执行软件SaltStack(ansible)的用法;
- 掌握最流行配置管理软件Puppet的用法;
- 掌握最流行分布式监控软件Zabbix(nagios)的用法;
- 掌握基础规范、变更流程及故障处理的方法;
培训对象
高级程序员、系统架构师、系统管理员、运维工程师、运维架构师、项目经理以及其他具有与运维相关的人员。
学习整体架构,专题(课程整体授课思路) |
大规模运维的难点 传统的工作模式 新型的运维方法(DevOps,自动化运维) 如何开展 自动化运维整体架构 整体架构设计 逐步实践的思路 相关系统及功能介绍/设计思路· 专题:运维工具 常见自动化运维工具(工具讲解) 命令 配置 监控 日志 等- 运维三板斧:命令执行 持续集成概念 Jenkins讲解 Gitlab-CI讲解 运维三板斧::配置管理 Puppet讲解 展开讲如何去做一些模块 底层如何统一 如何利用它实现配置管理 |
实践和案例分享 |
运维三板斧::监控与实时日志 zabbix or open-falcon 架构 简介 ELK 架构 如果快速构建 相应的工具如何选择 如何利用日志快速定位问题?又如何提取日志的关键数据做数据报表展示? 运维全流程 需求、看板、开发、流程、打包、测试、部署、发布、监控、日志 业务流程管理 变更管理 发布管理 根据之前的课程,进行总结,串讲,讨论,最终形为强意识 数据展示 运维开发 Python在运维中的关键应用场景,以及技术特点分析 前端框架选型 运维自动化框架选型 Flask Django 简单的开发案例 案例分享:新浪、百度、金山的几个案例 金山(整体平台的构建思路) 探讨:客户案例讨论 讨论出落地工具,以及如何真正的运用起来,包括需要学习的知识点 |