张观石- 《SRE原理与实践:构建高可靠性互联网应用》作者。
拥有20年软件开发、架构、运维、SRE经验。曾在虎牙直播担任资深运维专家和架构师,历任项目研发负责人、SRE负责人、架构师,事故管理委员会委员、基础保障部架构师委员会委员。
为虎牙基于微服务架构的直播业务、音视频业务、海外直播业务建立了稳定性保障体系,在混合多云架构、可观测性、预案、变更管控、AIOps等SRE领域有深入研究和丰富经验。多次担任虎牙“英雄联盟全球总决赛直播”稳定性保障负责人。
同时,他也是中国信通院分布式系统稳定性实验室高级技术专家,参与编写了信通院《信息系统稳定性保障能力建设指南》。《运维前线》一书的联合作者。多次参与GOPS、MSUP、GDevops技术大会分享。
本课程清晰完整地讲解SRE(系统可靠性工程)的知识体系、方法体系、工程体系;讲清楚SRE工程的方法,如怎么样设计高可靠的系统、如何与产研、运维、质量等团队协作;会讲到如何快速发现故障、确定影响、定界定位找到根因;如何找到故障规律并建设预案能力快速修复故障;也会讲到保障能力、混沌工程、AIOps、可观测性等最新理念方法;从管理上如何做好方向规划、工作目标、团队转型、如何与高层取得共识等。
本课程会讲解和展示大量的实践案例,理论结合工程实践,方便理解和参考;本课程会开展工作坊和研讨环节。
指导性强:彻底讲清SRE的工程体系、方法体系、知识体系;
方法体系完整:讲述整套体系,行业当前热门方法,都能在这个框架里学到;
实践性强:中大互联网企业实践案例总结,属于行业最先进的经验,大部分可直接参考,甚至拿来用;结合企业实际开展研讨分析。
企业对象:互联网企业基础设施、IT部门、运维团队,传统企业的IT部门、运维部门
学员对象:运维工程师、SRE工程师、开发工程师、研发架构师、基础架构师、QA/测试工程师、技术管理者
时间 | 课程内容 |
半天 | 讲解SRE的思想、理念和方法 1、方法论及核心理念
2、SLO体系建设-黄金指标
3、可靠性设计能力:从SRE的角度如何设计出可靠的系统
|
半天 | 4、观测能力:怎样做到比老板/用户/产品先发现问题并快速定位
5、故障修复能力
6、综合保障能力:
7、反脆弱能力:在试验中发现风险,进行风险治理
8、可靠性管理能力
工作坊: 主题:分组、为企业业务识别核心服务、绘制架构图、确定和制定SLI/SLO指标,分析核心服务的当前观测能力、脆弱性和预案及改进方法 |