设计分层
1:系统正常运行, 关注点:软件编码规范、架构可靠性设计等
2:部分性能受损、功能完整,关注点: 冗余、倒换策略,倒换成功率
3:功能部分/全部受损, 关注点:故障检测、隔离、恢复,定位,维修性等
可靠/可用能力列表
可用性设计
无单点架构
冗余
技术: N+K A/A, A/S、分布式集群、多实例
指标:业务中断时间
容灾
技术: 系统容灾、数据多副本、备份
指标:RTO/RPO/会话保持 、数据持久度、数据恢复时间
故障管理
故障检测
技术: 故障快速检测
指标:故障自动检测率、故障检测时长、故障检测率
故障隔离
技术: 服务实例故障隔离、共享资源故障隔离、管理面故障隔离、业务分区隔离
指标:业务恢复时长
故障定位
故障恢复
技术: 故障分级自愈、故障定界定位、故障修复
指标:故障自动定界率/恢复率/恢复时长
过载控制
过载检测
过载限流
过载熔断
过载降级