当前位置: 开发笔记 > 后端 > 正文

如何提升系统可用性？

作者：香福武燕_205 | 来源：互联网 | 2023-08-09 04:00

相传魏文王和名医扁鹊之间曾经发生过这样一段对话：魏文王：“你们兄弟三人，谁是医术是最好的呢?”扁鹊：“大哥最好ÿ

相传魏文王和名医扁鹊之间曾经发生过这样一段对话&＃xff1a;

魏文王&＃xff1a;“你们兄弟三人&＃xff0c;谁是医术是最好的呢? ”

扁鹊&＃xff1a;“大哥最好&＃xff0c;二哥差些&＃xff0c;我是三人中最差的一个。”

魏文王&＃xff1a;“那为什么你的名气最大&＃xff1f;”

扁鹊&＃xff1a;“大哥治病&＃xff0c;是治病于病情发作之前&＃xff0c;病人尚未发病即已根除病因&＃xff0c;使得他的医术没有得到认可&＃xff0c;没什么名气&＃xff1b;二哥治病&＃xff0c;是治病于病情初起时&＃xff0c;二哥药到病除&＃xff0c;大家认为二哥善治小病&＃xff0c;名气只在本乡里&＃xff1b;而我是治病于病情严重之时&＃xff0c;大家看到我或在经脉上穿刺放血&＃xff0c;或在患处敷以毒药以毒攻毒&＃xff0c;或动大手术直指病灶&＃xff0c;使重病人病情得到缓解或治愈&＃xff0c;所以以为我的医术高明&＃xff0c;名气因此响遍全国。”

在上面这个小故事中&＃xff0c;根据医生治病发生在病情发展的不同时期可以分为三个阶段&＃xff1a;

病发前&＃xff0c;施以小术&＃xff0c;代价非常小&＃xff0c;却很容易根除病因。
病发初期&＃xff0c;患者小恙&＃xff0c;对症下药&＃xff0c;也能很快治愈。
病情严重&＃xff0c;患者身体损伤极大&＃xff0c;要施以非常手段才有可能救治病患&＃xff0c;代价很大&＃xff0c;也很容易留下后遗症。

技术人员治理系统犹如医生治病救人&＃xff0c;为了保证系统能够稳定地对外提供服务&＃xff0c;有比较高的可用性&＃xff0c;需要关注系统发展的整个生命周期&＃xff0c;见微知著&＃xff0c;一方面能够识别软件开发中潜在的问题&＃xff0c;尽早解决&＃xff1b;另一方面当系统出现小问题&＃xff0c;不要忽视&＃xff0c;及时处理&＃xff1b;最后当系统发生较大问题时&＃xff0c;也能够使用雷霆手段快速恢复&＃xff0c;保证系统可用。

为了提高系统的可用性&＃xff0c;这三个阶段我们都需要关注&＃xff0c;本文会通过分析影响系统可用性的因素&＃xff0c;尝试找出在这三个阶段我们需要采取的必要措施。

什么是系统可用性&＃xff1f;

首先我们来看看维基百科上对可用性的一些定义&＃xff1a;

可用性就是一个系统处在可工作状态的时间的比例

系统可用性是衡量一个系统正确地对外提供服务&＃xff08;可工作&＃xff09;的能力。我们通常采用SLA&＃xff08;Service Level Agreement&＃xff09;来衡量系统可用性&＃xff0c;也就是我们经常听到的的几个9&＃xff0c;其对应的系统不可用时间可以参照下表&＃xff1a;

如何提升系统可用性&＃xff1f;

3个9&＃xff08;99.9%&＃xff09;表示一个月最多不超过43.8分的不可用时间&＃xff0c;对于每月例行停机维护的系统基本很难达到&＃xff1b;5个9&＃xff08;99.999%&＃xff09;要求一年内系统不可用的时长不超过5分钟&＃xff0c;听起来就觉得不可思议。

哪些因素会影响系统的可用性

除了人为原因导致的故障&＃xff0c;基础设施的定期维护&＃xff0c;硬件设备损坏&＃xff0c;自然灾害等等都会导致系统不可用&＃xff0c;因此100%的系统可用性是基本不可能达到的&＃xff1b;要提高系统可用性&＃xff0c;我们得先分析影响可用性的问题发生的原因和影响&＃xff0c;下面根据我的经验列举一些会对系统可用性产生较大影响的因素&＃xff1a;

人员误操作

经典如rm -rf . /的操作在日常的开发过程中并不少见&＃xff0c;比如&＃xff1a;

在生产环境执行了IDE导出的数据恢复脚本&＃xff0c;不慎选中了DROP TABLE&＃xff0c;结果删除了整表的数据
在生产环境中清理冗余的Docker镜像文件时&＃xff0c;不慎删除了所有镜像
本该在测试环境执行的脚本&＃xff0c;错误的跑在了生产环境的数据库上
……

数据、文件存储等无疑是大多数企业的核心资产&＃xff0c;涉及到数据的故障往往都是非常大的故障&＃xff0c;不仅影响范围非常大&＃xff0c;如果前期没有足够的灾备准备&＃xff0c;是很难在短时间内恢复的&＃xff0c;甚至可能无法恢复&＃xff0c;造成巨大损失。

雪崩效应

在分布式系统架构下&＃xff0c;服务之间需要配合来完成复杂的业务流程&＃xff0c;某个服务提供者的不稳定在请求量变大的情况下&＃xff0c;会逐步演化成整个系统的雪崩效应。

雪崩效应通常会经历如下过程&＃xff1a;

服务提供者不可用&＃xff08;宕机或性能较差&＃xff09;
服务调用者请求量增加&＃xff08;业务量增加、失败重试、缓存穿透等&＃xff09;
服务调用者系统资源耗尽&＃xff0c;服务调用者不可用

雪崩会造成整个系统的瘫痪&＃xff0c;以我们的系统曾经经历了一次雪崩为例&＃xff0c;一个核心服务在没有代码变化的情况下&＃xff0c;增加了用户量&＃xff08;可以理解为对用户分批开放&＃xff09;&＃xff0c;在数据基数增大和请求量增大时&＃xff0c;服务的接口性能无法满足需求&＃xff0c;陡增的请求量对数据库了造成非常大的压力&＃xff08;CPU占满&＃xff09;&＃xff0c;接口全部超时&＃xff0c;导致长时间占用API Gateway的连接资源&＃xff0c;API Gateway无法处理其他请求&＃xff0c;进而导致了整个系统的瘫痪&＃xff0c;如下图&＃xff1a;

如何提升系统可用性&＃xff1f;

本质上来讲雪崩的发生是因为服务提供者无法满足当前业务的高并发需求&＃xff0c;同时也没有很好的应对措施保证系统其他服务的正常运转。

未经完整测试的版本发布

以上两类故障的发生通常会引发非常严重的问题&＃xff0c;但频率相对较低&＃xff0c;而定期的版本发布常常因为没有经过完整的测试导致线上故障发生&＃xff0c;严重的情况下也会对可用性产生很大的影响。

随着系统服务年限的增长&＃xff0c;业务的增长让系统变的越来越复杂&＃xff0c;依赖人工的黑盒测试基本上很难覆盖所有业务场景&＃xff08;我们曾经有一个开发了3年多的系统&＃xff0c;在没有自动化回归测试的情况下&＃xff0c;每次发布后需要4个测试同学花费2个小时进行只读的关键场景回归测试&＃xff0c;成本非常高昂&＃xff09;&＃xff0c;这导致定期的版本发布经常会带来一些意外的故障&＃xff0c;每次发布后都需要有人值班来解决这些故障。

系统间集成测试成本更高&＃xff0c;一方面集成测试需要跨多部门进行沟通协调&＃xff0c;另一方面集成的一方通常无法知道另一方的实现细节&＃xff0c;测试用例很难保证全面。对于关键系统的集成&＃xff0c;如果修改后没有充足的回归测试&＃xff0c;上线后很可能导致影响主流程的故障&＃xff0c;影响用户的使用。

基础设施故障及定期升级维护

不管是自建基础设施&＃xff0c;还是使用第三方云服务&＃xff0c;基础设施的故障和定期升级维护是不可避免的&＃xff0c;也是影响系统可用性的关键因素。

影响可用性的基础设施相关因素包括&＃xff1a;

硬件故障
网络故障&＃xff08;包括网络带宽不足导致的通信问题等&＃xff09;
系统升级&＃xff08;操作系统、数据库、网络设备、中间件等&＃xff09;
日常维护&＃xff08;备份、迁移等&＃xff09;

如何提高系统可用性

影响系统可用性的因素很多&＃xff0c;以上列举了一些非常典型的场景&＃xff0c;这足以让我们对影响可用性的因素有一个非常直观的理解。为了从可实施的角度讨论如何提高系统可用性&＃xff0c;这里不考虑基础设施硬件故障等不可控因素。

从上面的因素中我们不难发现&＃xff0c;有些问题我们可以通过提高工程化能力和优化工作流程解决&＃xff0c;但如何将这些工程化能力和流程落地也是一个非常复杂的问题&＃xff0c;因此我下面会通过技术和团队两个视角来看如何才能提高系统的可用性。

从技术视角&＃xff0c;要不断强化工程能力

如何提升系统可用性&＃xff1f;

根据可用性的定义&＃xff0c;要提高系统的可用性&＃xff0c;就是要缩短系统不可用的时长&＃xff0c;保持系统的健康状态&＃xff1b;那么回顾下文章开头的小故事&＃xff0c;我们可以从三个阶段来针对性的采取一些措施&＃xff1a;

病发前&＃xff1a;
- 完善的代码质量管理体系和自动化测试体系&＃xff0c;能够保证产品质量&＃xff0c;通过代码检查、安全扫描和测试自动化&＃xff0c;避免未经测试的代码部署到生产环境
- 完善的权限管理体系&＃xff0c;能够保证生产环境权限不滥用&＃xff0c;避免过多的人为操作对生产环境产生影响
- 其他自动化的开发、运维工具体系&＃xff0c;在提高工作效率的同时&＃xff0c;注重安全性&＃xff0c;通过自动化的脚本检查、运维流程自动化等方式避免不必要的错误对生产环境造成的危害
病发初期
- 完善的监控体系&＃xff0c;能够尽早识别系统的潜在问题&＃xff0c;系统运营人员可以快速甄别即将发生的故障&＃xff0c;不要等到用户反馈才知道系统出了问题
- 完善的持续集成/持续部署体系&＃xff0c;能够保证尽量快的反馈&＃xff0c;尽量短的发布时长&＃xff0c;在功能开发和故障修复后快速地部署代码到生产环境
病情严重
- 完善的发布验证、回滚、限流、熔断、降级策略&＃xff0c;能够尽量缩小故障的影响范围&＃xff0c;保证即便有部分服务不稳定&＃xff0c;也不至于导致整个系统不可用
- 完善的灾备恢复体系和演练&＃xff0c;能够保证系统在发生重大紧急事故时可以快速恢复&＃xff0c;尽量缩短不可用时长

从团队视角&＃xff0c;要有一支重视技术的团队

在软件系统的开发运维过程中&＃xff0c;我们有很多手段可以发现问题&＃xff0c;如线上故障、监控报警、回顾会议等等&＃xff0c;但从根本上解决问题往往非常困难&＃xff0c;大多数情况下是头痛医头&＃xff0c;脚痛医脚&＃xff0c;到最后结果就是技术债台高耸&＃xff0c;线上故障频发&＃xff1b;即便找到了解决问题的办法&＃xff0c;在实施的过程中还会遇到很多问题。

探究其原因&＃xff0c;可能比较复杂 &＃xff0c;但从团队视角来看&＃xff0c;通常存在团队对待技术并没有那么严谨&＃xff0c;对待生产环境没有那么敬畏&＃xff0c;对待自己的代码没有那么严苛。

要提升系统的可用性&＃xff0c;必须要有一支重视技术的团队&＃xff0c;这个团队应该具备以下特征&＃xff1a;

自上而下崇尚技术&＃xff0c;尊重技术
有专家级成员&＃xff0c;有能力实施上面提到的各种工程能力
不急功近利&＃xff0c;不会为了短期的业务目标而在技术上妥协
团队成员遵守团队纪律&＃xff0c;不做违反纪律&＃xff0c;破坏规则的事情

结语

追求系统的高可用就像一个人追求身体健康一样&＃xff0c;整个软件开发团队自始至终都要秉持爱护软件系统的心态&＃xff0c;在软件开发的全流程中&＃xff0c;时刻保持警惕&＃xff0c;通过提高团队在三个阶段中的工程化能力来及时发现和解决系统中存在的问题。

这不单纯是个技术问题&＃xff0c;善治系统的团队首先要在团队内建立尊重技术、工程的文化氛围&＃xff0c;建立团队行为规范&＃xff0c;严明纪律&＃xff0c;有所为有所不为&＃xff1b;在此基础上&＃xff0c;不断在团队开发过程中针对问题寻找解决问题的最佳实践&＃xff0c;做且做好正确的事&＃xff0c;相信高可用是必然的结果。

推荐阅读

api
每天收获一点点Hadoop概述

一、Hadoop来历Hadoop的思想来源于Google在做搜索引擎的时候出现一个很大的问题就是这么多网页我如何才能以最快的速度来搜索到，由于这个问题Google发明 ... [详细]

蜡笔小新 2023-12-14 18:58:01
session
t-io 2.0.0发布-法网天眼第一版的回顾和更新说明

本文回顾了t-io 1.x版本的工程结构和性能数据，并介绍了t-io在码云上的成绩和用户反馈。同时，还提到了@openSeLi同学发布的t-io 30W长连接并发压力测试报告。最后，详细介绍了t-io 2.0.0版本的更新内容，包括更简洁的使用方式和内置的httpsession功能。 ... [详细]

蜡笔小新 2023-12-14 10:17:48
session
基于事件驱动的并发编程及其消息通信机制的同步与异步、阻塞与非阻塞、IO模型的分类

本文介绍了基于事件驱动的并发编程中的消息通信机制，包括同步和异步的概念及其区别，阻塞和非阻塞的状态，以及IO模型的分类。同步阻塞IO、同步非阻塞IO、异步阻塞IO和异步非阻塞IO等不同的IO模型被详细解释。这些概念和模型对于理解并发编程中的消息通信和IO操作具有重要意义。 ... [详细]

蜡笔小新 2023-12-13 19:32:09
session
flowable工作流流程变量_信也科技工作流平台的技术实践

1背景随着公司业务发展及内部业务流程诉求的增长,目前信息化系统不能够很好满足期望,主要体现如下：目前OA流程引擎无法满足企业特定业务流程需求，且移动端体 ... [详细]

蜡笔小新 2023-12-13 10:17:15
session
OpenStack及其构成简介

本文介绍了OpenStack的逻辑概念以及其构成简介，包括了软件开源项目、基础设施资源管理平台、三大核心组件等内容。同时还介绍了Horizon(UI模块)等相关信息。 ... [详细]

蜡笔小新 2023-12-12 06:47:38
漏洞
容器技术的安全挑战与解决方案

本文探讨了容器技术在安全方面面临的挑战，并提出了相应的解决方案。多租户保护、用户访问控制、中毒的镜像、验证和加密、容器守护以及容器监控都是容器技术中需要关注的安全问题。通过在虚拟机中运行容器、限制特权升级、使用受信任的镜像库、进行验证和加密、限制容器守护进程的访问以及监控容器栈，可以提高容器技术的安全性。未来，随着容器技术的发展，还需解决诸如硬件支持、软件定义基础设施集成等挑战。 ... [详细]

蜡笔小新 2023-12-09 10:31:06
rust
解决Docker中volume的权限问题的方法

在Docker中，将主机目录挂载到容器中作为volume使用时，常常会遇到文件权限问题。这是因为容器内外的UID不同所导致的。本文介绍了解决这个问题的方法，包括使用gosu和suexec工具以及在Dockerfile中配置volume的权限。通过这些方法，可以避免在使用Docker时出现无写权限的情况。 ... [详细]

蜡笔小新 2023-12-14 18:48:02
rust
PhysioNet生理信号处理（三）WFDB Toolbox for Matlab的安装和使用方法

本文介绍了PhysioNet网站提供的生理信号处理工具箱WFDB Toolbox for Matlab的安装和使用方法。通过下载并添加到Matlab路径中或直接在Matlab中输入相关内容，即可完成安装。该工具箱提供了一系列函数，可以方便地处理生理信号数据。详细的安装和使用方法可以参考本文内容。 ... [详细]

蜡笔小新 2023-12-13 20:46:48
rust
如何通过全新应用内评价获取更多优质用户反馈？

Google Play推出全新的应用内评价API，帮助开发者获取更多优质用户反馈。用户每天在Google Play上发表数百万条评论，这有助于开发者了解用户喜好和改进需求。开发者可以选择在适当的时间请求用户撰写评论，以获得全面而有用的反馈。全新应用内评价功能让用户无需返回应用详情页面即可发表评论，提升用户体验。 ... [详细]

蜡笔小新 2023-12-13 17:23:03
queue
Tomcat/Jetty为何选择扩展线程池而不是使用JDK原生线程池？

本文探讨了Tomcat和Jetty选择扩展线程池而不是使用JDK原生线程池的原因。通过比较IO密集型任务和CPU密集型任务的特点，解释了为何Tomcat和Jetty需要扩展线程池来提高并发度和任务处理速度。同时，介绍了JDK原生线程池的工作流程。 ... [详细]

蜡笔小新 2023-12-13 16:18:09
queue
C++字符字符串处理及字符集编码方案

本文介绍了C++中字符字符串处理的问题，并详细解释了字符集编码方案，包括UNICODE、Windows apps采用的UTF-16编码、ASCII、SBCS和DBCS编码方案。同时说明了ANSI C标准和Windows中的字符/字符串数据类型实现。文章还提到了在编译时需要定义UNICODE宏以支持unicode编码，否则将使用windows code page编译。最后，给出了相关的头文件和数据类型定义。 ... [详细]

蜡笔小新 2023-12-13 04:59:58
pip
clone的fork与pthread_create创建线程有何不同

本文讨论了clone的fork与pthread_create创建线程的不同之处。进程是一个指令执行流及其执行环境，其执行环境是一个系统资源的集合。在调用系统调用fork创建一个进程时，子进程只是完全复制父进程的资源，这样得到的子进程独立于父进程，具有良好的并发性。但是二者之间的通讯需要通过专门的通讯机制，另外通过fork创建子进程系统开销很大。因此，在某些情况下，使用clone或pthread_create创建线程可能更加高效。 ... [详细]

蜡笔小新 2023-12-12 20:00:06
x86
Oracle优化新常态的五大禁止及其性能隐患

本文介绍了Oracle优化新常态中的五大禁止措施，包括禁止外键、禁止视图、禁止触发器、禁止存储过程和禁止JOB，并分析了这些禁止措施可能带来的性能隐患。文章还讨论了这些禁止措施在C/S架构和B/S架构中的不同应用情况，并提出了解决方案。 ... [详细]

蜡笔小新 2023-12-12 12:55:55
x86
嵌入式处理器的架构与内核发展历程

本文主要介绍了嵌入式处理器的架构与内核发展历程，包括不同架构的指令集的变化，以及内核的流水线和结构。通过对ARM架构的分析，可以更好地理解嵌入式处理器的架构与内核的关系。 ... [详细]

蜡笔小新 2023-12-11 15:38:57
sockets
操作系统的定义和功能

本文介绍了操作系统的定义和功能，包括操作系统的本质、用户界面以及系统调用的分类。同时还介绍了进程和线程的区别，包括进程和线程的定义和作用。 ... [详细]

蜡笔小新 2023-12-11 14:17:13

香福武燕_205

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章