过后阐明的后续事情有哪些?
发布日期:2023-04-12浏览量:151
对纠正措施必需进行追踪,直到执行完成。要记住,在纠正措施没有获得彻底执行以前,事故重发的危害会一直存在。必需确保执行人和完成日期都落实到位,并且执行人要一直卖力到底,哪怕本来的事宜已逐渐成为已往。要在毛病追踪零碎或其余雷同工具中将其标识表记标帜为高优先级项目,如许有助于确保正确的信息都记载下来了,从而制止丧失。
改过性勾当经常会和开发勾当竞争的优先权属。对付网站的不变性和新功用,在首要水平上给予等同看待,在这点上取得管理层的支持,十分首要。宣称网站不变性最首要的公司,对付确保改过性勾当的完成,大有协助。纠正措施要按照能够防止的雷同事故的数目来确定优先递次,假设一项措施只能鸠合法前产生的事故,而另外一项措施却能修复一批能够的雷同事故,则必定后者会获得更高的优先级,从而工程部门也会将精神集中在这项措施上。
另外,确保将过后阐明的数据录入到终极工具中,为事宜付与一个基本起因种别,以便对其进行数据挖掘,从而管理层也可以对恒久趋向进行辨认。咱们运用如许的事故种别,如硬件失效、与更新有关、容量/流量事故、已存在的软件毛病,对事故进行归类。运用汗青数据,对申请哪些、运用甚么样的工具、启动甚么样的自动化项目进行愈加明的策。要将用在高发的事故种别上,从而在整个公司范畴内有组织地低落这些事故的产生率。有宕机的汗青数据,对付调整有难度、耗的项目是出格有效的。
颠最后多年的过后阐明阅历,我发现了一些内容,你能够会思索将其用于改过性勾当,我称其为网站可操纵性。
解除单点故障
硬件能够,也将会,失效。运用冗余进行防护。不要让硬件失效成为产生影响客户的事宜的起因。
容量布局
理解网站未来的容量需求。将容量布局建立在主要的约束前提(如cpu、内存、i/o及存储)的总体行使率的根蒂根基上,而不要建立在次要约束前提(如用户数目)的根蒂根基上。对付这些你所需求的东西,要在需求以前,就做好豫备。
监控
监控对付检测和诊断事故是十分首要的。本书的其余章节对付监控曾经提供了大量的倡议。
发布管理
从汗青上看,更新是诱发事故的主要起因。要确保你的发布过程具备适量的质量控制,要思索如许的实现观点,如自动测试、预演环境、受限的出产部署、暗启动(部署代码,但不激活其功用,直到证实朝码是不变的)以及当即回滚的威力。
运维架构复审
在发布以前,对架构进行复审,对新的发布或商品在出产环境中将会怎样执行进行审查,要思索可维护性、失效场景、对事宜的相应以及架构的靠得住性和可伸缩性。
设置管理
跟着零碎的增进,出产环境中的设置也会变得愈来愈庞大。没法理解更新对出产设置的意思往往会招致人为事故的产生。有一个易懂、好用的设置管理零碎,将有助于工程师制止这些无心中产生的问题。请参阅本书第5章,查看更多的倡议。
随时待命和晋升过程
辨认问题,尽快提交给能够解决问题的人。
不不变的组件
标识并修复那些产生过瓦解以及人为事故的软件组件,将其标识为高优先级,即便它们易响 于手工修复。这些手工修复累积起来,会对客户体验、伸缩威力以及效能都形成负面影。
要接纳主动主动的步履,确保网站制作内容的可操纵性,能制止不少疾苦的过后阐明。
相关文章: