发展历程 站点可靠性工程通常涉及什么?

站点可靠性工程通常涉及什么?

Anonim

问:

站点可靠性工程通常涉及什么?

A:

站点可靠性工程(SRE)涉及的工作可能会有所不同,具体取决于所从事的公司和系统。

站点可靠性工程的基本定义是以下过程:使具有软件开发经验的人员负责操作,或者以某种关键方式将开发工作与操作混合或组合在一起。 也就是说,站点可靠性工程师的角色通常涉及对运营应用顶级设计方法。

使用站点可靠性工程的方法类似于另一种称为devop的方法-两者都旨在将开发和运营结合起来。 在devops通常被描述为两个部门合并的过程中,站点可靠性工程师通常被用作职位,代替了传统的系统管理员职位。 区别在于,除了监视和服务系统外,站点可靠性工程师还将应用这些开发概念,这对于确保已开发程序能够按预期方式运行至关重要。

实际上,现场可靠性工程师可以随时要求监视系统。 该人员可以编写自动化工具或协助开发质量保证功能。 SRE中的团队可以评估应用程序的正常运行时间,或者以其他方式查看开发的应用程序在现场的实际使用情况。

在结合开发和运营的一般概念中,SRE的角色非常灵活。 有人会说,这种方法还试图在沟通和哲学方面“弥合”两个部门之间的鸿沟。 因此,SRE中的一个人可能会参加很多次会议,以实际讨论已开发产品和服务的使用。 SRE可能被视为开发过程中的“利益相关者”,他提供有关工程和设计的关键反馈并着眼于运营绩效。

尽管有些人将SRE看作是装扮成系统管理员的角色,但像Google这样的公司正在拥抱SRE的概念,并投入更多的资金来定义此类专业人员的角色。 Google工程师讨论了SRE流程中可以提供的一些非常重要的信息,并以传统系统管理员可能没有的方式将这些专业人员描述为高技能和经验丰富的专家。

站点可靠性工程通常涉及什么?