企业 公司如何最大限度地延长正常运行时间?

公司如何最大限度地延长正常运行时间?

Anonim

问:

公司如何最大限度地延长正常运行时间?

A:

保持IT服务正常运行很重要。 系统制造商对此问题进行了很多思考。 一些关键的金融计算机已经连续运行了多年。 互联网上有一个关于Novell Netware 3计算机的故事,该计算机在16年后最终被关闭。 在考虑网络正常运行时间时,该标准适用于“五个9”或99.999%的可用性。 实现最长的正常运行时间是任何IT服务产品的重要考虑因素。

如何获得最大的正常运行时间? 良好的管理是关键。 国际标准化组织(ISO)创建了一个称为FCAPS的网络管理框架,该框架代表:

  • 故障管理
  • 配置管理
  • 会计管理
  • 绩效管理
  • 安全管理

使用此模型可以主动和被动地处理单个网络组件的问题。 使用警报和事件通知监视故障。 这些是由协议代理(例如SNMP(系统网络管理协议)或某些其他专有解决方案)收集的。 可自定义的阈值可能会触发警报,甚至自动生成故障单,这些故障单最终会进入数据中心的监视人员队列。 大型运营商网络可能有单独的部门来处理网络的核心,分布或访问层。 根本原因分析试图隔离和定义重大事件后的关键问题。

类似的过程用于系统管理。 Internet服务提供商(ISP)和托管主机中心雇用系统管理员来监视和管理服务器,存储系统或其他设备的生存能力。 例如,可以通过图形用户界面(GUI)管理程序以与网络协议相同的方式查看和控制Windows或Linux计算机上的各个进程。

网络组件和系统的远程监视和配置可提供实时功能,以最大限度地延长系统正常运行时间。 这扩展到配置更改,收集关键性能指标或实施安全性增强。

查看正常运行时间和任何系统的鲁棒性的一种方法是使用IBM称为RAS的模型:可靠性,可用性和可维护性。 为了确保RAS,已经开发了许多方法。 其中包括冗余,数据备份,不间断电源(UPS),热插拔组件和自动更新。 计划的更改和维护窗口为纠正或改进已知问题提供了机会,而不会给用户带来麻烦。

最终,系统和网络将失败。 冗余是系统弹性的关键之一。 这可以适用于硬件,软件或数据。 负责确保网络或软件系统可靠性的人员将寻找可能被视为单点故障(SPOF)的故障。 整个网络是否流过单个交换机或电缆? 所有进程都在单个服务器上进行吗? 关键数据集只有一个副本吗? 没有冗余,公司可能会立即失去可能需要数年才能发展的东西。

最大限度地延长正常运行时间是“一切皆有”的努力。 通过数十年的经验和协作已开发出最佳实践。 新的解决方案正在不断推出,例如自我修复网络,虚拟化,数据分析和改进的体系结构。 没有任何一种方法可以解决复杂系统中出现的所有问题。 每个公司都试图在其可使用的设备的生命周期内,尽可能高效地充分利用其IT资源。

公司如何最大限度地延长正常运行时间?