金沙4166

XML 地图 | Sitemap 地图
金沙4166> 行业资讯> 网络问题导致更多的数据中心中断
?

网络问题导致更多的数据中心中断

2019/3/26 17:04:25 | 来源:www.usa-idc.com

断电是数据中心中断的常见原因,但它们不是唯一的罪魁祸首。随着企业计算环境变得越来越复杂,IT系统和网络故障导致大量数据中心宕机。

Uptime Institute一直在研究公布报道停机情况,以追踪导致意外停机的原因。在过去三年中,该企业从传统媒体或社交媒体上报道的162起中断中筛选了局部讯息。在此期间,可用数据量稳步攀升;研究人员收集了2018年27次停电,2018年57次停电以及2018年78次停电的数据。

Uptime Institute的研究实行董事Andy Lawrence暗示,“公共办事中断越来越频繁地成为资讯。”

Lawrence暗示,“几乎每天都在世界各地产生大规模停机,这并不一定意味着中断的数量在急剧增加,但停机时间正在获得更多的关注。”他说。

来自Uptime Institute的研究的一个重要发现:电源在整体故障中的影响较小,而网络和IT系统则更为牵连。

这种转变的一个原因是,电力系统的运转比过去更加可靠,这减少了本地数据中心内部的电力故障数量。

在过去二十年中,科技行业一直专注于设计电力系统,使IT资产能够在电力系统出现故障或故障的情况下继续运转。Uptime Institute首席技术官Chris Brown暗示,“供应双线IT设备的2N配电系统的出现,使得IT系统能够经过一系列单一事件继续运转。”

与此同时,日益复杂的IT环境导致更多的IT和网络相干问题。“现在数据分布在多个地方,其中一些关键依赖与网络、应用程序(架构)的方式以及数据库复制的方式。这是一个非常复杂的系统,今天扰乱该系统的或许性比过去几年要少。”Uptime Institute承担IT优化和战略的副总裁Todd Traver说。

评估数据中心中断的严重程度

为了区分或许导致业务瘫痪的停机和仅仅造成不便的中断,Uptime Institute已经提议了规模。Lawrence说,评级系统允许研究人员了解模式如何随时间变化。Uptime Institute的规模有五个层次:

●1级是可以忽略不计的停机。中断是可记录的,但对办事的影响很小或没有明显影响,也没有办事中断。

●2级的特点是最小的办事中断。办事中断,但对用户、客户或声誉的影响微乎其微。

●3级是业务重要的办事中断。它涉及客户或用户办事中断,大多数是有限的范围、持续时间或影响。对经济的影响很小,甚至没有。会产生一些声誉或合规方面的影响。

●4级是严重的业务或办事中断。涉及办事或操纵的中断。其中包括一些财政损失、违规作为,声誉损害和或许的平安问题,客户损失是或许的。

●5级是关键业务或使命停机,涉及办事或运营的重大破坏。或许存在巨大的财政损失、平安问题、合规性违规、客户损失和声誉受损。

当Uptime Institute在三年期间检查所有公布报告的数据中心中断(级别1到5)时,IT系统和网络问题超出了电源作为首要原因(见图)。

当比较逐年的原因时,这种趋势尤其明显。2018年,28%的停电变乱的罪魁祸首是电力。在接下来的一年中,仅有11%的断电被列为首要原因。与IT系统相干的故障保持相当一致; 在2018年和2018年分别有32%和35%的故障是由它们引起的。网络中断的首要原因显著增加:2018年19%的网络中断归咎于网络,而2018年这一比例为32%。

“这是事物之间的相互联系。这就是为什么网络中断的大幅增加会导致中断。”“这些东西不是经过一个或两个站点连接的,而是经过三个或四个或更多站点连接的。网络在“IT弹性”中扮演着越来越重要的角色。

此外,随着更多IT资源被移交给办事提供商,并且不再受使用它们的企业直接控制,IT将增加办理和操纵复杂性。

深入研究数据中心停机时间

Uptime Institute深入研究了数据中心中断的具体原因。在网络方面,中断的常见原因包括:

●光纤在数据中心外部切断,路由选择不足。

●主交换机间歇性故障,未摆设辅助路由器。

●主交换机故障,没有备份。

●维护期间的流量配置不正确。

●路由器和App定义的网络配置错误。

●对非备份单个组件(如交换机和路由器)断电。

错误配置的路由器和App定义的网络是“常见的网络问题。他们应该经过测试检测到。”Traver说。

Traver说,当谈到光纤切割时,企业往往不知道他们有单点故障。他们或许有两个独立的供应商,但他们不知道,光纤在同一个沟渠中运转。他们没有做出适当的尽职调查来确定这一点。

当IT是罪魁祸首时,列举的一些原因包括:

●办理不善的升级,缺乏App级别的测试。

●大型磁盘驱动器或存储区域网络的故障和延续数据损坏。这或许是由硬件故障引起的,由于配置或编程错误而加剧。

●负载平衡或流量办理系统中的同步或编程错误失败。

●错误编程的故障/同步或灾难恢复系统。

●对没有备份的单个组件(例如办事器或大型磁盘驱动器)断电。

谈到负载均衡/流量办理问题,Lawrence暗示,当企业尝试更广泛地分发IT资源时,或许会出现编程错误和同步问题。“减少对单一网站的依赖通常是更广泛战略的一局部; 就像你挤压气球一样,问题突然出现在其他地方。”

Traver补充说,当企业“没有真正规划所有平台的应用程序和数据,或者他们没有经常测试它们时,就会出现问题”。

当电源成为首要问题时,一些首要的停电原因包括:

●雷击,导致断电。备份App/配置失败。

●转换开关出现间歇性故障,导致无法启动发电机,或转移到第二个数据中心。

●UPS故障和无法转移到二级系统。

●操纵错误,关闭或配置错误。

●公用电力损失以及发电机或UPS的延续故障。

●电涌引起的IT设备损坏。

这些都是数据中心的工程师们几十年来一直在努力处置的问题——如何围绕这些问题实行设计,如何用他们的设计减轻压力。

Traver说,总的来说,企业需要更加关注数据中心的弹性。“了解您的系统是如何设计的。完全理解 - 所有相互依赖。并且也知道它是如何失败的,并为失败做到筹划。这是我认为缺少的那块。”他说。

“设备越来越好,办理越来越好,经验越来越丰富。它正在成为一个更成熟的行业。”Lawrence回顾道,“但即便如此,断电仍然是一个非常重要和昂贵的问题


金沙4166运营部编稿

猜你喜欢

金沙4166为您的网站提供全球顶级IDC资源
在线咨询
24H在线QQ
400-6866-820
24H免费热线
400-6866-820
Copyright @2005 - 2018 粤ICP备13012552号-3 增值电信业务经营许可证:粤B2-20090095
在线咨询
在线客服


7X24小时在线QQ

免费电话:
400-6866-820

最新活动
XML 地图 | Sitemap 地图