第五章:回顾2019 年5个重大宕机事件

| 2020-02-03 16:09:15    标签:

 

迎战疫情,艾锑无限-春雷行动

为中国企事业单位提供免费IT服务

 

 

1.png

2019128日,武汉出现第一例新型冠状病毒肺炎病例,到今天全国34个省市以及海外地区,共有上万人被确诊感染了。这其中武汉最为严重,死亡300多人,我们除了说几句风雨同舟,武汉加油,中国加油之外,艾锑无限作为一家社会服务保障性企业,还应为国家,为中国的中小企业做点什么呢?-----春雷行动

 

这次疫情对中国的中小企业来说,将会是沉重的打击,很多企业把办公场所都搬到了家里,对于中小企业来说技术问题将会是这些企业员工面临的最大挑战和困难。办公室的电脑在家如何连接网络如何设置数据如何对接服务器如何登录数据又如何存储数据安全如何管理 VPN又如何搭建视频会议又如何联通业务系统如何开启等等,一系列的技术问题都会困扰着并非技术出身的普通职员。

好消息是当您看到这篇文章的时候,无论您是国家机构,政府机关,还是企事业单位,都不用担心了,您需要的任何关于IT上的服务,我们艾锑无限的全体艾锑人将会为您提供免费的技术支持,来解决您遇到的各种技术难题。您所遇到的各种问题,我们都有对应的成熟解决方案。

 

 

6.png

艾锑无限始创于2005年,历经15年服务了5000多家中小企业并保障几十万台设备的正常运转,我们可以给您的企业和组织提供的服务分为三大部分(不限于以下内容,以沟通的具体结果为准备):

 

第一部分是基础有形的IT运维服务:电脑维护办公设备维护网络维护服务器维护IT外包服务

 

第二部分是企业基础无形的开发服务:网站开发小程序开发APP开发电商平台开发业务系统的开发和后期的运维外包服务。

 

第三部分是企业上云的服务:企业邮箱上云企业网站上云企业业务系统上云企业存储上云企业APP小程序上云等阿里云产品的提供及后续的运维外包服务。

 

 

假如您的企业和组织,有以上三大部分的服务需求,我们艾锑无限将提供免费的远程技术支持,提供相应的技术指导和解决方案。您可以直接拨打我们的24小时值班经理手机:15601064618技术服务经理的电话:13041036957,或拨打全国免费的电话400-650-7820,也可以登录艾锑无限的官网www.bjitwx.com都可以与我们取得最快的联系,我们会在第一时间解决您遇到的问题.

 

2.png

以下还有我们为您提供的一些技术资讯,以便可以帮助您更好的了解相关的IT知识和解决IT问题的方法,帮您战胜疫情带来的挑战,让我们一起度过难关,我们相信万物同体,能量合一,只要我们一起齐心协力,一定能成功。再一次祝福您和您的企业,祝您2020年一定赢.

 

回顾2019 年5个重大宕机事件

在过去的一年中,几次大规模的宕机对全球互联网产生了连锁反应,对企业和消费者都产生了不同程度的影响。我们汇总了一些比较严重的宕机事件,以下是按时间顺序排列的2019年最具破坏性的宕机事件。

任何时候发生网络服务中断,都会对全球业务造成极大的影响和破坏,而且还会导致收入和声誉的重大损失。尽管应用程序交付依赖于许多网络服务提供商(ISP),但它也越来越依赖于面向网络的服务的大型且复杂的生态系统,例如CDNDNSDDoS缓解和公共云。这些服务共同为用户提供卓越的数字体验,即使是短暂的中断也会产生重大影响。

 

图片9.png 

 

同时,企业越来越依赖Internet传输来连接其站点并访问业务关键的应用程序和服务。现在应用程序完全托管在私有数据中心和办公地点,那些主要通过MPLS进行连接的日子已经一去不复返了。随着企业逐渐采用SD-WAN技术,互联网正在取代/补充MPLS等服务。因此,Internet现在实际上是企业的骨干网,作为一种“尽力而为”的传输方式,可能会对企业产生重大且无法预见的后果。

在过去的一年中,几次大规模的宕机对全球互联网产生了连锁反应,对企业和消费者都产生了不同程度的影响。我们汇总了一些比较严重的宕机事件,以下是按时间顺序排列的2019年最具破坏性的宕机事件:

2019年5月13日,中国电信宕机事件揭示了其全球影响力

虽然这不是2019年最具破坏性的宕机事件,但从这次事件也可以看出中国电信的业务范围远远超出了中国大陆。2019513日,中国电信经历了一次重大故障,持续了将近5小时,后续又持续几个小时。中国电信在其主干网上遭受了严重的数据包丢失,主要是中国大陆的网络基础设施受到较大影响,但是也波及了中国电信的新加坡和美国包括洛杉矶等多个节点,全世界有一百多种服务受到干扰。

此次整个长时间持续中断过程中,路由转发到受到影响故障节点的流量全都被丢弃了,也就是说部分在中国国内和国外的用户,使用浏览器或者应用程序访问的大量国外网站均出现了中断。中国的用户尝试访问架设在国外的网站会受到影响,与此同时,国外的用户试图访问中国国内网站也受到影响。

同时这次宕机事件也让美国的网站服务受到了影响,如苹果,亚马逊,微软,SlackWorkdaySAP等等网站服务,下图展示了受到网络故障波以及影响的部分网站和服务。

 

图片10.png 

 

此次事件说明了中国对全球互联网的一些影响力,同时中国电信网络提供商维护着全球因特网的互联,和全球很多地方的网络提供商保持联系。

2019年6月2日-“宕机之夏”始于Google Cloud

201962日,Google Cloud Platform发生了严重的网络中断,影响了美国西部、美国东部和美国中部地区的托管服务。此次宕机也影响了Google自己的应用程序,包括GSuiteYouTube。该宕机持续了四个多小时,几天后,Google就此事件发布了官方报告。ThousandEyes 的优势在于能够实时查看宕机情况,并在更详细的信息公开之前有效地揭示宕机的特点和规模。

大约从美国东部时间上午9点开始,相关工作人员观察到试图连接到GCP us-west2-a中托管服务的全局监视器的数据包丢失率达到100%。在GCP美国东部几个地区(包括us-east4-c)托管的站点也看到了类似的损失。

事实证明,部分Google网络完全不可用是由于Google的网络控制平面意外脱机导致的。谷歌后来透露,在宕机期间,一套自动策略确定了哪些服务可以在未受影响的网络中部分访问或不能访问。

从云服务中断中获得的最重要的教训是,确保任何云架构都具有足够的弹性措施(无论是在多区域基础上还是在多云基础上),以防止将来再次发生中断,这一点至关重要。可以说即使在云中,IT基础架构和服务有时也会出现中断。

6月24日-Cloudflare用户沦为路由灾难的受害者

就在WhatsApp用户遭遇大规模路由泄漏事件的几周后,互联网又发生了另一起与路由相关的事件,并且造成的破坏要大得多。

Cloudflare是一家CDN服务提供商,2019624日,在将近两个小时的时间里,一个重大的BGP路由错误对试图访问Cloudflare服务的用户造成了严重影响,包括游戏平台DiscordNintendo Life。经分析发现,该BGP路由泄漏来自多方因素。DQE是一家传输提供商,是此次泄漏的源头,该泄漏是通过DQEVerizon的客户Allegheny Technologies传播的。不幸的是,Verizon进一步传播了路由泄漏,从而扩大了影响。

此次重大宕机影响了Cloudflare15%的全球流量,并影响了DiscordFacebookReddit等服务,持续时间约两小时。路由泄漏也影响了对一些AWS服务的访问。

该事件的根本原因可归因于DQE使用的BGP优化软件,该软件创建了到Cloudflare服务的路由,而这些路由只能在DQE的内部网络中使用。当这些路线意外地泄露给其中一位客户时,混乱就随之而来了。

这次事件再次提醒我们,在以云为中心的世界中,企业要想成功地向用户提供服务,就必须对网络具有可见性。

7月4日-Apple服务在7月4日受到影响

201974日,连接到Apple网站及其部分服务(例如Apple Pay)的用户经历了长达90多分钟的严重丢包。这个问题导致许多用户无法成功连接到Apple。该数据包丢失是由BGP路由震荡引起的。当一个路由公告被快速连续地(通常是反复)发出和撤回时,BGP路由就会出现问题。

此次事件苹果在早期成功阻止了事情的发酵。从这次事件中得到的教训是,宕机不会凭空发生,有时仅根据其时机和环境来判断,即使是严重的中断也可能会被忽视(或者反过来,明明不严重却引起严重的骚动)

9月6日-DDoS攻击者瞄准维基百科

由于大规模持续的分布式拒绝服务(DDoS)攻击,201996日,世界各地对维基百科网站的访问中断了将近9个小时。DDoS攻击可以击垮目标网络的基础设施,并在服务提供商网络内部造成拥塞,从而导致数据包丢失。

在事件过程中,世界各地的HTTP服务器可用性显著下降,并且HTTP响应时间急剧增加。许多地区的用户无法建立Internet连接,无法与维基百科服务器进行持续通信,此次攻击造成了高达60%的数据包丢失,这进一步阻止了对维基百科网站的访问。

 

虽然DDoS事件在Internet上时有发生,但组织应该主动了解这些事件的范围和影响,并验证DDoS缓解措施是否有效。