Объявление

Facebook, Instagram, WhatsApp: причины шестичасового сбоя || Facebook, Instagram, WhatsApp: the reasons for the six-hour failure

 

  

* Статья на русском и английском языках 

*article in Russian and English

Представляем подписчикам и читателям блога внеочередную новостную публикацию, к необходимости которой привели размышления о масштабе события и его событийной канве. Разнообразные отключения и отказы в работе Интернет-сервисов наблюдались и ранее, особенно, когда емкости серверного оборудования и скорости его работы были много меньше чем сейчас. И, если бы не приоритет сервисов, обеспечивающих дистанционное функционирование многих компаний, необходимого в пору пандемии, то эта новость появились бы только в конце недели, с очередной подборкой известий с орбиты информационных технологий. Данная публикация в блоге "В мире ИТ" призвана подчеркнуть причины, масштаб и последствия подобных падений в рамках одной сети информационных продуктов.

Полезного и сосредоточенного чтения!

В течение шести часов Facebook и ее дочерние компании были вне зоны доступа.

4 октября, в 15:40 UTC одной из крупнейших компаний по оптимизации и защите интернет-трафика, Cloudflare, зарегистрировано, что Facebook не поддерживает связь своего доменного имени со всем известными IP-адресами. В результате на компьютерах по всему миру открывается пустая страница, отображается ошибка подключения, а приложения Facebook, Instagram, WhatsApp, Facebook Messenger  не подают признаков жизни.

Facebook и его сервисы полностью исчезли из сети. Нечаянная радость для противников сети, осуждающих ее политики и стандарты. Катастрофа для сотен миллионов пользователей, оставшихся без инструментов и услуг привычной социальной сети и её мобильных приложений.

Пользователи Интернет мгновенно обратились к действующим социальным сетям и, в первую очередь, в Twitter, чтобы узнать, что произошло. Эти сети предсказуемо рухнули на пике обращений. Но все же через Twitter специалисты Facebook объявили, что решают возникшую проблему. Глобальное отключение ресурсов компании продлилось шесть часов. Пользователи и эксперты предположили, что цифровой гигант столкнулся с последствиями массированной кибератаки. Или, что более вероятно, с ошибкой обработки во время операции по конфигурации сервера. Так что же произошло на самом деле?

На больших AS-серверах обновление карты сети происходит очень редко. Примерно в 15:40 зарегистрирован большой всплеск, показавший, что база IP-адресов для протокола BGP стерта. © Cloudflare

DNS, IP, BGP ... Эти аббревиатуры стали хитом прошедшего вечера, фигурируя как источник проблем, с которыми столкнулись специалисты Facebook. Каждый из этих веб-сервисов действительно является частью сценария катастрофы, но DNS, обвиняемый пользователями и специалистами в первую очередь, стал объектом подозрений ошибочно. DNS - это служба доменных имен, связывающая веб-адрес, например facebook.com, с веб-страницей. Страница идентифицируется с помощью IP-адреса, последовательности цифр, которую можно уподобить телефонному номеру. Наглядно его работу можно сравнить со звонком с мобильного через ввод имени респондента в адресную книгу. Имя связано с телефонным номером, которым может управлять сеть. Учитывая гигантские размеры сервисов компании, Facebook имеет собственные DNS-серверы. Но во время отключения серверы работали в вакууме и не имели связи с остальными сегментами сети. Следовательно, проблема была не в DNS-серверах.


Сэр Николас Уильям Питер Клегг, вице-президент Facebook

Подлинным источником проблем компании называют протокол BGP (Border Gateway Protocol, протокол пограничного шлюза). Во время передачи данных именно он выбирает оптимальные пути для маршрутизации пакетов данных к месту назначения по всей сети. Вместо того, чтобы просматривать все DNS-серверы, сопоставляя адрес с номером для доставки данных, этот протокол просто запрашивает большие серверы, называемые AS (автономные системы ), которые управляются интернет-операторами. Самые большие каталоги IP-адресов находятся на этих серверах. Они дают отображение сети на протокол BGP, в результате чего он быстро пропускает пакеты данных. Серверы DNS оперируют частью IP-адресов, которыми обмениваются с серверами AS.

У Facebook есть свои собственные AS-серверы, которые запоминают IP-адреса всех сервисов, а также IP-адреса DNS-серверов. И именно эти серверы стали центром внимания. Во время операции обновления технические специалисты случайно удалили базу данных IP-адресов протокола BGP. С этого момента для серверов AS больше не стало инструкций по отправке пакетов данных. Не стало маршрутов, не стало трафика. Facebook и все его сервисы были отключены.

Поскольку такие неприятности время от времени случаются, отказ затянулся из-за нескольких дополнительных факторов. Когда IP-адреса Facebook были отключены от сети, специалисты компании больше не могли получать удаленный доступ к серверам  для восстановления сети. Это явление усугубилось массовой практикой удаленной работы. Помимо этого, в центрах обработки данных сотрудники не смогли физически попасть внутрь, поскольку системы доступа не работали из-за отключения электроэнергии. Наконец, после того, как «кабели были подключены», препятствием стал шторм из запросов пользователей, совершающих синхронные попытки войти в систему.

Это масштабное злоключение показало, что сеть Интернет невероятно сложна и что небольшая ошибка может иметь глобальные последствия.

***

ENG

***

For six hours, Facebook and its subsidiaries were out of reach.

On October 4, 15:40 UTC, one of the largest Internet traffic optimization and protection companies, Cloudflare, registered that Facebook does not keep its domain connected to all known IP addresses. As a result, a blank page opens on computers around the world, a connection error is displayed, and Facebook, Instagram, WhatsApp, Facebook Messenger applications show no signs of life.

Facebook and its services have completely disappeared from the web. An unexpected joy for opponents of the network who condemn its policies and standards. A disaster for hundreds of millions of users left without the tools and services of their usual social network and applications.

Internet users instantly turned to active social networks, and most notably Twitter, to find out what happened. These networks predictably collapsed at their peak. But still, via Twitter, Facebook announced that it was solving the problem. The global shutdown of the company's resources lasted six hours. Users and experts have suggested that the digital giant is facing the aftermath of a massive cyberattack. Or, more likely, a processing error during a server configuration operation. So what really happened?

On large AS servers, network map updates are very rare. At about 3:40 pm, a large spike was recorded, showing that the base of IP addresses for the BGP protocol was erased. © Cloudflare


DNS, IP, BGP ... These acronyms became a hit over the evening, citing the source of Facebook's problems. Each of these web services is indeed part of a disaster scenario, but DNS, blamed by users and experts in the first place, has become the object of suspicion in the first place. DNS, a domain name service that links a web address such as facebook.com to a web page. The page is identified by its IP address, a string of numbers that can be compared to a phone number. Its work can be visually compared to a call from a mobile by entering the respondent's name into the address book. The name is associated with a phone number that the network can manage. Given the sheer size of the company's services, Facebook has its own DNS servers. But during the outage, the servers were running in a vacuum and had no connection to the rest of the network. Hence, the problem was not with the DNS servers.

BGP (Border Gateway Protocol) is the real source of trouble for the company. During data transmission, it is he who chooses the optimal paths to route data packets to their destination throughout the network. Instead of going through all the DNS servers, matching the address with the delivery number, this protocol simply queries large servers called AS (Autonomous Systems), which are operated by Internet operators. The largest directories of IP addresses are on these servers. They map the network to BGP so that it quickly passes data packets. DNS servers operate on a fraction of the IP addresses that are exchanged with AS servers.


Facebook, Instagram, WhatsApp: the reasons for the six-hour failure


Facebook has its own AS servers that remember the IP addresses of all services as well as the IP addresses of the DNS servers. And it was these servers that became the focus of attention. During the update operation, technicians accidentally deleted the BGP IP address database. From that point on, there were no longer instructions for AS servers to send data packets. There are no routes, no more traffic. Facebook and all of its services have been disabled.

Since such troubles do occur from time to time, the rejection was delayed due to several additional factors. When Facebook's IP addresses were disconnected from the network, the company's specialists could no longer remotely access the servers to restore the network. This phenomenon has been exacerbated by the widespread practice of remote work. In addition, in data centers, employees were unable to physically get inside because access systems were not working due to power outages. Finally, after the "cables were plugged in," the hurdle became a storm of requests from users making synchronous attempts to log in.

This massive misadventure showed that the Internet is incredibly complex and that a small mistake can have global consequences.

#technologies

 

АНОНСЫ СТАТЕЙ БЛОГА "В МИРЕ ИТ" ЧИТАЙТЕ:
ANNOUNCEMENTS OF BLOG ARTICLES "IN THE WORLD OF IT" READ:


  FACEBOOK 





Блог В мире ИТ      Blog In the world of IT

#technews, #news, #updates, #technology, #information, #hi-tech, #dailyfact, #сбой -Facebook, #Facebook, #Instagram, #WhatsApp, #Facebook-Messenger, #Cloudflare, #failure, #DNS, #IP, #BGP, #in-the-world-of-IT, #блог-в-мире-ИТ, #в-мире-ИТ,

Комментарии