На прошлой неделе миллионы машин Windows были остановлены из-за ошибки обновления от CrowdStrike. Инцидент, который затронул около 8,5 миллионов устройств, был отслежен до ошибки в тестовом программном обеспечении.
Неисправное обновление проскочило процесс проверки, что привело к массовым сбоям. Эта проблема CrowdStrike побудила компанию взять на себя обязательство провести более тщательное тестирование и улучшить обработку ошибок для будущих обновлений.

Проблема CrowdStrike привела к сбою в работе Microsoft
Последнее фиаско CrowdStrike — не просто единичный случай Проблема CrowdStrike; это перекликается с более широкими проблемами технологической отрасли. Из-за этого Microsoft также пережила важный сбой, который усилил хаос до такой степени, что затронул страны. Хотя корни сбоя Microsoft были другими, сопутствующие проблемы подчеркнули хрупкую природу облачных сервисов и волновые эффекты сбоев программного обеспечения. В конечном итоге, проблема CrowdStrike стала спусковым крючком. Такие инциденты подчеркивают необходимость надежных процессов тестирования и проверки в каждой области.
Что такое сбой в работе CrowdStrike?
Программное обеспечение Falcon от CrowdStrike является важнейшим инструментом для бизнеса и обеспечивает надежную защиту от вредоносных программ и нарушений безопасности на миллионах машин Windows. Проблема CrowdStrike возникла, когда плановое обновление конфигурации контента, предназначенное для сбора телеметрии о потенциальных угрозах, вместо этого вызвало катастрофический сбой. Это обновление было частью Rapid Response Content, небольшого файла размером 40 КБ, который работал неправильно и приводил к широкомасштабным сбоям системы. Это похоже на старые вирусы. Это как иметь «Осел» и бесконечный поток предупреждающих сообщений, которые ни о чем не говорят, и ваш компьютер непроизвольно выключается.

Анатомия отключения
Проблема CrowdStrike была связана с тем, что Rapid Response Content обновил датчик Falcon для улучшения обнаружения вредоносного ПО. Это конкретное обновление содержало проблемные данные контента, которые смогли пройти через Content Verifier из-за ошибки. CrowdStrike заявляет, что обычно проводит как автоматизированные, так и ручные тесты своих обновлений. Однако Quick Response Content не был подвергнут такому же тщательному тестированию, как другие обновления, или каким-то образом смог пройти тест, что привело к катастрофическому сбою.
Почему все пошло не так?
Проблема CrowdStrike может быть отслежена до ошибочного предположения о надежности их Content Validator. В марте новое развертывание Template Types заставило CrowdStrike поверить, что их процесс проверки был надежным. Однако эта уверенность оказалась неуместной. Проблемный Rapid Response Content был загружен в Content Interpreter сенсора, вызвав исключение выхода за пределы памяти, с которым Windows не смогла справиться, что привело к печально известному синему экрану смерти (BSOD).

Когда начался сбой в работе CrowdStrike? Хронология неполадок
Проблема CrowdStrike возникла в пятницу, в день, когда компании обычно сворачивают свою деятельность на выходные. Хуже и быть не могло, так как это привело к немедленным сбоям в работе многих организаций. Неисправное обновление, призванное повысить безопасность, вместо этого парализовало системы, вызвав значительные простои и разочарование.
Первоначальный ответ и контроль ущерба
CrowdStrike быстро определила проблемный файл Rapid Response Content как источник проблемы. Несмотря на быструю идентификацию, ущерб уже был нанесен. Предприятия, полагающиеся на CrowdStrike Falcon, были вынуждены бороться с последствиями сбоя. Срочность ситуации побудила CrowdStrike опубликовать подробный отчет о происшествии (PIR), в котором изложены первопричина и план по предотвращению подобных случаев в будущем.
Обязательства по предотвращению будущих проблем
В ответ на проблему CrowdStrike компания пообещала принять ряд мер, чтобы гарантировать, что подобная катастрофа не повторится. К ним относятся:
- Расширенное тестирование: Реализация локального тестирования разработчиками, обновления контента и тестирования с откатом, стресс-тестирования, фаззинга и внесения неисправностей.
- Улучшенная обработка ошибок: Расширение возможностей обработки ошибок интерпретатора контента в датчике Falcon.
- Поэтапное развертывание: Постепенное развертывание обновлений для большей части установленной базы вместо немедленного запуска.

Что такое CrowdStrike Falcon? Защитник в вопросе
CrowdStrike Falcon — это программное обеспечение, лежащее в основе этой проблемы. Это облачная платформа, которая обеспечивает защиту конечных точек, объединяя антивирус, разведку угроз и обнаружение и реагирование конечных точек (EDR). Основная функция программного обеспечения — защита от вредоносных программ и нарушений безопасности, что делает его критически важным инструментом для предприятий по всему миру.
Как работает Falcon
Falcon работает, развертывая датчики на уровне ядра в машинах Windows. Эти датчики непрерывно отслеживают подозрительную активность и используют ИИ и машинное обучение для улучшения возможностей обнаружения. Обновления этих датчиков, такие как Rapid Response Content, имеют решающее значение для поддержания актуальной защиты от возникающих угроз.
Роль контента быстрого реагирования
Обновления Rapid Response Content предназначены для настройки поведения датчиков Falcon, позволяя им обнаруживать новые формы вредоносного ПО. Эти обновления обычно небольшие и быстро развертываются, что делает их неотъемлемой частью функциональности Falcon. Однако проблема CrowdStrike продемонстрировала потенциальные риски, когда эти обновления не проходят тщательную проверку.
Департамент и Агентство по кибербезопасности и безопасности инфраструктуры (@CISAgov) работают с CrowdStrike, Microsoft и нашими партнерами на федеральном, региональном, местном уровне и в сфере критической инфраструктуры для полной оценки и устранения сбоев в работе систем.
— Министерство внутренней безопасности (@DHSgov) 19 июля 2024 г.
Уроки из проблемы CrowdStrike
Проблема CrowdStrike служит суровым напоминанием о важности надежных процессов тестирования и проверки. Хотя компания изложила несколько мер по предотвращению будущих инцидентов, техническое сообщество, несомненно, будет внимательно следить. Обеспечение надежности программного обеспечения безопасности имеет первостепенное значение, и проблема CrowdStrike подчеркнула поставленные на карту ставки.
Проблема CrowdStrike подчеркивает тонкий баланс между быстрыми обновлениями и стабильностью системы. Поскольку предприятия продолжают в значительной степени полагаться на такое программное обеспечение для обеспечения безопасности, уроки, извлеченные из этого инцидента, будут иметь решающее значение для формирования будущих практик и протоколов.
Источник изображения: Группа новостей Scoop








