微軟全球藍屏致391億損失!25萬臺設備仍未恢復

波及全球的微軟藍屏事件,至今還有25萬臺設備沒完全恢復!

另據估計,崩潰的設備多達850萬臺,到目前爲止已經恢復了97%,雖然看似修復效率很高,但剩下的3%仍有25萬臺之多。

與此同時微軟也發佈了一份全面調查報告,提供了根本原因的技術概述,解釋了爲什麼安全產品使用內核模式驅動程序,以及未來如何增強安全產品的可擴展性。

該事件影響範圍幾乎覆蓋全球,涉及了涵蓋航空公司、電視廣播、醫療機構、銀行金融等衆多行業,甚至連奧運會也受到了影響。

僅在航空業,就有5000多架次航班被迫取消,佔了全球定期航線的4.6%,美國一家航空公司甚至連續三天都出現了航班取消的情況。

經濟損失也是數以十億計,據數據分析機構Parametrix的估計,單是對於財富500強企業,這次事件帶來的損失就高達54億美元(約合391.8億人民幣)。

還有不法分子趁火打劫,冒充Crowdstrike的名義,假借發佈“修復工具”之名,公然散播惡意軟件。

網絡安全專家Troy Hunt稱之爲“史上最大規模的IT中斷事件”。

抓馬的是,Crowdstrike在此次事件之後,給幫助修復問題的員工和合作夥伴發放了10美元的外賣代金券作爲感謝,結果被外賣平臺標記爲了“欺詐”。

收到優惠券的人在準備使用時發現券已被取消,導致Crowdstrike本已經受到巨大影響的口碑又進一步下滑。

微軟的調查報告,確認了Crowdstrike初步報告中提及的驅動文件正是造成此次事件的罪魁禍首。

進一步分析結果表明,該文件對內存的越界讀取,是導致事故的直接原因。

隨着研究的深入,第三方安全軟件到底該不該被授予了內核級的操作權限,也引發了廣泛討論。

通過分析大量的崩潰報告,微軟發現這些記錄都指向了CrowdStrike的驅動程序csagent.sys。

通過調閱故障時系統留下的崩潰轉儲,微軟再現了崩潰發生時的場景——

首先查看崩潰線程的Trap Frame後,發現引發異常的指令是一條針對R8寄存器、指向內存的讀操作。

進一步觀察Trap Frame附近的指令,又發現在該讀操作之前,有一個對R8的空值檢查,檢查失敗纔會繼續執行後續的讀操作。

但是檢查R8指向的虛擬地址後,微軟發現它指向了一個非法地址,導致內核訪問違規,從而引發了此次崩潰。

另外,Crowdstrike也解釋了流程層面的原因——在上線前的測試過程中,未能檢測到更新中的“有問題的內容數據”。

事件發生後,微軟和Crowdstrike都緊急應對,Crowdstrike發動了全部技術人員,微軟也派出了5000多名技術人員7×24小時應對此事。

經過兩家合作研究,主要得出了兩種該問題的解決方案——

第一種簡單粗暴,就是重啓,以便在錯誤的文件啓動之前獲取更新並將其覆蓋。

修復方案還提到,如果重啓一次不管用就多試幾次,按微軟的說法,最多可能要15次。

如果無法通過重啓獲取更新,微軟還提供了通過網絡或USB設備的啓動工具,以便能夠刪除問題文件。

針對後續工作,兩家也分別做出表態:

微軟表示,將計劃與反惡意軟件生態系統合作,減少對內核驅動的依賴;

Crowdstrike則承諾,正在對其測試和部署流程進行更改,以防止類似情況再次發生。

引起此次崩潰的csagent.sys,正是一個內核級的驅動程序。

具體來說,csagent.sys被註冊爲一個文件系統篩選驅動,用於接收文件操作事件。

所以在這次事件之後,到底應不應該把系統的內核級操作權限開放給第三方,也引發了廣泛討論。

在微軟的報告中,也解釋了一些使用內核驅動程序進行安全防禦的原因:

但同時微軟也指出,驅動運行在最高權限,一旦出問題難以隔離和恢復,因此驅動代碼必須經過嚴格測試。

不過在HackerNews上,網友們並不認同內核級別的運行方式,並指出蘋果和Linux早就禁用內核級操作,改爲用戶級操作了。

按這位網友的說法,雖然直接原因是由Crowdstrike導致,但微軟不禁用內核操作給了問題程序運行的土壤,所以也難辭其咎。

其實微軟也不是沒試過禁用,甚至這次事件中的Crowdstrike,還是微軟的競爭對手。

但是其他網友指出,這是爲了符合歐盟的監管要求,因爲微軟自己的安全軟件有內核級操作,所以公平起見,也得開放給第三方。

但這句話只說對了一半,歐盟並未要求微軟將內核操作開放給第三方,他們還可以選擇把自己的安全產品也移出內核。

當然,如果只從技術角度分析,網友們的觀點還是比較一致的,都認爲內核級操作還是開放的越少越好。

微軟的報告中也提到,今後會聯合安全軟件生態,儘可能減少內核操作對重要安全數據的訪問需要。

最後再說說直接造成此次事件的Crowdstrike。

實際上,這已經不是這家公司的Falcon程序第一次把操作系統搞崩了。

從今年四月開始到現在這四個月,Falcon每個月都會把操作系統搞崩一次。

前三次的受害者都是Linux內核的操作系統,不過影響範圍和受關注程度都和這次事件無法相提並論:

參考鏈接:[1]https://www.microsoft.com/en-us/security/blog/2024/07/27/windows-security-best-practices-for-integrating-and-managing-security-tools/[2]https://www.crowdstrike.com/falcon-content-update-remediation-and-guidance-hub/[3]https://news.ycombinator.com/item?id=41095530