2024-07-21 14:16
“万无一失”是可能的。可靠性到 99.995%,不就是万无一失吗。人类可以做到四个九。但 100% 是不可能的。这个宇宙里就没有 100% 的可靠性。
这次 CrowdStrike Falcon 的事情,当然可以在软件质量管理、运营体系建设之类的层面找一找问题,总结总结经验。但想杜绝类似问题再次发生也是不可能的,无非是下一次在五年后还是十年后。微软最近两年开始用 Rust 重写内核,也号召大家用 Rust 写驱动。我们实验室试了一下,Rust 固然不容易产生 C/C++ 的那些问题,但 Rust 有自己的问题,该蓝屏还是蓝屏。
那么我们能从事故中学到些什么呢?
首先,美国赶走了俄罗斯的卡巴斯基,用美国“自主可控”的安全软件 CrowdStrike 加上美国“自主可控”的操作系统 Windows,也还是发生了这样的事情。“自主可控”有很多意义,比如不用担心别人“卡脖子”。但“自主可控”和软件质量、事故率之间没有必然关系。不能因为“自主可控”了,就对宇宙的熵增失去了敬畏之心。
软件故障和运营事故年年有,为什么这次会闹这么大呢?只能说因为 CrowdStrike 生意做的太好了,微软的生意做的太好了。因为生意做的太好,客户众多,以至于运行 Windows 的机器和运行 CrowdStrike 的机器重叠部分都有 850 万之多。机器多了,自然影响就大。如果是用户比较少的厂商出问题,影响面自然也没这么大。但应该因此限制企业服务的客户数量吗?如果这么做,带来的负面影响可能比一两次事故要大得多。
再一个原因就是 CrowdStrike 是 SaaS 模式的。SaaS 在用的时候很敏捷,导致故障的时候自然也很敏捷。但这并不意味着 SaaS 不好,只是甘蔗没有两头甜。对此能做的可能也就是让 SaaS 稍微不那么敏捷一点,做个 Trade Off。比如给用户一个开关,每次更新规则的时候给用户发邮件,让用户自己按按钮。再比如设置不同的更新通道,追求稳定可靠就可以选慢通道,追求第一时间防御最新威胁可以选快通道。这并不能避免问题发生,但可以减轻影响。
中国的政企用户本来就不喜欢 SaaS。这件事情之后,国内的 SaaS 厂商恐怕都需要更新一下产品介绍材料,讲一讲自己为什么不涉及此类问题,或者为防范此类事情做了哪些努力。
从用户这一侧看,能做的可能也就是关键系统要异构。比如某业务有 10 台服务器,是不是可以 5 台用 Windows,另外 5 台用 Linux?至少装的终端安全软件是不是分别用两家的?这样一家出了问题还能剩 50% 可用性。但异构也并不是新话题。只是做异构就意味着增加人力和财力的投入。高可靠和低成本不可兼得。就看怎么算账了。
不过决策链上的老板们被这个事情一吓,没准就愿意多投点资源了。大家要抓住这个找老板批预算的窗口期。
2014-10-26 16:30
renew //@赵武360: 库带计划第一时间通知厂商,漏洞细节也不公开,目前处理流程白帽子有目共睹,所以咱们是不是可以抛开门户之见?//@工具猫-gainover: 在我有生之年,真的看到360收腾讯百度的漏洞了[挖鼻屎]//@赵武360:这次漏洞跟钱有关,希望百度尽快过来认领并修复漏洞。
2014-10-09 17:13
这个漏洞不应该啊【百度某重要分站存在SQL注入,可跨库查询多个表】 百度某重要分站存在SQL注入,直接获取数据,看图 - QTVA-2014-75293 @360网站安全检测 🔗网页链接
2021-11-05 11:35
2014-11-06 10:01
我感觉 POC 和国内安全会议最大的不同就是参会者几乎都在听演讲。国内的会则一半人在会场听演讲,一半在门口搞同性交友。另外你们感受一下人家这种学黑客从妇女儿童抓起的群众运动精神: