2003年以来,我国非常重视“应急”工作,出台了很多应急预案和相关规定,成立了很多的应急组织机构,很多部门建设了应急指挥平台,应急演练等工作也在开展。2008年初的南方大雪冰冻事件是对我国应急能力的一次考验,也给我们带来了很多新的经验和教训。网络安全领域虽然不同于现实世界的情况,但从这次事件中同样能够得到启发。本文通过大雪事件应对的情况提出网络安全应急工作中需要注意的几个问题。
一、 大雪事件的简单回顾
根据公开的媒体信息,这里简单整理一下大雪事件的一些主要时间脉络。
2008年1月11日,长江中下游出现明显降雪,开始出现大雪苗头;12日,强冷空气南下,我国大部地区出现明显降雪降温;13日长江中下游持续雨雪低温严重影响交通。17日雨雪冰冻天气影响百姓生活开始出现雪灾苗头;18日,黄淮江淮持续冰冻天气,大部分地区交通恢复;19日~20日,雨雪妨碍交通,春运客流增长迅速。
20日左右,情况恶化:20~21日,大部分地区持续降雪,部分地区电力农业等设施严重受损,国务院防震减灾工作联席会议召开;21日,国务院应急管理办公室发布《关于做好防范应对强降温降雪天气的通知》; 24日,电厂用煤告急;25~26日,南方大范围雨雪天气,交通严重受阻,各地全力疏导,很多地区在26日左右开始启动应急预案;26日中央气象台发布暴雪橙色警报;27日,国务院召开电视电话会议,部署安排煤电油运保障工作;2月1日,国务院迅速成立煤电油运和抢险抗灾应急指挥中心,突击抢运电煤,2月4日,国务院煤电油运和抢险抗灾应急指挥中心抢修电网指挥部成立。
此次事件属于天灾,大雪冰冻事件导致交通运输受到严重影响,加上适逢春运,导致旅客严重滞留;事件发生在气候温暖的南方地区,由于缺乏这种经验,导致电力设施受损,电力供应中断,这除了影响居民生活、通信保障等方面之外,因为铁路交通全部采用电力机车从而也使交通进一步受到影响;南方电力供应需要大量煤炭资源,而交通受阻导致煤炭输送困难;等等。虽然这次大范围的复杂危机事件的应对基本上是成功的,但是依然有很多可以总结的地方。
二、 时间要素和“预能力”建设
本次事件让我们再次认识到,“时间”要素和“预能力”建设是应急响应的关键,但是同时这两点面临巨大挑战。
1.时间要素
时间要素指的是在事件恶化之前及时采取有效措施加以控制,或者说在突发事件应对的过程中,必须在适当的时间做出适度的反应。在国内外很多领域的危机事件中,这一点都有深刻体验。
本次大雪事件,如果13日出现交通受到严重影响的现象的时候,能够考虑到即将到来的春节给各方面带来的压力,进而对问题的严重性估计得更足一些,可能能够更早采取一些措施减轻后来的客流增长、严重滞留的情况发生;如果能更早意识到高速公路受大雪影响的问题进而更早地要求减少高速公路封路和收费,也会缓解后来的公路交通压力;如果17日到19日出现雪灾苗头的阶段,能够预测到后面会发生雪灾进而影响到电力、交通、通讯、居民生活等问题,进而在这一时间就开始采取相关措施,后面的情况也会好很多。
网络安全领域中,例如企业的生产网络、SCADA系统、或者公共互联网,在一些安全威胁或事件还没有发展到危机状态的时候,如果能够对那些局部的或者看似没什么关系的离散事件及时作出准确分析和判断,就可能及早采取措施减少损失甚至避免发生危机。和现实世界不同的是,网络安全领域给我们的响应时间更短,不是以天计,经常是以小时甚至分钟来计算的。
2.“预”能力建设和衔接
然而,无论现实世界还是网络世界,满足应急响应时间要素的要求都并非易事,而是面临巨大的技术挑战。例如,大雪事件中,怎么能够更早预测到会演变成雪灾?如果人类的天气预报水平再上升几个台阶,或许就不是问题了,但是目前在技术上显然还不行。网络安全领域也是如此,能“预警”当然很好,但这还是一个努力的方向。
“预测”、“预警”都属于在事件发展到特定阶段之前就需要解决的问题,对于这类立足于事前的能力,可以称之为“预能力”。天气预报能力、目前很多人研究的网络安全预警能力,实际上都属于单一领域的预测分析能力,面临的是这些领域的纯技术挑战。而本次大雪事件还提醒我们,综合的预警能力也需要重视:很多因素之间是相互关联相互影响的,例如煤、电、交通、气象、生活用品供应、物价等等,在作预警分析的时候,如何综合这些不同的因素,恐怕是另外一个严峻挑战。在网络安全领域,这一点似乎考虑得也不够。
事前的“预能力”还有很多。本次事件中,电线系统的设计标准、交通系统和能源供应的灾备、老百姓的应对知识等,如果在事件发生之前都有更好的准备,情况也会完全不同。网络安全领域,这体现在各种安全防护措施,包括设备、策略等。灾难预防、应急备份等也都属于这个领域。
本次大雪事件,应对工作主要在事中控制,但是表现出事中控制缺乏和事前预防的结合。网络安全领域也是如此,应急响应是要和事前的“预能力”结合起来的,而目前在很多预案设计、服务实施等工作中,也感觉到应急响应和其他环节之间融合得不好。这种情况不改变的话,面对重大网络安全事件将会十分被动。
三、 “紧急状态”和“流”控制
1.网络安全领域的“紧急状态”
本次大雪事件应对过程中,曾经出现了局部协调与协作方面的问题:在抢修道路的时候,虽能多方面力量集中在一起,但是只有解决了统一指挥协调的问题,才能让这些力量密切配合发挥合力。另外,在一些骨干高速公路中断的情况下,周围的外省公路面对绕道的车辆还收取费用,导致疏散工作的效率受到影响,体现的也是总体协调的问题。
然而,通过什么方法来尽快建立这种统一协调的机制呢?其实几乎所有的应急预案里面,基本上都包括这方面的考虑,但是在面对本次事件这种大规模复杂事件的时候,发现原来的考虑还是不够。为此,有人呼吁尽快建立“紧急状态法”和相关机制来解决这个问题。
网络安全领域也需要考虑“紧急状态”的问题,一方面同样用来解决统一协调的问题(在公共互联网或者大型企业网中网络平时是分别建设管理的,在一般的企业网中在紧急关头也存在安全官和其他部门领导之间的协调问题),另一方面用来解决技术层面的很多问题。例如,在日常状况下,企业的安全策略可能采用“红灯”模式(只有明确禁止的流量不许通过),而在紧急状态下可以采用“绿灯”模式(只有明确可以通过的才放行),或者说一旦进入紧急状态,除了个别保留的服务之外其他全部禁止。另外,在紧急状态下还可以考虑启用全面的流量监控或者日志;启用紧急备用的线路、设备、服务;启动强制扫描或者安全检查;等等。这些“紧急状态”的措施,应该列到应急预案中,以明确在什么情况下可以实施。
2.网络安全领域的“流控制”
紧急状态下的控制措施,到底应该控制什么呢?前文举了几个例子,但是有什么可以系统考虑这个问题的方法依据呢?在2008年中国应急年会上,何德全院士提出了一个观点:突发事件的应急控制的最终目标是“流”的控制,例如人员流、信息流、能源流、物流等。大雪事件首先导致了人流的传送不畅,先是公路,后来包括铁路甚至飞机;之后导致物质流、能源流等的严重受阻,能源流中断又影响到通信流,等等。应急响应的目标实际上就是要解决如何让这些“流”能够恢复通畅的问题。
网络安全应急响应也需要考虑如何控制相关的“流”:要分析一个安全事件会首先影响到哪些“流”,它们受到影响的话,会引起哪些连锁反应(导致别的“流”出现问题);要分析能够采取什么措施来维护要保障的“流”;要分析什么是企业或被保护主体最关键的“流”,在紧急状态下如何舍弃其他内容来确保这部分的存活,等等。
和现实世界不同的是,网络安全领域的“流控制”还可以包括如何遏制“破坏流”,因为网络世界中的很多事件是人为导致的,遏制攻击行为有时也可以取得效果,而且面对有目标的人为攻击,有时候这种方法更是必不可少。即便是面对现实世界中的“天灾”,人类也不是甘于被动的,一些研究也在努力增强人类对自然灾害的干预能力。
公共互联网中有过类似的例子,比如大量蠕虫让网络拥塞,通常情况下建议用户下载补丁防范蠕虫的措施,由于网络本身拥塞甚至瘫痪,用户根本无法获得补丁,也无法通过网络寻求技术支援。在现在的应急预案中,应急指挥和相关组织体系之间通过电话、电子邮件、电子工单系统等方法作为指挥和信息流的承载体系,但当网络安全突发事件发生的时候,这个信息交换渠道可能不能用,需要有所考虑。911事件中也出现过大量手机电池耗尽无法充电,从而使得指挥沟通受到严重影响的情况。
四、 一些其他问题
本次大雪事件还有一些其他启发,对网络安全应急响应工作也有参考意义。
1.用户教育
用户的危机应对意识和能力培养,实际上也属于应急的“预”能力。用户这方面的能力强了,会在突发事件中采取适当的措施减少损失。例如日本在预防地震领域的全民教育就是一个成功经验。我国的大雪事件则反映出这方面的工作还需要加强。网络安全领域,也一直强调用户意识提高,但是原来更多强调的是防护意识,而对于网络安全领域的突发事件应对和自我保护方面的用户教育,则还比较薄弱。
2.社会力量动员
在突发事件中动员一切可以动员的社会力量,能够提高整体危机应对能力和降低损失。突发事件应对不仅仅是政府的事情,更是全社会的事情。如果能恰当地引导社会力量在突发事件应对中发挥作用,是可以解决大问题的。大雪事件中,动员社会力量及时清扫路面冰雪、组织当地社会力量为堵在公路上的人员提供支援或者救助,都是正面的经验。网络世界里面也有这样的事情,在大规模或者其他一些特定事件中,依靠有限的力量向广大用户提供帮助可能会变得效率低下甚至无法满足要求,如何发挥社会力量的作用是需要考虑的。
3. 媒体管理
在任何突发事件应对的过程中,媒体管理都是一项重要的工作。媒体的信息,可能对整个事件的变化产生重要影响。本次大雪事件中,媒体的声音直接影响到人们的出行计划,进而又直接影响到整个事件的发展,过于乐观的信息加重了交通方面的压力。媒体管理的内容之一就是通过媒体信息对公众的引导,以减少损失或者有利于应对危机。美国新奥尔良飓风事件也有同类教训。媒体管理同时也是一个比较复杂的工作,在网络安全应急响应领域,媒体管理应该怎么做,在目前的应急预案中虽然都提到这方面的内容,但是在细节上应该还有很多值得推敲的地方。
五、 结语
现实社会中的突发事件越来越显示出其复杂性,而公共互联网领域的突发事件,同样具有很高的复杂性,并且有更高的技术要求。因此,不论是现实世界还是网络世界,应急响应体系中都离不开一个强而有力的指挥协调体系,为保证各个环节流的通畅进行应急统一指挥协调;离不开一个或多个专门的专业团队,为事件状态分析判断和预警、应时采取具体措施等工作提供直接的支持;还离不开周围环境中所有人员的安全意识和应急知识的提高;离不开来自媒体正确的舆论引导以及各个组织间、参与者之间的团结协作。因此,应急响应不仅是一个管理问题,也是一个技术问题。也就是说,不是思想上重视了,组织机构和制度上落实了,就能够发挥作用的,还需要对应急响应的方法、综合分析预警能力等进行深入的研究,结合到应急响应的具体执行中,才有可能让组织机构、技术体系各种各样的制度结合在一起,以更好地应对突发事件。