原来下午两点刚过,格雷格手下操作部门的投资客服服务台接连接到三个电话,客户报告在投资操作网页转换过程中,有一瞬间看到的是别人帐号的资产信息。由于错误是稍瞬即逝而且无法复制,客户提供的信息无法用来当作线索迅速找到出错的原因。
就像海上航行一样,遇见浮冰并不可怕,可怕的是浮冰下面的巨大冰山。虽然目前只有三个客户报告眼睛一花看到别人的资产,但是不等于没有另外三千个客户不但一眨眼看到别人资产,还二眨眼悄悄据为己有。格雷格刚给肖恩通了气,还没搁下电话就又多了两个同样的报告。投资客服报怨电话有个杠杠,十个电话以下算用户个人问题,十个以上同样的报怨电话就算是系统问题了,马上黄灯亮警报响,自动报警email和BB机信号满天飞,各部门大小经理板起面孔神经绷紧,随时准备伸出右手食指把矛头指到别人身上。
而金融软件最怕的就是安全问题。如果说软件功能方面出问题就象生产线上出几个次品一样,也就是打几下手心的惩罚,那么信息安全出问题就是同事男女关系出了轨,领导和群众不但要批判你的道德品质、思想态度,还要质疑你的智商情商。肖恩放下电话有如五雷轰顶,公司有史以来客户安全问题很少听说,不是没有但是起码都被瞒得滴水不漏。这次问题肯定跟昨天的季度更新有关,现在离昨天的更新已经过去快24小时了,一共影响到多少用户还不得而知。如果是账面资产数目一时出了差错,一般事后都能追究出来,改回去,但是自从2002年加州通过《信息安全泄漏明告法则》(California Security Breach Notification Requirements)以来,各个州都立下类似的法律,任何公司不论大小,如果有泄漏顾客身份信息的情况,哪怕只是牵涉到一个两个客户,也必须自揭伤疤,把问题的前前后后写信通知所有的客户,外加检讨书悔过书决心书。如被查出违反此项规定,罚款可达上百万美元。大厦将倾千钧一发,肖恩坐在空荡荡的大会议室里,心情沉重满面沧桑。他不能想象这漫长的下午结束时会是个什么情景。格雷格答应先把零散警报压下30分钟,但是如果报警客户一超过十个,那就大势已去鞭长莫及了。
托尼走进会议室悄悄坐下,看到人人一副大难临头的神情,乍着胆子小声引了一句罗斯福的名言:“最大的恐惧是恐惧本身(The greatest fear is fear itself)!”大家眨眨眼睛觉得托尼说得有理,没必要先自个儿把自个儿吓傻了,没准那报警的五个客户不过是老眼昏花,要么发财心切看走眼了呢!托尼接下去说:“这次问题出得蹊跷,如果五个客户不是在发昏胡说,那我觉得一定是和客户流量(load)有关,昨天下午反复测试都没有问题。而且不仅仅是流量,一定也和系统启用时间的长短有关系,比如今天早上高峰时期也没有问题,到下午两点的高峰因为系统运转时间长了,程序如果写得不好,资源回收不力,Java线层管理(thread management)出了问题,就可能造成在线用户资料窜层。”肖恩注意听着觉得有理,出的问题并不是那么深不可测,于是绝望的神情慢慢消褪下去,心思开始集中在如何力挽狂澜上。他说:“周末更新的软件一定有问题,要撤下来是肯定的,但是两点开始的高峰要在下午四点股市收盘后才回落,而且我们在晚上八点之前都无法名正言顺地停机撤软件。如何保证这段时间不再发生窜帐号事件??”
屋里一时鸦雀无声。问题都不知道出在哪里,谁又有那个能力保证这种随机性的错误不再发生?雅姆娜不愧在IBM混,见多识广。她果断地说:“我看咱们得分头行动,一拨人要去清查那出错的五个帐号,根据操作日志(log)重塑下午的操作过程,最大程度地了解出错的真假、性质、范围和背景。第二拨人要去跟踪所有的监察系统,密切注意意外可疑动向,以免有坏人利用我们系统的错误钻经济空子。第三拨人要想办法控制流量,如果高流量会增加出错的机率,那我们就要想办法把流量人为地压下来,宁可让客户抱怨系统反应慢,也总比出安全差错强!”
托尼鸡啄米似地点头称是,还补上一句:“如果真是程序中资源安排和回收不力造成窜层,那么系统重启(reboot)可以回收资源从头开始,避免错误再次发生。我们所有的电脑系统都是群组化的(clustered,即数台机器支持同一个软件,互相分流,互为后备),轮流悄悄抽一台电脑出来重启,那么生产线上的客服网页除了运行效率以外不会影响整个功能的运行。”
肖恩一拍桌子:“就这么办!我去找大卫暗地里压控网络流量,你们几个分头去办其他几项,三点正雅姆娜主持电话会议,大家汇报情况,再把中国那头的团队人人都从床上叫起来!”
那天下午大家战战兢兢地等着明晃晃的达摩克利斯之剑(the sword of Damocles)“咔嚓”掉到脑袋上。过了下午四点,客户窜帐报告增加到九个,然后就没有再往上涨。好容易熬到晚上八点,肖恩组织人手立刻关闭客服网页,把周末施行的软件更新全部撤回,认真调试完毕以后再重新开张。格雷格也派出人手反复核对当天的每一笔金融交易,搜寻营私舞弊的迹象。晚上十点肖恩给麦克打了电话,汇报了公司客服网页回复正常。麦克电话中指出这个事件已经上报了总裁,明天就要开始调查,研究对策,决定公司是否需要自打耳光昭告天下,向二十万客户及其家属赔罪。肖恩疲惫地放下电话,极度沮丧之中肖恩又接通了格雷格的电话。格雷格同情地安慰了肖恩几句,末了反复叮嘱:“明天开始调查,千万记住,把所有的责任都推到那个印度女人身上!”
(未完待续)