纽交所避免停运尴尬的良策

2015-07-13 |  作者:佚名 |  来源:ZDNet

摘要纽约证券交易所周三停运后发事后通报做了解释,称导致交易停顿了三个小时的罪魁祸首是软件更新。

纽约证券交易所周三停运后发事后通报做了解释,称导致交易停顿了三个小时的罪魁祸首是软件更新。

纽交所称新软件的安装是为了应付行内的SIP时间戳要求的测试。

毛病软件装到生产服务器上后,立即引起与系统网关之间的通信问题。证券交易者是通过该网关访问系统的。据纽约证券交易所的发言人说,该网关的配置尚未与更新后的版本兼容。

当天上午开市后问题就出现了,几个小时内问题升级,最后纽约证券交易所和其属下纽交所MKT的交易被关闭。纽交所MKT的前称是美国证券交易所。

该发言人称,“客户7点开始连线……周三上午,用了新版本,客户网关与交易单位之间的通信出了问题。”

一位数据中心基础设施专家告诉记者,这样的问题有时是不可避免的,不过更强劲的测试方案或许可以防止这么多尴尬的发生。

关键信息系统是一家总部设在洛杉矶的数据中心运营商。该公司的总裁Lief Morin表示,可以吸取教训,重要的一条是:在将软件更新和新科技部署到任何与生产环境有关的地方都要先广泛地对其进行测试。

“这方面已经有制度和程序可循,我们称之为:构建、测试、运行。我们有不同的系统去做全部三项。先构建,然后测试性能、可靠性和可升级性,然后在一组独立的架构上运行。”

几乎在纽交所出现系统故障的同时,美国联合航空公司由于系统故障要停飞旗下的全球航班,华尔街日报网站主页也因出故障下线。政府官员称三起事故没有联系以及不存在任何形式的协调网络攻击。

Morin表示,周三“有趣的三连击”的作用是“给我们提了个醒,我们严重依赖科技,但有时科技会失灵,不常见但可能发生,比如这次。这次三起备受关注的事情发生在同一时间,就是给我们一个很好的提醒,一定要警醒这一类事的发生。“

他表示,至于这些系统是在中断服务的情况下,切换到备用系统的,他对此不感到惊讶。

Morin告诉记者,“我们都一厢情愿地相信可以创建一个百毒不侵的系统。但实情并非如此。这是不可能的。我认为这次在一定意义上来说让我们眼界大开。”

他称,测试和质量保证绝对要做到家,尽管仍然不能保证万无一失。

他说起联航和纽交所时表示,“我可以说的是,可以在这一块的吸取教训,而且我敢肯定,他们会这样做的。系统是建立在抗压和和冗余这一层上,然后,一旦投入生产,它就不再是一个静态、完整的一体。我敢保证他们做足了这方面的工作(+微信关注networkworldweixin),但似乎还是出了纰漏。”

纽交所发言人表示,纽交所IT人员在交易单位上部署新软件时遵守的是标准方案。

发现问题后,当时还是在上午9:30市场开盘前,就用正确版本的软件对网关就行了更新以支持兼容性。

该发言人表示,“但更新过的网关引起网关和交易单位之间的其他问题,到了10点左右问题越来越大。”

客户不断地报告系统异常,最后到上午11:32时只好做出停止交易的决定。

纽交所最终对旗下在新泽西州Mahwah数据中心的所有客户网关进行了重启并切换到备份交易单位,交易随之得以恢复。

云备份公司Datto的服务业务发展副总裁Rob Rae告诉记者,纽交所故障的真正原因很可能影响到更多的企业:IT投资的缺乏。

Rae告诉记者,“这是可以预防的。看来他们对宕机没有一个适当的计划。”

美国人经常在宕机时指责黑客和恐怖分子,但他们其实应该在自家找原因。

“纽约证券交易所身处不断发展企业之首,却对IT部门不够重视。这是不应该发生的。说实在的,我们将这一类的“故障”自然而然地归咎于恐怖主义,其原因是,事情的真正缘由更令人心惊。这一类的宕机或许是可以避免的。”

相关文章