携程瘫痪事件确认系员工误操作所致

jopen 9年前

5 月 29 日消息,今天凌晨1:30 分,经携程技术排查向新浪科技确认此次事件是由于员工错误操作导致。

对于恢复时间较长,携程回应称,因涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。携程官方网站及 APP 已于 28 日 23:29 全面恢复正常。(伊凡)

以下为携程对相关问题的说明:

1、事件发生原因

经携程技术排查,确认此次事件是由于员工错误操作,删除了生产服务器上的执行代码导致。

2、为什么恢复时间那么长

一般来说,类似携程这样的大型网站承载着繁多业务,其后台是一个由 SOA(面向服务)架构组成的庞大服务器集群,看似简单的一个页面背后由上千个应用子系统以及上千个 Web Service 组成,而每个应用子系统和每个 Web Service 之间都存在着相互调用的依赖关系。

发生事件后,携程的技术人员除了需要恢复生产服务器上的执行代码以外,还需要做的是恢复并确保每个应用子系统以及每个 Web Service 的功能正常,同时确保应用子系统与 Web Service 间的调用关系得以正常执行。

这种验证性的操作需要携程的工程师及运维人员通力合作,尽快恢复生产代码并通过反复地、持续性地调试以确保应用子系统与 Web Service 功能的正常运行。

携程再次保证,数据和数据库并未受到此次事件的影响,用户订单数据也完整无损,请用户放心并继续使用携程网站及 App。

3、如何杜绝此类事件的再次发生?

携程在系统上做了改进,规范并杜绝技术人员错误删除生产服务器上代码的操作。

来自: 新浪科技