从5月28日中午开始,携程旅行网开始无法正常登陆,直到23日23:29分才完全恢复正常。整个恢复过程持续了整整12个小时,在业内已属罕见。昨天一天的刷屏,各种分析,各种猜测,我当时最大的感觉可能是“内部人员”恶意报复所致,如此大面积的瘫痪,说明攻击者对携程的巨大多数应用服务器和数据库服务器非常熟悉,否则只能是局部被破坏。和我同感的还有搜狐八姐,看她的开八吐槽: ,就当一乐。(微信回复:携程 查看该文章)
今天凌晨,携程在其官方微博上发布了原因,简单一句员工错误操作导致,未免不让人想入非非。
再联想到昨天的支付宝风波,网站安全和数据安全又一次敲打着我们的神经,通过这一次次的事件,又让我起了吐槽的冲动,但是我改吐槽谁呢?
吐槽一:整个行业对信息安全不重视
年轻的时候非常喜欢看黑客的故事,感觉他们上天入地,无所不能。其实大部分黑客攻击事件,并不说明黑客多么高明,而说明我们的网站太多的漏洞。据说,中国90%的政府网站都存在漏洞,其实国外也差不多,可能比例没那么高。还记得当年钓鱼岛事件时,中日国旗在日中政府网站高高飘扬的情景。中国的互联网快速发展,快速发展过程中未免出现问题,大家都在乎业务的推进速度,赚钱的速度,而对于网络安全,它离业务太远,而且占用很大成本,导致被边缘化。但是一旦出现问题,所带来的后果却是惨重的,但大部分公司还是带着侥幸的心理。从这个角度上来说,这些网络事件也起到积极的作用,让整个行业对信息安全更加的重视了。
吐槽二:很多公司对运维岗位不重视
这是我从业这么多年的感觉,可能没有在大公司待过的缘故,在中小公司运维基本上上一个可有可无的角色。很多技术部门甚至没有运维的岗位,开发人员负责应用服务器的部署,调优,数据库的管理。所以,有时候当出现问题,往往是程序员被这个黑锅。难道所有的问题都是代码写的不好吗?网站效率不高,代码上的优化占了多大的比例?很多技术团队没有概念。运维工程师和开发工程师完全是两个岗位,工作性质有非常大的不同,让开发人员兼做运维,开发效率肯定不高;让运维人员兼做开发,也无法保证系统能够高质量运行。这么多年,我一直强调运维的重要性,但是还是那个原因运维离业务太远了,所以被边缘化了,公司更希望把钱投入到和业务比较近的开发上。虽然没有投入资源,但是运维的事在那放着,应用服务器的优化决定了网站访问的性能,数据库的优化决定了数据访问的性能,这时候就是开发工程师在做,一是不专业,而是也拖慢了开发的进度。
吐槽三:运维管理工作过于简单
一个公司在技术的投入,需要考虑成本,效率和收益。完善的管理流程,必然导致效率的降低,成本的增加,所以运维的管理工作就变的粗放了,运维人员甚至开发人员可以随意的登录生产环境部署代码,操作数据库。没有自动化的集成部署环境,完全纯手工的操作,不可避免会存在问题。运维缺少必要的流程和责任机制,没有制度的支撑,安全保障全部依靠运维人员的责任心,当这种人为的依赖过重,一旦出现人员上的问题,后果不堪设想。就像携程这次事件,大家在怀疑内鬼,也不是空穴来风。
一次次的惨痛的教训,给我们敲响了警钟。通过三个吐槽点,我们希望整个互联网重视信息安全,在业务快速发展的同时加强对安全的投入和数据的保护;我们也希望高层领导不要只是盯着前方一遍遍的吹起冲锋号,祸起萧墙,后院着火,前线也无法全身心投入战斗;我们也希望自己的技术部门,建立运维岗位职能,加强我们运维的能力,保证系统高质量,平稳安全的运行,让开发人员专注于产品开发,让业务人员放心在前方作战。
小贴士:yongtree原创文章欢迎转载,转载请注明出处和作者,谢谢!
yongtree的IT吐槽微信号:yongtree_it
码农出身,喜欢架构
现做产品,掌上医讯