谈腾讯云硬盘故障导致前沿数控数据完全丢失事故,备份是多么重要

更新日期: 2018-08-08 阅读次数: 550 分类: 运维

早上一条公众号新闻火了,标题是

《腾讯云硬盘故障,导致用户「数据完全丢失」》

https://mp.weixin.qq.com/s/wcjvYpmg45RzlCdV47Cifw

看完标题我以为是标题党,因为我一直以为云服务商只要做了 raid 不太可能出现数据完全丢失的情况,恢复起来并不麻烦。

看完整个事件的经过之后,我才意识,果然是可以完全丢失数据啊。。。

沿数控数提出了一千多万的赔偿方案,而腾讯云只能赔付 13 万。

相关文章里还有一篇 《谷歌数据中心遭雷劈 0.000001%数据被永久删除》,这是2015年的新闻,再次说明云存储数据丢失虽然是小概率事件,但是并不是不可能的事情。连 Google 都会丢失数据,还有啥数据存储是万无一失的?

如何规避云存储的数据丢失

一定要做备份。再知名的云服务商也不能保证运维人员、开发人员是靠谱的。只要需要人工干预,这事就一定有出问题的几率。

备份一定是异地多份。我目前使用的是阿里云的存储,以及七牛云的存储,我平时会定期从服务器同步备份文件到本地电脑。

但是,总感觉不够自动化,下一步我想尝试,自动同步 dropbox 或者 S3。

云服务商的损失赔偿

腾讯云前沿数控这起事故,感觉腾讯云还是比较厚道的,给予了 13 万的赔偿,相当于前沿数控消费金额的37倍。

但是,从前沿数控的数据价值看,这点钱微不足道。毕竟这导致公司的历史积累和之前的所有引流活动前功尽弃。不过,前沿数控提出的一千多万的赔偿费用有点不要脸了,自己的运维不专业,把责任完全推给云服务商这个有点说不过去了。

所以,千万不要指望云服务商会赔付你的数据损失,自己做好数据备份才是正道。

腾讯云数据丢失事故的官方技术复盘

https://mp.weixin.qq.com/s/8JSPY6vHPhg8pX0JwjqttQ

当天上午11:57,我们的运维人员收到仓库Ⅰ空间使用率过高告警,准备发起搬迁扩容;在14:05时,运维人员从仓库Ⅰ选择了一批云盘搬迁至新仓库Ⅱ,为了加速搬迁,手动关闭了迁移过程中的数据校验;在20:27 搬迁完成之后,运维人员将客户的云盘访问切至仓库Ⅱ,同时为了释放空间,对仓库Ⅰ中的源数据发起了回收操作;到20:30 监控发现仓库Ⅱ部分云盘出现IO异常。

证明了我的猜测,有人工干预的事情就一定会出问题。估计是运维小哥为了提取下班,关闭了耗时的数据校验过程。但是,两处操作违规,处处透露出不职业的作风,客观的讲,运维人员以及直接领导都应该立即开除。直接领导对于团队成员的责任心都没数的话,根本没有资格任职。

如果整个过程有强制性的校验过程,就不会出现这个问题了。

谈笑风生

CSS 工程师

官方公布的故障原因,一般不是在各种因素里挑个表面上最说得过去的吗

大象

云服务的客户群体太专业了,部分用户甚至比云服务的开发者更专业,所以想隐瞒是不可能的,还是老老实实地交代比较好。理由实在不好编。。。说实话至少还有可能被大家谅解。。。

爱评论不评论

近期节日

2018年08月23日 处暑
2018年08月25日 中元节
2018年08月26日 火人节
2018年09月03日 抗日胜利纪念日
2018年09月08日 白露
2018年09月08日 国际扫盲日
2018年09月10日 教师节
2018年09月16日 国际臭氧层保护日
2018年09月16日 世界清洁地球日
2018年09月18日 "九一八"事变纪念日
2018年09月20日 国际爱牙日
2018年09月21日 国际和平日
查看更多节日