这两天字节跳动的一个新闻上了热搜,相信大多数人应该都已经听说了:
事情大致经过就是字节跳动一个新实习生想删除HDFS下一个目录,可能是存储空间不够了吧。然后经过多方求证,确定了这个目录已经没用了,接着删除了,还使用了无法恢复的命令删除的。
这下公司很多轻量级模型全被删没了,受到了一定程度上的影响,也被认定为P0级事故。但因为实习生也是误删,还多方求证过的,所以对他的影响应该没那么大。
在知乎上还看到了个有趣的评论:
张一鸣:要Always Day 1。
实习生:懂了。
当然这只是调侃,虽然实习生权限给这么大,也反映了字节跳动一视同仁,人人平等的文化理念,但也暴露出了一些权限管理上的漏洞,这次事件也能给他们敲响警钟。
还有救吗?
我相信字节跳动应该有能力恢复被删除的模型的。那要是真的无法恢复了,就得全部重新训练了。虽然模型也不大,但架不住数量多啊,真要全部重新训练,还是得耗费不少时间的。
这时候有什么办法可以挽救呢?可以试试字节跳动人工智能实验室最近开源的LightSeq新版训练引擎啊!
目前主流的NLP模型和部分CV模型都是基于Transformer的。用LightSeq进行训练加速,本来要3天训练完的,现在最快只需要1天!
技术原理和使用教程也在最近发布了,亲测非常好用,只需要几行代码。
技术原理:
https://zhuanlan.zhihu.com/p/383657837
使用教程:
https://zhuanlan.zhihu.com/p/382961951
项目地址:
https://github.com/bytedance/lightseq
如果觉得好用,还请帮忙转发,点个star,让更多的人体会到极速训练的快乐。