分类
字节跳动 | AI Lab | 算法工程师
从多线程到多进程:如何让你的小电影下载飞快? 从多线程到多进程:如何让你的小电影下载飞快?
关注公众号【算法码上来】,每日算法干货马上就来! 你有没有遇到过这样的问题:在网络上找到很多部你迫不及待想看的小电影,却发现下载速度慢得令人抓狂?那么,你可能需要知道一些关于CPU多线程和多进程的知识,让我们一起揭开CPU的神秘面纱,
2023-07-15
这道小学六年级的数学题,恕我直言没几个人会做 这道小学六年级的数学题,恕我直言没几个人会做
关注公众号【算法码上来】,每日算法干货马上就来! 今天网上冲浪的时候突然看到一道小学六年级的数学题,如上图所示,求阴影部分的面积。 我下意识就想到了微积分,这不就建立坐标系,求出交点,计算积分就行了嘛。转念一想,小学生哪里会积分,这
2021-12-18
昨晚学妹参加了B站秋招笔试,还想考考我? 昨晚学妹参加了B站秋招笔试,还想考考我?
学妹昨晚参加了B站的2022届秋招算法笔试,做完给我发来了一道题,想考考我,说挺难的。 我看了两分钟,给她发去了我的思路。然后学妹一眼就看懂了,立马秒过。 那么这道题到底是怎么做的呢? 题目要求将$n$个数切分成$k$块,求每块的序号乘上该
2021-08-26
cuBLAS矩阵乘法性能分析(附代码示例) cuBLAS矩阵乘法性能分析(附代码示例)
使用教程矩阵乘法是神经网络中最基础、最重要的一个运算。在用CUDA实现矩阵乘法时,不需要我们手动写,cuBLAS库提供了现成的矩阵乘法算子,例如cublasGemmEx和cublasLtMatmul。其中后者是轻量级版本,API调用更灵活。
2021-08-24
训练BERT,我只花了一半的时间 训练BERT,我只花了一半的时间
相信很多人都知道Hugging Face,也都用过它的Transformers预训练语言模型,但你们有没有觉得它训练的有点太慢了呢? 这时候,字节第二快的男人要站出来了(第一快是我mentor),手把手教你怎么让训练时间缩短一半。 训练BE
2021-07-13
恕我直言,你们的模型训练都还不够快 恕我直言,你们的模型训练都还不够快
周末在家没事干,也没人约了打游戏,于是打开了gayhub闲逛,哦不,是github。 然后发现了一个挺有意思的项目: 也就是将你模型中的参数全部存储为一个连续的内存块,加速你的模型训练。 于是我抱着试试看的心态,基于Fairseq和Lig
2021-06-26
网传字节跳动实习生删除所有轻量级模型,还有救吗? 网传字节跳动实习生删除所有轻量级模型,还有救吗?
这两天字节跳动的一个新闻上了热搜,相信大多数人应该都已经听说了: 事情大致经过就是字节跳动一个新实习生想删除HDFS下一个目录,可能是存储空间不够了吧。然后经过多方求证,确定了这个目录已经没用了,接着删除了,还使用了无法恢复的命令删除的。
2021-06-25
只用几行代码,我让模型『训练』加速了3倍以上! 只用几行代码,我让模型『训练』加速了3倍以上!
最近总有学妹问我,论文要截稿了,模型来不及跑怎么办? 还有学妹问我,有好多idea,验证一个就要跑一周怎么办? 这时候我想起了下面这张图,我想这句话反映了大多数从事人工智能的科研工作者们目前的状态。 于是我告诉学妹,想要快,找我就对了,我
2021-06-21
训练加速3倍!字节跳动推出业界首个NLP模型全流程加速引擎 训练加速3倍!字节跳动推出业界首个NLP模型全流程加速引擎
如今NLP和CV领域的大部分任务都将Transformer作为基础模型。而早在2019年12月,字节跳动曾经开源过一款Transformer类模型推理加速引擎——LightSeq。作为业界第一款支持多种模型和解码方法的推理加速引擎,Lig
2021-06-21
只用两行代码,我让Transformer推理加速了10倍 只用两行代码,我让Transformer推理加速了10倍
最近有学妹问我,我训了一个Transformer模型,但是预测好慢啊,有啥解决方案吗? 我心想,你又想好,又想快,咋不上天🚀呢? 于是我跟她说,你可以试试lightseq啊,跟闪电⚡️一样快,用了你就可以上天了。 她一脸懵比,light
2021-04-13
熬了几个通宵,我写了份CUDA新手入门代码 熬了几个通宵,我写了份CUDA新手入门代码
在用PyTorch或者TensorFlow搭积木的时候,你是不是也遇到过下面这些情况: 自带的算子及其组合都无法满足你超(bian)常(tai)的计算需求。 自带的算子不可导,需要自己定义反向传播的梯度,例如argmax。 自带的算子太慢
2021-03-28
三分钟教你如何PyTorch自定义反向传播 三分钟教你如何PyTorch自定义反向传播
在前面两篇教程中,我们详细讲解了如何编写cuda算子,并用PyTorch进行调用,并且详细讲述了三种编译cuda算子的方式,具体可以看前面两篇: https://godweiyang.com/2021/03/18/torch-cpp-cud
2021-03-24
1 / 12