分类
字节跳动 | AI Lab | NLP算法工程师
手推公式之“层归一化”梯度 手推公式之“层归一化”梯度
昨天推导了一下交叉熵的反向传播梯度,今天再来推导一下层归一化(LayerNorm),这是一种常见的归一化方法。 前向传播假设待归一化的$m$维向量为$x$,均值和标准差分别是$\mu{(x)}$和$\sigma{(x)}$,LayerNor
2022-05-22
“交叉熵”反向传播推导 “交叉熵”反向传播推导
交叉熵(CrossEntropy)是常见的损失函数,本文详细推导一下它的梯度,面试大厂或者工程实践中都可能会用到。 前向传播假设分类任务类别数是$V$,隐层输出是$V$维向量$\mathbf{h}$,标准的one-hot向量是$\mathb
2022-05-21
当年如果有这个,语文就不会不及格了 当年如果有这个,语文就不会不及格了
最近在github上看到了一个项目,是小牛翻译开源的文言文-现代文平行语料,一共有967257个句对,地址在下面:https://github.com/NiuTrans/Classical-Modern 于是我突发奇想,何不用它来训练一个文
2022-01-16
【白话模型量化系列二】量化感知训练 【白话模型量化系列二】量化感知训练
关注公众号【算法码上来】,每日算法干货马上就来! 上一篇我们讲解了矩阵乘法量化的基本原理,这一篇来讲解一下量化前需要做的一些准备工作——量化感知训练。 【白话模型量化系列一】矩阵乘法量化 什么是量化感知训练呢?简单来说就是,浮点数转整
2021-12-17
【白话模型量化系列一】矩阵乘法量化 【白话模型量化系列一】矩阵乘法量化
模型量化是模型加速方向一个很重要的方法,主要思想就是用int8数据格式来存储和进行计算。这样做有两点好处: 可以减小模型存储的体积。原本float32存储需要4个字节,现在int8存储只需要1个字节,体积是原来的1/4。 可以加快计算速度
2021-11-25
最全攻略:利用LightSeq加速你的深度学习模型 最全攻略:利用LightSeq加速你的深度学习模型
前言LightSeq是字节跳动火山翻译团队开源的一款Transformer系列模型加速引擎,分为训练和推理两个部分。其中推理加速引擎早在2019年12月就已经开源,而训练加速引擎也在2021年6月开源。项目地址:https://github
2021-08-24
让大家久等了,BERT推理加速终于开源了 让大家久等了,BERT推理加速终于开源了
前几个月一直有不少小伙伴问我要LightSeq的BERT推理加速代码,当时内部已经使用了,但是一直没空整理开源。 现在代码终于整理好了,写了一个简单的样例,大家有需要的可以使用起来了。 实现原理这里我直接使用预训练好的BERT模型,用户只需
2021-08-10
养成女友?我训练出了一个“杨超越”聊天机器人 养成女友?我训练出了一个“杨超越”聊天机器人
在上一期教程中,我演示了如何从零开始训练一个比较智障的聊天机器人。 https://zhuanlan.zhihu.com/p/392175369 但是当时数据量太少,模型简单,完全没法用,只能回复训练集中出现过的句子。 而现在,完全体的聊天
2021-07-24
从零开始训练一个人工智障女友 从零开始训练一个人工智障女友
很多人工智能小白可能不知道那些高大上的语音助理、机器翻译或者聊天机器人都是怎么被创造出来的,也不知道一个深度学习模型是怎么从零开始搭建并运行起来的。 今天我就简单教大家如何从零开始搭建一个Transformer模型,并在自己的数据上训练起来
2021-07-21
如何自动搜出更好、更小、更快的NLP模型? 如何自动搜出更好、更小、更快的NLP模型?
关注公众号【算法码上来】,每日算法干货马上就来! 前言最近读了不少神经架构搜索(NAS)的论文,把NAS的整体脉络大致摸清了。 但是也发现了NAS目前还是用在CV领域居多,NLP领域和移动端优化寥寥无几。因此这里分享几篇NLP或者移动
2020-12-24
一文看懂AutoML 一文看懂AutoML
论文地址:AutoML: A survey of the state-of-the-art 最近看了些NAS的论文,发现上面这篇综述写的很不错,非常全面,详细拜读了一下。有很多细节不是很懂,也没空去精读原论文,但是能够对大致的脉络有个初步
2020-12-18
2020国际机器翻译大赛:火山翻译力夺五项冠军 2020国际机器翻译大赛:火山翻译力夺五项冠军
马上体验火山翻译:https://translate.volcengine.cn 在11月下旬结束的自然语言处理顶级学术会议EMNLP2020上,国际机器翻译大赛(WMT20)公布了赛事最终结果,来自字节跳动火山引擎旗下的火山翻译(Volc
2020-12-02
1 / 6