【理论学习】Transformer模型的参数量、计算量、中间激活、KV cache

Zhang, Hongxing • 2024年10月10日 pm11:56 • LLM, Newest • 298 阅读

transformer参数量计算

总的，每个transformer层的参数量为 $12 h^{2} + 13 h$ $12 h^{2} + 13 h$ 。

除此之外，词嵌入矩阵的参数量也较多，词向量维度通常等于隐藏层维度 $h$ $h$ ，词嵌入矩阵的参数量为 $V h$ $V h$ 。最后的输出层的权重矩阵通常与词嵌入矩阵是参数共享的。

关于位置编码，如果采用可训练式的位置编码，会有一些可训练模型参数，数量比较少。如果采用相对位置编码，例如RoPE和ALiBi，则不包含可训练的模型参数。我们忽略这部分参数。

综上， $l$ $l$ 层transformer模型的可训练模型参数量为 $l (12 h^{2} + 13 h) + V h$ $l (12 h^{2} + 13 h) + V h$ 。当隐藏维度 $h$ $h$ 较大时，可以忽略一次项，模型参数量近似为 $12 l h^{2}$ $12 l h^{2}$ 。

原文链接：https://blog.csdn.net/qq_40910191/article/details/134070085

版权声明：
作者：Zhang, Hongxing
链接：http://zhx.info/archives/113
来源：张鸿兴的学习历程
文章版权归作者所有，未经允许请勿转载。

THE END

Transformer

二维码

【重点】了解卷积神经网络

< <上一篇

【中科院自动化所实习】行人属性识别调研学习

下一篇>>

文章目录

关闭

搜索内容

【理论学习】Transformer模型的参数量、计算量、中间激活、KV cache

transformer参数量计算

Table Of Contents