【理论】Transformer模型的参数量、计算量、中间激活、KV cache

transformer参数量计算

总的,每个transformer层的参数量为12h2+13h 

除此之外,词嵌入矩阵的参数量也较多,词向量维度通常等于隐藏层维度 h ,词嵌入矩阵的参数量为 Vh 。最后的输出层的权重矩阵通常与词嵌入矩阵是参数共享的。

关于位置编码,如果采用可训练式的位置编码,会有一些可训练模型参数,数量比较少。如果采用相对位置编码,例如RoPE和ALiBi,则不包含可训练的模型参数。我们忽略这部分参数。

综上, l 层transformer模型的可训练模型参数量为l(12h2+13h)+Vh 。当隐藏维度 h 较大时,可以忽略一次项,模型参数量近似为12lh2 

原文链接:https://blog.csdn.net/qq_40910191/article/details/134070085

版权声明:
作者:Zhang, Hongxing
链接:http://zhx.info/archives/113
来源:张鸿兴的学习历程
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>
文章目录
关闭
目 录