【理论】Transformer模型的参数量、计算量、中间激活、KV cache
transformer参数量计算
总的,每个transformer层的参数量为 。
除此之外,词嵌入矩阵的参数量也较多,词向量维度通常等于隐藏层维度 ,词嵌入矩阵的参数量为 。最后的输出层的权重矩阵通常与词嵌入矩阵是参数共享的。
关于位置编码,如果采用可训练式的位置编码,会有一些可训练模型参数,数量比较少。如果采用相对位置编码,例如RoPE和ALiBi,则不包含可训练的模型参数。我们忽略这部分参数。
综上, 层transformer模型的可训练模型参数量为 。当隐藏维度 较大时,可以忽略一次项,模型参数量近似为 。
原文链接:https://blog.csdn.net/qq_40910191/article/details/134070085
版权声明:
作者:Zhang, Hongxing
链接:http://zhx.info/archives/113
来源:张鸿兴的学习历程
文章版权归作者所有,未经允许请勿转载。
THE END
二维码
文章目录
关闭