LLM
-
-
【理论学习】Transformer模型的参数量、计算量、中间激活、KV cache
transformer参数量计算 总的,每个transformer层的参数量为12h2+13h 。 除此之外,词嵌入矩阵的参数量也较多,词向量维度通常等于隐藏层维度 h ,词嵌入矩阵…… -
【理论学习】大模型位置编码
对于transformer模型,位置编码是必不可少的。因为attention模块是无法捕捉输入顺序的,无法区分不同位置的token。 位置编码分为绝对位置编码和相对位置编码。……