搜索内容

包含标签:Transformer 的文章
  • 【理论】Transformer模型的参数量、计算量、中间激活、KV cache
    LLM

    【理论】Transformer模型的参数量、计算量、中间激活、KV cache

    transformer参数量计算 总的,每个transformer层的参数量为12h2+13h 。 除此之外,词嵌入矩阵的参数量也较多,词向量维度通常等于隐藏层维度 h ,词嵌入矩阵……
    Zhang, Hongxing 2024年10月10日
  • 【重点】Transformer
    AI

    【重点】Transformer

    摘要:Transformer模型通过自注意力机制进行信息建模,包含编码器和解码器两部分。编码器将输入序列转化为上下文丰富的表示,解码器则根据编码器输出和已生成……
    Zhang, Hongxing 2024年8月18日