搜索内容

LLM
  • 【理论】Watermark:大模型水印源码阅读记录
    LLM

    【理论】Watermark:大模型水印源码阅读记录

    摘要:在这篇博客中,我将介绍水印的两个关键组件:WatermarkLogitsProcessor和WatermarkDetector。WatermarkLogitsProcessor的作用是在生成文本中插入水印信……
    Zhang, Hongxing 2024年11月16日
  • 【大模型简介】LLM Fine-tunning
    LLM

    【大模型简介】LLM Fine-tunning

    摘要:为了进一步了解大模型,我查阅学习了三种预训练大型语言模型的微调技术:参数高效的fine-tuning(PEFT)、Prompt-tuning、以及Instruction-Tuning。 1 ……
    Zhang, Hongxing 2024年11月13日
  • 【理论】Norm:四种归一化的介绍及优缺点
    LLM

    【理论】Norm:四种归一化的介绍及优缺点

    Batch Norm:把每个Batch中,每句话的相同位置的字向量看成一组做归一化。 Layer Norm:在每一个句子中进行归一化。 Instance Norm:每一个字的字向量的看成……
    Zhang, Hongxing 2024年10月25日
  • 【理论】Transformer模型的参数量、计算量、中间激活、KV cache
    LLM

    【理论】Transformer模型的参数量、计算量、中间激活、KV cache

    transformer参数量计算 总的,每个transformer层的参数量为12h2+13h 。 除此之外,词嵌入矩阵的参数量也较多,词向量维度通常等于隐藏层维度 h ,词嵌入矩阵……
    Zhang, Hongxing 2024年10月10日