LLM
-
【理论】Watermark:大模型水印源码阅读记录
摘要:在这篇博客中,我将介绍水印的两个关键组件:WatermarkLogitsProcessor和WatermarkDetector。WatermarkLogitsProcessor的作用是在生成文本中插入水印信…… -
【大模型简介】LLM Fine-tunning
摘要:为了进一步了解大模型,我查阅学习了三种预训练大型语言模型的微调技术:参数高效的fine-tuning(PEFT)、Prompt-tuning、以及Instruction-Tuning。 1 …… -
【理论】Norm:四种归一化的介绍及优缺点
Batch Norm:把每个Batch中,每句话的相同位置的字向量看成一组做归一化。 Layer Norm:在每一个句子中进行归一化。 Instance Norm:每一个字的字向量的看成…… -
【理论】Transformer模型的参数量、计算量、中间激活、KV cache
transformer参数量计算 总的,每个transformer层的参数量为12h2+13h 。 除此之外,词嵌入矩阵的参数量也较多,词向量维度通常等于隐藏层维度 h ,词嵌入矩阵……