LLM
-
【理论学习】深度学习的三种并行方式
简介 数据并行 (Data Parallelism) 模型/张量并行 (Model/Tensor Parallelism),注意这个术语在这几年的发展中产生了一些概念上的转变,现在其实人们所说的模…… -
【理论学习】NLP语言模型概览-语言模型结构分类、BERT
语言模型结构分类 Encoder-Decoder(Transformer): Encoder 部分是 Masked Multi-Head Self-Attention,Decoder 部分是 Casual Multi-Head Cross-Attention 和…… -
【清深CVML组实习】基于LLM的图表理解-文献阅读汇报
摘要:图表对于呈现和解释复杂的数据关系非常重要。最近,多模态大型语言模型(MLLMS)在图表理解方面表现出显著的能力。然而,这些模型的庞大规模限制了它们在…… -
【理论学习】GPT和Bert的区别
1、GPT和Bert的区别? GPT vs Bert_bert和gpt的区别-CSDN博客 自学大语言模型之Bert和GPT的区别-CSDN博客 1)目标任务 Bert基于编码器,Bert 模型的输出是每…… -
【理论学习】RLHF实现框架
RLHF(Reinforcement Learning with Human Feedback)即带有人工反馈的强化学习。它是强化学习(RL)的一种变体,结合了人工反馈来提升学习过程的效率和效果。…… -
【理论学习】Watermark:大模型水印源码阅读记录
摘要:在这篇博客中,我将介绍水印的两个关键组件:WatermarkLogitsProcessor和WatermarkDetector。WatermarkLogitsProcessor的作用是在生成文本中插入水印信…… -
【大模型简介】LLM Fine-tunning
摘要:为了进一步了解大模型,我查阅学习了三种预训练大型语言模型的微调技术:参数高效的fine-tuning(PEFT)、Prompt-tuning、以及Instruction-Tuning。 1 …… -
【理论学习】千亿模型并行训练技术
千亿模型并行训练技术 摘要: 进行并行加速,可以从数据和模型两个维度进行考虑。 2.1. 数据并行(Data Parallelism,DP) 数据进行切分(Partition),并将同…… -
【理论学习】大模型技术汇总-参数高效迁移学习方法
1. 大模型技术汇总-参数高效迁移学习方法 (Parameter-efficient Transfer Learning),即固定住Pretrain Language model的大部分参数,仅调整模型的一小部分…… -
【理论学习】Norm:四种归一化的介绍及优缺点
Batch Norm:把每个Batch中,每句话的相同位置的字向量看成一组做归一化。 Layer Norm:在每一个句子中进行归一化。 Instance Norm:每一个字的字向量的看成……