LLM

搜索内容

LLM

LLM

【理论学习】NLP哪些场景不适用大模型

NLP哪些场景不适用大模型？ 1）数据稀缺的场景：大模型通常需要大量的训练数据来达到良好的性能。然而，在某些领域或任务中，可能难以收集到足够的数据来训练……

Zhang, Hongxing 2024年10月21日

105 0
LLM

【理论学习】Transformer模型的参数量、计算量、中间激活、KV cache

transformer参数量计算总的，每个transformer层的参数量为12h2+13h 。除此之外，词嵌入矩阵的参数量也较多，词向量维度通常等于隐藏层维度 h ，词嵌入矩阵……

Zhang, Hongxing 2024年10月10日

298 0
LLM

【理论学习】大模型位置编码

对于transformer模型，位置编码是必不可少的。因为attention模块是无法捕捉输入顺序的，无法区分不同位置的token。位置编码分为绝对位置编码和相对位置编码。……

Zhang, Hongxing 2024年8月24日

119 0

首页上一页 1 2 2/2