搜索内容

LLM
  • 【理论学习】NLP哪些场景不适用大模型
    LLM

    【理论学习】NLP哪些场景不适用大模型

    NLP哪些场景不适用大模型? 1)数据稀缺的场景:大模型通常需要大量的训练数据来达到良好的性能。然而,在某些领域或任务中,可能难以收集到足够的数据来训练……
    Zhang, Hongxing 2024年10月21日
  • 【理论学习】Transformer模型的参数量、计算量、中间激活、KV cache
    LLM

    【理论学习】Transformer模型的参数量、计算量、中间激活、KV cache

    transformer参数量计算 总的,每个transformer层的参数量为12h2+13h 。 除此之外,词嵌入矩阵的参数量也较多,词向量维度通常等于隐藏层维度 h ,词嵌入矩阵……
    Zhang, Hongxing 2024年10月10日
  • 【理论学习】大模型位置编码
    LLM

    【理论学习】大模型位置编码

    对于transformer模型,位置编码是必不可少的。因为attention模块是无法捕捉输入顺序的,无法区分不同位置的token。 位置编码分为绝对位置编码和相对位置编码。……
    Zhang, Hongxing 2024年8月24日