搜索内容

AI
  • 【理论】千亿模型并行训练技术
    AI

    【理论】千亿模型并行训练技术

    千亿模型并行训练技术 摘要: 进行并行加速,可以从数据和模型两个维度进行考虑。 2.1. 数据并行(Data Parallelism,DP) 数据进行切分(Partition),并将同……
    2864818644 2024年11月3日
  • 【理论】大模型技术汇总-参数高效迁移学习方法
    AI

    【理论】大模型技术汇总-参数高效迁移学习方法

    1. 大模型技术汇总-参数高效迁移学习方法 (Parameter-efficient Transfer Learning),即固定住Pretrain Language model的大部分参数,仅调整模型的一小部分……
    Zhang, Hongxing 2024年10月31日
  • 【重点】Bert – 双向Encoder
    AI

    【重点】Bert – 双向Encoder

    摘要:BERT由嵌入层和Transformer的Encoder组成,输出Masked Language Model (MLM) 和 Next Sentence Prediction (NSP) 的预测结果。除此之外,本文还讨论了Em……
    Zhang, Hongxing 2024年8月20日
  • 【重点】Transformer
    AI

    【重点】Transformer

    摘要:Transformer模型通过自注意力机制进行信息建模,包含编码器和解码器两部分。编码器将输入序列转化为上下文丰富的表示,解码器则根据编码器输出和已生成……
    Zhang, Hongxing 2024年8月18日
  • 【重点】常见变体 – RNN LSTM GRU
    AI

    【重点】常见变体 – RNN LSTM GRU

    摘要:Bidirectional RNNs通过结合前后序列信息,增强了对上下文的捕捉能力,适合填补缺失词语等任务。而Deep RNNs则通过叠加多层RNN,提升模型的表示能力。Bi……
    Zhang, Hongxing 2024年8月16日
  • 【重点】GRU – 门控循环神经网络
    AI

    【重点】GRU – 门控循环神经网络

    摘要:GRU通过重置门和更新门来控制信息的流动,简化了LSTM的结构并提高了计算效率。 1 模型原理 1.1 超参数 input_size :input_size 是指每个时间步长输入……
    Zhang, Hongxing 2024年8月14日
  • 【重点】LSTM – 长短时记忆神经网络
    AI

    【重点】LSTM – 长短时记忆神经网络

    摘要:LSTM旨在解决传统RNN在处理长序列时出现的梯度消失和爆炸问题。通过输入门、遗忘门和输出门来控制信息的流动。 1 模型原理 1.1 超参数 input_size :i……
    Zhang, Hongxing 2024年8月12日
  • 【重点】RNN – 循环神经网络
    AI

    【重点】RNN – 循环神经网络

    摘要:RNN(循环神经网络)是一种能处理序列数据的神经网络,可以利用先前的输入信息来进行预测当前时刻的值。 1 模型原理 1.1 超参数 input_size :input_s……
    Zhang, Hongxing 2024年8月9日
  • 【重点】深度学习常见问题
    AI

    【重点】深度学习常见问题

    摘要:本篇博客介绍了神经网络训练中的关键概念和技巧,涵盖了梯度下降算法、梯度消失问题的解决方法、激活函数的选择与比较、优化参数的策略。此外,文章还深……
    Zhang, Hongxing 2024年8月7日
  • 【重点】了解卷积神经网络
    AI

    【重点】了解卷积神经网络

    摘要:卷积神经网络通过卷积层提取图像特征,池化层下采样以减少计算量和过拟合风险。特征图的输出尺寸由卷积核、步幅和填充等参数决定。 1 卷积神经网络的计……
    Zhang, Hongxing 2024年8月6日