搜索内容

包含标签:RLHF 的文章
  • 【理论】RLHF实现框架
    LLM

    【理论】RLHF实现框架

    RLHF(Reinforcement Learning with Human Feedback)即带有人工反馈的强化学习。它是强化学习(RL)的一种变体,结合了人工反馈来提升学习过程的效率和效果。……
    Zhang, Hongxing 2024年12月16日