那么它将是在资源受限的情况下
Posted: Tue Apr 22, 2025 6:58 am
Deepseek 以 600 万美元的“荒谬预算”训练了 v3,正如人工智能专家、前特斯拉人工智能主管 Andrej Karpathy 所说,“DeepSeek(中国人工智能公司)今天用可笑的预算(2048 个 GPU,2 个月,600 万美元)发布了前沿级 LLM 的开放权重,让这一切看起来很容易。”
作为参考,这种级别的性能应该需要接近 16K GPU 的集群;而今天推出的集群则 印度尼西亚电报号码数据 更多,大约需要 100K GPU。例如,Llama 3 405B 使用了 3080 万 GPU 小时,而 DeepSeek-V3 看起来更强大,仅使用了 280 万 GPU 小时(计算量减少了约 11 倍)。如果该模型也能通过 Vibe 测试(例如,LLM 竞技场排名正在进行中,而我目前几次快速测试都进展顺利),,对研究和工程的一次令人印象深刻的展示。
Deepseek R1 进一步推进了这一范式,创建了一个能够与思维链协同工作的推理模型,并在性能上与 Open AI o1 匹敌。他们通过优化三个具体流程实现了这一点:
1.强化学习 (RL) –强化学习 (RL) 允许模型独立学习。在此过程中,第二个模型从 LLM 中选择一个答案,并修改 LLM 的权重,以便将来给出类似的响应。例如,击败国际级围棋选手的谷歌人工智能 AlphaGo 经过围棋比赛训练,直到学会所有落子和获胜方法。Deepseek 尤其采用了新的 GRPO 算法(组相对策略优化),增强了基于 LLM 的强化学习。
2.知识迁移——Deepseek的研究人员已经证明,他们可以将大型模型(例如 Deepseek)的推理能力迁移到小型模型。这种“数据生成的蒸馏”过程使 SLM 更容易获得更佳的性能。
3.内存优化——团队通过使用全新的训练算法 (Dualpipe) 并优化 GPU 的训练性能,优化了 GPU 的使用率。他们还使用 FP8 数据类型减少了每个 GPU 单元需要处理的内存量。这些措施显著提高了训练效率,并在扩展性方面取得了突破。
作为参考,这种级别的性能应该需要接近 16K GPU 的集群;而今天推出的集群则 印度尼西亚电报号码数据 更多,大约需要 100K GPU。例如,Llama 3 405B 使用了 3080 万 GPU 小时,而 DeepSeek-V3 看起来更强大,仅使用了 280 万 GPU 小时(计算量减少了约 11 倍)。如果该模型也能通过 Vibe 测试(例如,LLM 竞技场排名正在进行中,而我目前几次快速测试都进展顺利),,对研究和工程的一次令人印象深刻的展示。
Deepseek R1 进一步推进了这一范式,创建了一个能够与思维链协同工作的推理模型,并在性能上与 Open AI o1 匹敌。他们通过优化三个具体流程实现了这一点:
1.强化学习 (RL) –强化学习 (RL) 允许模型独立学习。在此过程中,第二个模型从 LLM 中选择一个答案,并修改 LLM 的权重,以便将来给出类似的响应。例如,击败国际级围棋选手的谷歌人工智能 AlphaGo 经过围棋比赛训练,直到学会所有落子和获胜方法。Deepseek 尤其采用了新的 GRPO 算法(组相对策略优化),增强了基于 LLM 的强化学习。
2.知识迁移——Deepseek的研究人员已经证明,他们可以将大型模型(例如 Deepseek)的推理能力迁移到小型模型。这种“数据生成的蒸馏”过程使 SLM 更容易获得更佳的性能。
3.内存优化——团队通过使用全新的训练算法 (Dualpipe) 并优化 GPU 的训练性能,优化了 GPU 的使用率。他们还使用 FP8 数据类型减少了每个 GPU 单元需要处理的内存量。这些措施显著提高了训练效率,并在扩展性方面取得了突破。