英伟达在 Blackwell 架构上对 DeepSeek-R1 进行了优化,推出了 DeepSeek-R1-FP4 并开源。这一优化成果显著,B200 推理性能相比 H100 提升 25 倍,每 token 成本降低 20 倍。 在精度与性能平衡方面表现出色,FP4 精度下能在 MMLU 通用智能基准测试中达到 FP8 模型性能的 99.8%。 同时,实现了硬件与软件的协同优化,充分发挥 Blackwell 架构硬件运算潜力,通过软件精细调优提升系统整体性能。 此外,DeepSeek 持续开源多个英伟达 GPU 优化项目,包括 FlashMLA、DeepEP 和 DeepGEMM 等,共同探索模型性能极限。 近期,AI 大模型领域掀起降价潮,DeepSeek 也推出错峰优惠活动,其持续火爆引发国内外科技巨头关注。 ![]() 在大模型行业竞争日益激烈的当下,算法优化与迭代成为关键因素。 |
原创栏目
IT百科
网友评论
聚超值•精选