俄罗斯科技巨头 Yandex 宣布开源“YaFSDP”大语言模

2024-06-11 18:17:33

  俄罗斯科技巨头 Yandex 推出了一款开源的大语言模型训练工具 ——YaFSDP,号称与现有工具相比速度最高可提升 26%。

  据介绍,YaFSDP 在训练速度方面优于传统的 FSDP 方法,尤其适用于大型模型。在预训练 LLM 方面,YaFSDP速度提高了 20%,并且在高内存压力条件下表现更佳。

  例如,YaFSDP 对具有 700 亿参数的 Llama 2 可以实现 21% 的效率提升,对具有同级参数的 Llama 3 也实现 了 26% 的效率提升。附官方数据一览:

  模型gpu-countseq-lennum-ckpt-layersspeedupLlama 2 7B64204809.92%Llama 2 7B64409603.43%Llama 2 7B64819202.68%Llama 2 7B128204809.57%Llama 2 7B128409602.42%Llama 2 7B128819202.32%Llama 2 13B1282048012.10%Llama 2 13B128409603.49%Llama 2 34B1282048020.70%Llama 2 34B2562048021.99%Llama 2 34B256409658.35%Llama 2 70B.48%Llama 2 70B2564096507.17%Llama 3 8B642048011.91%Llama 3 8B64409607.86%Llama 3 70B.60%

  Yandex 表示,通过优化 GPU 使用率,YaFSDP 可以为开发者和公司节省大量资金 —— 每月可能节省数十万美元。

  Yandex 的资深开发人员、YaFSDP 团队成员之一 Mikhail Khruschev 还提到,“目前,我们正在积极尝试各种模型架构和参数大小,以扩展 YaFSDP 的通用性” 。

  参考资料:

下一篇:汉王 Clear6 Pro 电纸书发布:300 PPI、60 天待机,
上一篇:苹果独创,iOS 18 手电筒新增滑块:可调整光线强
返回顶部小火箭