将10万亿个参数放入512个图形处理器中

2021-11-09 14:16 [热点] 来源于：IT之家阅读量：19311

导读：今天，阿里巴巴达摩院公布了多模态模型M6的最新进展，其参数从万亿跃升至10万亿，成为全球最大的AI预训练模型。 M6达摩院是一个通用的人工智能模型，具有多模态，多任务能力，特别擅长设计，写作和问答它在电子商务，制造业，文学艺术，科学研...

今天，阿里巴巴达摩院公布了多模态模型M6的最新进展，其参数从万亿跃升至10万亿，成为全球最大的AI预训练模型。

M6达摩院是一个通用的人工智能模型，具有多模态，多任务能力，特别擅长设计，写作和问答它在电子商务，制造业，文学艺术，科学研究等领域有着广泛的应用前景

与传统AI相比，大型模型的神经元数量是传统AI的几十万倍，认知和创造能力更为优越，被普遍认为是未来的基础模型但是大模型的计算成本相当高，训练1750亿参数语言大模型GPT—3所需的能耗相当于汽车每月往返的路程

今年5月，达摩院M6团队通过专家并行策略和优化技术，将万亿级模型的能耗降低了80%以上，效率提升了近11倍。

10月，M6再次打破行业限制，用512个GPU在10天内训练出一个可用的10万亿模型与去年发布的大型车型GPT—3相比，M6达到了同样的参数规模，能耗仅为1%

将10万亿个参数放入512个图形处理器中

当模型扩展到1000亿或更多参数的超大规模时，将很难将其放在一台机器上。三年后，人们有望在成千上万条物流路线上看到这头大驴。

为了帮助多模态预训练模型进行快速迭代训练，达摩院在阿里巴巴Cloud PAI自研Whale框架上搭建MoE模型，最终通过更细粒度的CPU卸载技术将10万亿个参数放入512 GPU:

自研Whale Framework :自研Whale分布式深度学习训练框架针对数据并行，模型并行，流水线并行，混合并行等并行模型设计了统一的架构，让用户只需增加几行API调用就能实现丰富的分布式并行策略。

MoE专家并行策略:在Whale架构中实现了混合专家的专家并行策略它在扩展模型容量，提高模型效果的基础上，FLOPs每秒不显著增加浮点运算次数，从而达到高效训练大规模模型的目的

CPU卸载:的创新技术，通过自研分布式框架Whale中更细粒度的CPU卸载，解决了放下有限资源极限规模的问题，通过灵活选择卸载的模型层，进一步提高了GPU的利用率。

此外，针对训练效率的问题，M6团队设计了伪到实机制，即利用训练好的共享参数模型对大模型进行初始化，进一步将收敛效率提高7倍，解决了大模型训练速度慢的问题。。

如果没有这个机制，只需要6%就能在预训练中达到同样的损失与之前的万亿模型相比，训练样本量仅为40%

作为国内首个商业化的大型多模态模型，M6已经应用于40多个场景，日通话量上亿。

今年大机型首次支持双11，应用包括但不限于:

犀牛知止为该品牌设计的M6服装已在淘宝上线，

凭借流畅的写作技巧，M6正在为天猫虚拟主播创作剧本，

依托多模态理解能力，M6正在提升淘宝，支付宝等平台的搜索和内容认知准确率。

M6设计了飞行汽车

未来，M6将积极探索与科学应用相结合，通过AI为科学充分利用大模型的潜力，加强M6与国产芯片的软硬件融合研究。王刚说，达摩研究所计划将无人驾驶卡车放在开放的道路上。

目前达摩院和阿里巴巴云已经推出了M6服务平台，为大模型的培训和应用提供了完整的工具大模型第一次可以开箱即用，算法人员和普通用户都可以方便地使用平台

。

郑重声明：此文内容为本网站转载企业宣传资讯，目的在于传播更多信息，与本站立场无关。仅供读者参考，并请自行核实相关内容。

（编辑：兰心雪）