欢迎光临
我们一直在努力

豆包提出全新稀疏架构 推理成本较MoE最高可降83%

转自:证券时报

证券时报e公司讯,随着模型规模的扩大,推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。近期,字节跳动豆包大模型团队提出了全新的稀疏模型架构UltraMem,该架构有效解决了MoE推理时高额的访存问题,推理速度较MoE架构提升2—6倍,推理成本最高可降低83%。该研究还揭示了新架构的Scaling Law,证明其不仅具备优异的Scaling特性,更在性能上超越了MoE。实验结果表明,训练规模达2000万value的UltraMem模型,在同等计算资源下,可同时实现业界领先的推理速度和模型性能,为构建数十亿规模value或expert开辟了新路径。

 拔打报修电话
赞(0) 打赏
未经允许不得转载:313啦实用网 » 豆包提出全新稀疏架构 推理成本较MoE最高可降83%
分享到: 更多 (0)

实用网址,实用软件,实用技巧,热门资源分享-313啦实用网

家电维修服务网家电维修报修

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续给力更多优质内容,让我们一起创建更加美好的网络世界!