Meta 推自研芯片计划,切分英伟达蛋糕
Meta 公布了自研芯片的进展。名为 Meta Training and Inference Accelerator,即 Meta 训练和推理加速芯片,简称 MTIA。它预计将于 2025 年发布。
Meta 宣称 MTIA 是提高效率和水平的重要工具, 定制化的 MTIA 采用 ASIC 架构,可并行执行多个任务,适用于 AI 加速计算,从而成为 Meta 人工智能训练和推理芯片家族中重要的组成部分。
Meta 强调,虽然芯片的内存和网络等功能还需要进一步优化,但 MTIA 在每瓦性能方面 " 显著 " 提升了效率,可以帮助 Meta 更好探索人工智能前沿技术。
(相关资料图)
此外 Meta 还表示,MTIA 将专注于人工智能推理,而不是训练。
第一代 MTIA 由 Meta 在 2020 年创建,使用了 7 纳米工艺,在 Meta 自己设计的性能测试中,它被认为在 " 中低复杂度 " 的 AI 模型方面相比 GPU 具有优势。
Meta AI 官方关于 MTIA 芯片的示意简图除了 MTIA,Meta 还在开发另一种芯片,被称为 Meta 可扩展视频处理器(MSVP),顾名思义,MSVP 主要的工作是将视频内容——不管是短视频还是直播,都尽量通过 MSVP 来加载整合,满足不同平台渠道对码率、分辨率和低延迟等需求,避免让基础视频需求采用软件编码形式处理,进而加速整个视频工作流程。
Meta 在几个月前成立了生成式 AI 团队,据说扎克伯格,CTO Andrew Bosworth 花了大量的时间和这个团队讨论 Meta 在人工智能领域能做些什么。上周他们刚推出了针对广告客户的内容设计工具。
Meta 在人工智能的进展过去集中在审核过滤和广告推荐算法这些领域,许多时候这些负载是使用 CPU 组合运行的,再加上定制的专门用于加速的 AI 芯片。
随着生成式 AI 的爆发,Meta 已经采购了大量的英伟达芯片,原来的芯片方案已经被放弃。
Meta 基础设施副总裁 Alexis Bjorlin 在 TechCrunch 的采访中将自研芯片形容为 " 构建对堆栈所有层面的控制能力 ",这和百度的 AI 战略思路很相似,从数据中心设计到训练框架再到数据集和算法,Meta 试图在 AI 方面追上竞争对手,开始进行对本身 AI 全链条资源的整合。
自研芯片紧锣密鼓提上日程,形成对比的是现在所有人都还在依赖英伟达的芯片。
Meta 目前训练大模型所使用的是名为 Research SuperCluster ( RSC ) 的超级计算机,它内置了 2000 个英伟达 DGX A100 系统,包括 16000 块 A100 GPU。
谷歌和微软也都有自己的超级计算机,微软把它整合在了自己的 Azure 云上(然后又和 OpenAI 结合在一起,后者使用微软的资源训练大模型),谷歌的超算则有 26000 块 H100 GPU。
超算资源直接和大模型开发训练以及推理的进度有关,但也意味着会受到英伟达产能的 " 卡脖子 ",因此各家都在推动自研芯片进展。
Google 很早就研发了名为 TPU 的训练芯片,AlphaGo 就由其驱动。上个月有消息传出,微软在秘密研发自己的 AI 芯片,合作伙伴是英伟达对手 AMD。
Meta 走向自研之路是顺理成章的,强化在 AI 领域的垂直整合能力不仅可以降低成本,定制芯片还能方便根据自家业务需求定制功能,更容易打造差异化竞争点。
如果 Meta 的大模型一方面能在传统的社交业务上支撑内容广告营销(这部分具体的运行模式 Meta 自己承认也还在探索中),另一方面将生成式 AI 接入元宇宙,帮助用户生成数字孪生形象和相关的代码,那么其增长潜力将会极其巨大,扎克伯格在 2 月份就表示要致力于提高 Meta 的人工智能算力,押注 AI 的未来看上去是必由之路,Meta 的自研芯片是向这条道路进发的最新尝试。