AMEYA360报道：不同硬件的成本对比 ChatGPT炒热GPU

发布时间：2023-2-22 14:54 发布者：Ameya360

　　在机器学习推理场景中，除了GPU外，还有一大通用AI硬件适合这一负载，那就是FPGA。与GPU一样，在技术和算法还未成熟且仍在打磨阶段时，可以随时重新编程改变芯片功能的FPGA架构前期硬件成本显著低于GPU。在推理性能上，现如今的FPGA加速卡算力远超CPU，甚至高过不少GPU产品。

　　而且在ChatGPT这样的聊天机器人应用上，将FPGA用于推理得以发挥其最大的优势，那就是高吞吐量和低时延。更高的吞吐量和更低的时延也就意味着更大的并发，对ChatGPT这种应用来说可以极大增强其响应速度。

　　但随着算法和模型逐渐成熟，FPGA在成本上的优势就慢慢不存在了，在大语言模型上需要用到更多的硬件，而FPGA量产规模的单价成本还是太高了，一旦扩充至成千上万张加速卡，其成本也是不小的。比如AMD推出的新加速卡Alveo V70，据传单卡价格就在2000美元左右。如果我们以INT8精度来衡量算力的话，假设ChatGPT需要28936块A100 GPU，那么改用Alveo V70的话，也需要44693块加速卡。

　　所以还是有不少人将目光投向了量产规模成本更低的ASIC，比如谷歌就选择用自研的TPU来部署其聊天机器人Bard。ASIC方案在单芯片算力上或许不是最高的，但计算效率却是最高的，而且随着量产化单片成本会逐渐降低。比如谷歌的单个TPU v4 Pod就集成了4096个TPU v4芯片，单芯片的BF16算力达到275TFLOPS，已经相当接近A100单卡峰值算力了。如果只是这样简单换算的话，只需几个TPU v4 Pod，就能满足与ChatGPT同量级的应用了。

　　不过ASIC方案并没有我们想象得那么美好，首先这类硬件的前期设计成本较大，要想投入数据中心商用，必须组建强大的硬件设计和软件开发团队，这样才能有与GPU相抗衡的性能。其次，因为本身专用硬件的特性，专用于机器学习推理的ASIC方案很难最大化数据中心的硬件利用率，不像GPU还可以同时用于训练、视频编解码等等。

AMEYA360报道：不同硬件的成本对比 ChatGPT炒热GPU

网友评论

厂商推荐