AMEYA360报道:不同硬件的成本对比 ChatGPT炒热GPU

发布时间:2023-2-22 14:54    发布者:Ameya360
  在机器学习推理场景中,除了GPU外,还有一大通用AI硬件适合这一负载,那就是FPGA。与GPU一样,在技术和算法还未成熟且仍在打磨阶段时,可以随时重新编程改变芯片功能的FPGA架构前期硬件成本显著低于GPU。在推理性能上,现如今的FPGA加速卡算力远超CPU,甚至高过不少GPU产品。
pYYBAGP1bseAFpY8ACIjOQaEEgA560.png
  而且在ChatGPT这样的聊天机器人应用上,将FPGA用于推理得以发挥其最大的优势,那就是高吞吐量和低时延。更高的吞吐量和更低的时延也就意味着更大的并发,对ChatGPT这种应用来说可以极大增强其响应速度。

  但随着算法和模型逐渐成熟,FPGA在成本上的优势就慢慢不存在了,在大语言模型上需要用到更多的硬件,而FPGA量产规模的单价成本还是太高了,一旦扩充至成千上万张加速卡,其成本也是不小的。比如AMD推出的新加速卡Alveo V70,据传单卡价格就在2000美元左右。如果我们以INT8精度来衡量算力的话,假设ChatGPT需要28936块A100 GPU,那么改用Alveo V70的话,也需要44693块加速卡。

  所以还是有不少人将目光投向了量产规模成本更低的ASIC,比如谷歌就选择用自研的TPU来部署其聊天机器人Bard。ASIC方案在单芯片算力上或许不是最高的,但计算效率却是最高的,而且随着量产化单片成本会逐渐降低。比如谷歌的单个TPU v4 Pod就集成了4096个TPU v4芯片,单芯片的BF16算力达到275TFLOPS,已经相当接近A100单卡峰值算力了。如果只是这样简单换算的话,只需几个TPU v4 Pod,就能满足与ChatGPT同量级的应用了。

  不过ASIC方案并没有我们想象得那么美好,首先这类硬件的前期设计成本较大,要想投入数据中心商用,必须组建强大的硬件设计和软件开发团队,这样才能有与GPU相抗衡的性能。其次,因为本身专用硬件的特性,专用于机器学习推理的ASIC方案很难最大化数据中心的硬件利用率,不像GPU还可以同时用于训练、视频编解码等等。

本文地址:https://www.eechina.com/thread-811219-1-1.html     【打印本页】

本站部分文章为转载或网友发布,目的在于传递和分享信息,并不代表本网赞同其观点和对其真实性负责;文章版权归原作者及原出处所有,如涉及作品内容、版权和其它问题,我们将根据著作权人的要求,第一时间更正或删除。
您需要登录后才可以发表评论 登录 | 立即注册

厂商推荐

关于我们  -  服务条款  -  使用指南  -  站点地图  -  友情链接  -  联系我们
电子工程网 © 版权所有   京ICP备16069177号 | 京公网安备11010502021702
快速回复 返回顶部 返回列表