注:本文中的疏漏之处,已更正于《唐僧:NVIDIA AI性能计算更正:为什么RTX 4090抢购,而工作站A6000相对乐观?》,请大家点击查看。
近一个月未发原创文章,本不打算蹭热点。然而,近期我准备了一篇《生成式AI (大语言模型) 推理GPU系统设计与H100替代分析》,鉴于H800与H100主要差异在于NVLink互连数量和总带宽,现已有价值不大。
由于NVIDIA L40、L40S、RTX 4090已上榜,下文将列出之前制作的表格,并添加一些内容。
以下是昨天的消息来源:
图中红字为更正可能存在的错误,不影响最终结论。图表出自金融/投资圈的朋友,能在第一时间流传开来,整体内容质量值得点赞。
关于H100/H800和RTX 4090等GPU的算力,将在后面列出更详细的表格。
上图来源于NVIDIA官网可下载的“SEC Filings Details”文件。以下文字来自《Implementation of Additional Export Controls: Certain Advanced Computing Items; Supercomputer and Semiconductor End Use; Updates and Corrections》,即具体的限制条款。
“place a simplified paragraph .a and .b. The revised 3A090.a control parameter will control ICs with one or more digital processing units having either: (1) a ‘total processing performance’ of 4800 or more, or (2) a ‘total processing performance’ of 1600 or more and a ‘performance density’ of 5.92 or more. The new ECCN 3A090.b will control ICs with one or more digital processing units having either: (1) a ‘total processing performance’ of 2400 or more and less than 4800 and a ‘performance density’ of 1.6 or more and less than 5.92, or (2) a ‘total processing performance’ of 1600 or more and a ‘performance density’ of 3.2 or more and less than 5.92. See Technical Notes to ECCN 3A090 for calculating ‘total processing performance’ and ‘performance density.’ Together, these paragraphs expand the scope of control as compared to the October 7 IFR. This action is necessary to ensure that ICs below the October 7 ECCN 3A090 parameters that were still useful for training advanced AI with military applications would be controlled.”
以上是本文中第一张图翻译成中文说明的来源。我尝试将限制范围整理成以下图表:
我制表的水平实在不高,本来还想把不同GPU的坐标点也标上去… 大家凑合看看吧
上图横坐标为TPP (Total processing performance,算力*位宽),纵坐标PD (Performance Density算力密度,TPP/Die Size)。共4条规则,用不同颜色的方块表示,它们之间有重叠。如果100%按此实行,最终结果只有位于坐标轴左下方白色区域的GPU/AI芯片,允许在国内销售。
上图是浮点数格式的说明。其中FP32(32bit)、FP16(16bit)指传统的格式。FP32为8bit指数范围、23bit数据精度;FP16则是5bit指数范围、10bit数据精度。
TF32(Tensor Float, 19bit)实际上以精简的格式和处理量,指数范围保持在FP32 8bit的水平,但数据精度大幅精简至10bit。该格式还有一点好处就是用NVIDIA Tensor Core加速的性能优化好。
BF16(Brain Float, 16bit)达到与FP32相同的8bit指数范围,数据精度7bit则低于传统FP16。它的总处理量并不低于FP16,并且也能利用Tensor Core加速。——我认为用BF16来计算我们需要的TPP数值应该最合适。
(图片点开后可缩放)
从NV资料来看,RTX 4090的Tensor算力加速效率似乎比RTX 6000 Ada低一倍?不确定实际应用中是哪种情况。
上表是我之前整理的基础上,添加了TPP和PD两行内容;A100一列也是临时加的,所以只放了需要用的信息。其中除了Die size有些来自GPU-Z网站之外,其余数值基本都取自NVIDIA官方资料。关于H100/H800、A100/A800之间的差异,麻烦大家脑补一下:)
标黄色的行,就是我使用的计算参数来源:包括“使用FP32 累加的 FP16/BF16 Tensor TFLOPS 峰值”(注:统一以斜杠左边数值为准,这里不使用稀疏精度),以及GPU芯片Die面积。标红色的文字即触发禁令了——我先看TPP算力,如果不超过4800再结合PD性能密度一起看。
需要指出的是,我并没有实际测试过L40S是否真的比L40快一倍?不过作为工作站显卡的RTX 6000 Ada,可以说是L40S GPU的最佳替代者——前提是它不会上名单的情况下。
之前一代的RTX A6000最大的价值就是NVLink,尽管只能双卡互连,但48GB x2=96GB的显存可能是以后跑LLM较大模型,剩下最好的一种选择了?在新的禁令实施之后,似乎只有A40才能与之相当(A40应该也没上名单吧)。真心希望这几款卡能继续卖:)
补充一条新消息,希望是真的,这样我们还能见到RTX 4090哈。
本文如未解决您的问题请添加抖音号:51dongshi(抖音搜索懂视),直接咨询即可。