问答1 问答5 问答50 问答500 问答1000
网友互助专业问答平台

GPU禁令限制计算 & NVIDIA A800/H800/L40等替代分析

提问网友 发布时间:2024-10-24 13:03
声明:本网页内容为用户发布,旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
E-MAIL:1656858193@qq.com
1个回答
热心网友 回答时间:2024-11-01 03:29
注:本文中的疏漏之处,已更正于《唐僧:NVIDIA AI性能计算更正:为什么RTX 4090抢购,而工作站A6000相对乐观?》,请大家点击查看。

近一个月未发原创文章,本不打算蹭热点。然而,近期我准备了一篇《生成式AI (大语言模型) 推理GPU系统设计与H100替代分析》,鉴于H800与H100主要差异在于NVLink互连数量和总带宽,现已有价值不大。

由于NVIDIA L40、L40S、RTX 4090已上榜,下文将列出之前制作的表格,并添加一些内容。

以下是昨天的消息来源:

图中红字为更正可能存在的错误,不影响最终结论。图表出自金融/投资圈的朋友,能在第一时间流传开来,整体内容质量值得点赞。

关于H100/H800和RTX 4090等GPU的算力,将在后面列出更详细的表格。

上图来源于NVIDIA官网可下载的“SEC Filings Details”文件。以下文字来自《Implementation of Additional Export Controls: Certain Advanced Computing Items; Supercomputer and Semiconductor End Use; Updates and Corrections》,即具体的限制条款。

“place a simplified paragraph .a and .b. The revised 3A090.a control parameter will control ICs with one or more digital processing units having either: (1) a ‘total processing performance’ of 4800 or more, or (2) a ‘total processing performance’ of 1600 or more and a ‘performance density’ of 5.92 or more. The new ECCN 3A090.b will control ICs with one or more digital processing units having either: (1) a ‘total processing performance’ of 2400 or more and less than 4800 and a ‘performance density’ of 1.6 or more and less than 5.92, or (2) a ‘total processing performance’ of 1600 or more and a ‘performance density’ of 3.2 or more and less than 5.92. See Technical Notes to ECCN 3A090 for calculating ‘total processing performance’ and ‘performance density.’ Together, these paragraphs expand the scope of control as compared to the October 7 IFR. This action is necessary to ensure that ICs below the October 7 ECCN 3A090 parameters that were still useful for training advanced AI with military applications would be controlled.”

以上是本文中第一张图翻译成中文说明的来源。我尝试将限制范围整理成以下图表:

我制表的水平实在不高,本来还想把不同GPU的坐标点也标上去… 大家凑合看看吧

上图横坐标为TPP (Total processing performance,算力*位宽),纵坐标PD (Performance Density算力密度,TPP/Die Size)。共4条规则,用不同颜色的方块表示,它们之间有重叠。如果100%按此实行,最终结果只有位于坐标轴左下方白色区域的GPU/AI芯片,允许在国内销售。

上图是浮点数格式的说明。其中FP32(32bit)、FP16(16bit)指传统的格式。FP32为8bit指数范围、23bit数据精度;FP16则是5bit指数范围、10bit数据精度。

TF32(Tensor Float, 19bit)实际上以精简的格式和处理量,指数范围保持在FP32 8bit的水平,但数据精度大幅精简至10bit。该格式还有一点好处就是用NVIDIA Tensor Core加速的性能优化好。

BF16(Brain Float, 16bit)达到与FP32相同的8bit指数范围,数据精度7bit则低于传统FP16。它的总处理量并不低于FP16,并且也能利用Tensor Core加速。——我认为用BF16来计算我们需要的TPP数值应该最合适。

(图片点开后可缩放)

从NV资料来看,RTX 4090的Tensor算力加速效率似乎比RTX 6000 Ada低一倍?不确定实际应用中是哪种情况。

上表是我之前整理的基础上,添加了TPP和PD两行内容;A100一列也是临时加的,所以只放了需要用的信息。其中除了Die size有些来自GPU-Z网站之外,其余数值基本都取自NVIDIA官方资料。关于H100/H800、A100/A800之间的差异,麻烦大家脑补一下:)

标黄色的行,就是我使用的计算参数来源:包括“使用FP32 累加的 FP16/BF16 Tensor TFLOPS 峰值”(注:统一以斜杠左边数值为准,这里不使用稀疏精度),以及GPU芯片Die面积。标红色的文字即触发禁令了——我先看TPP算力,如果不超过4800再结合PD性能密度一起看。

需要指出的是,我并没有实际测试过L40S是否真的比L40快一倍?不过作为工作站显卡的RTX 6000 Ada,可以说是L40S GPU的最佳替代者——前提是它不会上名单的情况下。

之前一代的RTX A6000最大的价值就是NVLink,尽管只能双卡互连,但48GB x2=96GB的显存可能是以后跑LLM较大模型,剩下最好的一种选择了?在新的禁令实施之后,似乎只有A40才能与之相当(A40应该也没上名单吧)。真心希望这几款卡能继续卖:)

补充一条新消息,希望是真的,这样我们还能见到RTX 4090哈。

本文如未解决您的问题请添加抖音号:51dongshi(抖音搜索懂视),直接咨询即可。

卡罗拉我的1.2T问题严重变速箱20码左右变速箱抖动厉害, ...经常烧启动保险丝,换上就烧。怎么回事?是不是哪挤着线了,如果是_百... 爸爸宰杀兔子做菜,男孩崩溃大哭,家长该如何引导才不会其反效果? ...H100、H800、V100以及RTX 4090的详细性能参数对比: 《欢乐颂2》曲筱绡妈妈见赵医生一脸花痴 曲筱绡妈妈的扮演者是谁_百度... 路劲·诺丁山怎么样?好不好?值不值得买? 镇江新区到亚太广场多少公里 路劲·诺丁山周边环境怎么样?生活便利吗? 从镇江哪个车站到亚太广场最近 庞加莱回归外界评价 博洛尼家具如何 博洛尼家居如何 猫头鹰半夜叫好吗? 职业教育法第66条规定内容是什么 猫头鹰在半夜叫是好还是不好? 归求杜甫五言绝句。。。越多越好。。。 防火隔墙上的防火门是甲级还是乙级 煲汤时藕和狗纪能不能放一起 "满目霞光笼宇宙,泼天波浪渗人魂,是什么意思 当兵的人在当地要下户口吗 请问potianwu是什么意思啊 TIANPO中文什么意思 多灶性脉络膜炎伴全葡萄膜炎怎么办 谁给我发个百度邮箱邀请信,我email:potian95@gmail.com 多灶性脉络膜炎伴全葡萄膜炎怎么办 多灶性脉络膜炎伴全葡萄膜炎预后如何? 15岁女孩定期去美容院清洁皮肤好不好? 北京南站到北京市东城区广渠门内白桥大街22号工商联大厦怎么走... 十七岁可以去美容院做肩吗? 泼天的富贵是什么意思梗 海洋幻丽号邮轮航线 保洁人员岗位职责精选范文 青春期的孩子脸上的长痘咋办?可以去美容院护理吗? uptown funk 韩国女团,求图片中的出处。 哪个邮轮公司好 对于LOL喷子多,我这样理解的,我之前玩过类似5V5的有起凡,DOTA... ...装完w7系统后那个静音的图标一直亮着是怎么回事啊? ...求推荐几首节奏感很欢快的!【看好了,要欢快的】英文歌曲 ...分为服务号和公众号,我们作为化妆品连锁的公司,应该选择什么啊,好... w7系统如何设置切屏与静音
Top