快过年了!
年前,前阵时间有不少有意思的发布会,有老黄NVIDIA的新显卡和ROG以及AMD的一些新产品。个人有一些想买的,不过买之前肯定要做好调研,趁这个机会也聊聊这些产品,欢迎一起讨论。
5090D && 5090 显卡
50系显卡如约而至,不过并没有让我特别激动。
首先,5090的算力被夸大了,下图展示的AI TOPS指的是当前显卡能够展示的“最大算力”,也就是Tensor Core能够达到的最大算力,看着挺唬人:
因为5090的Tensor Core(第五代)相比4090多支持了FP4、FP6,所以这里5090展示的是FP4的算力,而4090还是FP8的算力,这里这么对比有点不公平,不过NVIDIA一直这么干已经见怪不怪了。
当然上述5090和4090比的还是稀疏算力,懂得都懂
所以正常版本的5090的FP8算力为 3352/2=1676 相比4090的1321算力,提升了26%。如果不考虑FP4相比INT4的精度可用性较大,4090也有1321x2=2642的INT4算力,理所当然5090的FP4算力相比4090的INT4算力提升也是26%的提升。
我们来回顾下历代显卡升级时候的性能比较:
- 4090 的算力比 3090 高 113%,价格贵 7%
- H100 的算力比 A100 高 217%,虽然价格翻了一倍(贵 100%)
- B100 的算力比 H100 高 76%
Hopper 架构的显卡(如 H100)以及 4090 的性能相比前代提升非常显著,而这次的5090提升说实话不是很大。这次的FP4精度理论上比INT4好些?50系之前INT4大部分都是用来量化权重,计算还是FP8或者FP16;现在50系直接使用FP4进行计算,看起来在生图上已经用上了,下图快了部分指的是FP4相比于FP8的提升:
Flux官方博客展示了使用FP4生图的效果,看起来还阔以:
之前社区里已有4-bit的生图,效果也还凑合,不过更多是为了节省显存(这样生图可以在小显存显卡上跑了)。
回到5090,再看看中国特供版显卡5090D和4090D的比较,打游戏性能提升不少,但是AI性能没有变化:
5090D的FP8的AI算力2375/2=1187和4090D的1177差不多,FP8算力基本相同,FP16的算力应该也是一样。
4090D相比4090的AI性能实测差个5-12%左右(使用TensorRT测了不同结构的一些模型,以及LLM大模型),就按照平均10%来算吧,差距不算多但也不算少,如果光看tensor core来看,5090D还不如4090。毕竟4090已经超过算力限制了,而5090D和4090D都是刚好满足算力限制线。
所以说,在国内4090真的是性价比极高的推理卡。不过5090D的cuda core数量和5090一样的,某些模型中,更多的cuda core可能会对速度有提升。另外,5090D的显存带宽和显存容量比4090大,对大模型还是有帮助的。
AI PC元年
自苹果21年发布m1芯片以来(Mac mini m1使用简单体验(编程、游戏、深度学习)已经过去了3年多,这些年MAC跑LLM已经很成熟了,凭借着ollama和LM Studio还有其他一些各种工具的支持,mac跑大模型门槛有手就行。
而且内存给上去,比如128g的macbook,跑70B的llama还是有点使用场景。
AI PC我理解就是个人电脑可以通过电脑硬件自带的算力跑起AI大模型,不需要联网云端,而且更进一步可以和系统集成,通过AI提升工作效率。不过要跑起来重要的还是要有算力,mac的算力虽然没有老黄的显卡算力高,但是胜在有统一内存(内存比显存便宜),在某些方面带宽要高(需要多卡场景的70B模型,而mac不需要),两者的性能差距也不会太大:
除了mac,我们看看今年出了哪些更牛逼的AI PC,。
Project DIGITS
MAC killer ?和mac很像,Project DIGITS有大的统一内存,算力有老黄加成肯定不差。
个人感觉就是高级版Jetson系列,给你128g的统一内存,老黄特别强调内存大(统一内存也可以理解为显存大)其实意味着可以跑大尺寸的LLM了(70B),真正的生产力,和大内存版本的mac一样。
基本配置如下:
- GB10芯片,基于NVIDIA Grace Blackwell架构的系统级芯片(SoC),在FP4精度下可提供高达1 Petaflop的AI性能
- 配备最新一代CUDA®核心和第五代Tensor Cores的NVIDIA Blackwell GPU。
- 通过NVLink®-C2C芯片间互连技术与高性能的NVIDIA Grace™ CPU相连接。
- Grace CPU基于Arm架构,拥有20个高效能核心,
- GB10超级芯片为Project DIGITS提供强大的计算能力,使用标准电源插座即可运行。
- 每个Project DIGITS配置128GB统一内存和最高4TB的NVMe存储空间。
128GB内存,3k美元售价,1P flops(fp4),4T存储,看起来挺唬人,不过我们仔细看这个带宽,512GB/s,如果我们跑200B-INT4的模型,那么这个模型的
参数量为115GB(100GB+),这么算512/115=4.5 tokens/s,这个速度只能说勉强能用,当然还没算剩下的kv-cache容量,这128g能分给显存多少,剩多少都不好说。
还说一块能跑200B模型(int4),两块能跑Llama 3 405B,只能说确实能跑(不过老黄的ConnectX还是挺好用的),实际用起来推理效率另说。毕竟带宽摆在这,我们参考下mac系列不同型号带宽对推理速度的影响:
算力的话,相当于5070的水平,比M4MAX强些。总体来说,就看更喜欢哪个生态了,是Mac生态+mac的核显还是Ubuntu系统+nvidia的显卡。个人感觉如果生产力的话,可能还不是很够。
幻X && Ryzen AI MAX+395
ROG的幻X、平板全能本。不知道大家之前有没用过,我自己买过幻2023-4050版本,用的还可以,之前的配置是英特尔的cpu+英伟达的显卡。
前几天2025款也发布了,这次换成了全部AMD的CPU和AMD的核显,一个大的SOC,其中核显的性能超过了移动版4060:
具体配置如下:
- CPU方面,首发AMD的Strix Halo系列处理器,并且独占最顶配的Ryzen AI MAX+395 处理器,拥有16个Zen5大核,CPU部分比Strix Point的4 Zen5+8 Zen5强的多
- 显卡方面,40CU的RDNA 3.5,理论性能逼近RTX4070,超过RTX4060应该没有问题,timespy 1w+,这个算力也还可以
Ryzen AI MAX+395 这个处理器,是AMD推出的和刚才聊到的Project DIGITS类似的产品,支持最大128G的统一内存,差不多一共126TOPS的算力,可以作为个人工作站,可以跑大模型。
为了适配这个核显性能,这颗处理器在x86笔记本中率先支持了256bit的LPD5X 8000内存,且最大可选128G共享内存(不过目前只有海外版本有),直接拉满。
ROG Flow Z13 can be configured with the brand new AMD Ryzen AI Max+ 395 and Radeon 8060S Graphics from AMD. This processor can deliver 50 NPU TOPS (trillion operations per second) performance. It is a certified Copilot PC that offers built-in AI features and tools. It packs up to 128GB of LPDDR5X 8000MHz RAM and up to 1TB of storage. It can allocate up to 96GB of available RAM for the GPU. It is claimed to be capable of running a 70B large language model locally.
然后号称可以运行70B的llama,比单卡4090跑的还快,我们看看怎么比的:
- Testing as of Dec 2024 using Llama 70b 3.1 Nemotron Q4 KM quantization running through llama.cpp and LM Studio. Input prompt length 100 token prompt.
- System configuration for Ryzen Al Max+ 395: AMD reference board, 55W TDP, Radeon 8060S graphics, 128GB RAM(32GB for the CPU, 96GB allocated to the GPU) , 1TB SSD, using Llama 3.1.
- Configuration for Nvidia RTX 4090: ASUS ProArt X670E-CREATOR WIFI motherboard, AMD Ryzen 9 7900X processor, 32GB system RAM, 40GB GPU memory, 1TB SSD, Windows 11.
上述4090机器的40G显存是24g显卡显存和16g系统分配的共享显存,可以理解为Windows 允许 GPU 使用的一部分系统 RAM,当显卡的专用显存不足时,GPU 可以从系统内存中借用一部分内存作为缓冲,但速度远不及专用显存。
我们假设L3.1-70B-Q4 GGUF 格式的权重大概42GB,然后内存带宽简单换算下 (8000 \times 256) \div 8 = 256,000 \text{ MB/s} = 256 \text{ GB/s}。这么算 tokens/s 为256/42=6 tokens/s,而4090机器由于offload部分权重到机器内存中,传输很慢,所以2-3 tokens/s也正常。
作为和mac差不多定位,有统一内存的产品,算力其实还好,主要是带宽有点低了,只有256G/s,比mac和 Project DIGITS都差些,不过128g版本的幻x在海外是2499美刀记得,同配置下价格稍低些。
总结
- AI从业者,5090D不是很值得购买,5090估计短期内缺货,能搞张5090最好,大显存和完整Tensor Core算力
- Project DIGITS的话,显卡相当于大显存低带宽版本的5070,某些场景比较适合…
- 幻x的话,个人挺想买,不过仅限于大内存版本,可惜国内最高只有64g,没有128的有些可惜
各位有心动的么?
参考
- https://www.zhihu.com/question/8944681085/answer/73588834389
- https://www.youtube.com/watch?v=kBRRTl5zDaI
- https://www.zhihu.com/question/8953765123/answer/73915191447
- https://www.zhihu.com/question/8953765123
- https://www.reddit.com/r/LocalLLaMA/comments/1hvlbow/to_understand_the_project_digits_desktop_128_gb/
- 类 Mac Mini 大小的个人 AI 超算:英伟达 Project Digits 发布,起价 3000 美元_新浪科技_新浪网
- FLUX Partners with NVIDIA to Optimize Its FLUX Model for GeForce RTX 50 Series GPUs
- https://www.zhihu.com/question/8619327345/answer/75356030734