苹果M1 Max GPU解析:低耗高能的秘密并不复杂

2021年10月19日凌晨,苹果召开了可能是他们2021年的最后一场新品发布会,正式推出了包括AirPods 3,MacBook Pro 14和MacBook Pro 16在内的一系列新品。

09163626633607.jpg

而在此次的新品中,最受关注的毫无疑问就是两个不同尺寸的全新MacBook Pro了。毕竟,此次其既升级了miniLED背光的1600nit超高亮XDR 120Hz屏幕、带来全面改进的键盘结构,增加了大量实用接口的同时,还首次配备了快充,同时在续航能力上也几乎实现了翻倍。


当然,最为重要的是,随着新款MacBook Pro的发布,苹果方面也彻底完成了旗下MacBook产品线的自研芯片替换进程。而全新MacBook Pro上所使用的M1 Pro和M1 Max两款“大号”PC芯片,自然也就成为了此次发布会最大的亮点。


M1 Pro和M1 Max,你知道它们有多强吗


自从去年苹果推出划时代的M1芯片后,几乎所有业内人士都很明白,这意味着其几乎一定会将自研PC芯片扩展到高性能工作站,甚至是服务器产品线。而早在10月19日这场发布会之前,关于“M1X”或者“M2”的传言也早已满天飞。

09142838692102 (1).jpg

然而大家都没有想到的是,苹果的新款PC芯片在命名上完全脱离了以往的规则,而是采取了更接近自家消费级产品的风格。不止如此,它们甚至还不只是一款,而是总共包含了两个型号、五种不同细分配置的“家族”。

apple-october-event-m1-pro-overview.jpg

首先是定位“相对较低”的M1 Pro,其采用了8大核+2小核的CPU设计,晶体管数量为337亿个,配有320KB L1指令缓存、192KB L1数据缓存,并提供了高达28MB的超大L2缓存设计。此外,内存控制器规格为四通道LPDDR5-6400,内存位宽总共256bit,内存带宽高达204.8GB/s。与此同时,M1 Pro还集成了一个ProRes视频处理加速单元、一个16核心的AI加速处理单元(算力11Tops),以及一个最大16核心、浮点性能5.2TFlops的GPU单元。

Gear-Apple-M1-Max-specs.jpg

除此之外,苹果此次还推出了定位更高的M1 Max。它的CPU部分与M1 Pro基本一致,也是8大2小的10核心设计、320KB+192KB的L1缓存,以及28MB的超大L2缓存。但是与M1 Pro相比,M1 Max的内存子系统、视频处理加速单元,以及GPU单元规格全部翻倍,这意味着它最大支持64GB、带宽高达409.6GB/s的LPDDR5内存,具备能够同时处理7条8K分辨率视频流,且功耗极低的视频加速处理单元,并且其32核GPU的总算力也达到了惊人的10.4TFlops。

09150425968303.jpg

这样的是一个什么概念呢?用苹果自己的话来说,这代表着M1 Pro或M1 Max的CPU可以仅用30%的功耗,就达到相当于市面上x86架构八核笔记本电脑处理器的同等性能。而根据我们三易生活查阅到的数据显示,MacBook Pro 16上M1 Max芯片的内存带宽,已经达到了当前最顶级家用台式机处理器锐龙线程撕裂者PRO 3995WX(八通道DDR4-3200内存)的两倍。


深入探究苹果新GPU设计,它的诀窍其实并不复杂


当然,如果你还想了解更多有关新款MacBook Pro的配置信息和功能特点,那么推荐大家可以去翻看我们三易生活今天早些时候发布的《新款MacBook Pro“炸场”,苹果自研芯片再度傲视全行业》一文,其中会有更加详细的产品解析。


而接下来我们要讲的,可能是到目前为止还没有其他媒体分析过的一件事,那就是此次M1 Pro与M1 Max的GPU设计,以及它们背后所体现出来的产品设计思路。

09151197290604.jpg

首先,让我们来看看M1 Pro和M1 Max的GPU性能数据。根据目前的公开信息显示,M1 Pro的16核GPU单精度浮点算力为5.2TFlops,整个SoC的功耗约为65W;而M1 Max的32核GPU单精度浮点算力为10.4TFlops,整个SoC的功耗为100W。


以M1 Max为例,10.4TFlops的GPU单精度浮点算力意味着什么呢?这意味着它的理论性能已经超过了桌面版Geforce RTX2080S(10.14TFlops)、移动版Geforce RTX3080 Max-Q(9.585TFlops),或是PS5集成的Oberon GPU(10.28TFlops)的水准。


但是这里就产生了一个问题,如果根据M1 Max和M1 Pro的功耗差值来推算,将不难得出,M1 Max的GPU功耗最高不会超过70W(这还是多算了一个媒体引擎在里面,实际应该更低)。而它的三个对比对象的功耗,却分别达到了250W、80W和125W左右(PS5是180W SoC设计,但其CPU规格基本等同于桌面版65W的Zen2 APU)。

0a60430abf735f07.jpg

那么,苹果是如何实现比A、N两家老牌GPU厂商都性能更高、同时功耗更低的GPU设计的呢?要搞清楚这一点,我们还需要了解两件事。一是在苹果的M1 Pro和M1 Max芯片里,每一个GPU“核心”其实都包含了64个ALUs(算术逻辑单元),而ALU其实才是我们在PC上常说的GPU“流处理器”;二是对于M1 Max来说,它的GPU运行频率为1278MHz,这一点M1 Pro上也是一样的。


弄明白了这些,我们就可以列出下面这个表格了。

剪辑.jpg

大家看明白了吗?没错,其实苹果的自研芯片之所以能够做到用极低的功耗去实现相当于旗舰级的性能,诀窍其实无非就两条。一是更积极地采用最先进的半导体制程,用制程换取更高的晶体管密度和能效比;其二则是采用“多核心+低频率”的设计思路,用更多的流处理器去确保性能,同时压低运行频率来保障功耗和发热更为可控。


M1 Max的设计优势,传统PC行业并非不懂


请注意,这种“先进制程+超多核心+低运行频率”的芯片设计思路,在整个PC行业来说其实并不是什么新东西。因为长期以来,各种专业级显卡和服务器CPU一直都是这么做的。

nvidia-a100-80-gb-og-social-1200x630.jpg

你以为RTX3090S就是NV的旗舰?其实A100才是他们真正看重的产品


比如NVIDIA的Tesla A100计算卡相比即将发布的RTX3090S,前者拥有几乎翻倍的核心规模(542亿晶体管 vs 283亿晶体管),但因为采用了更先进的制程(A100是台积电7nm,而3090S是三星8nm)、更低的运行频率(1275MHz vs 1395MHz),结果就是A100的功耗最终与RTX3090S完全相同。

Intel-3rd-Gen-Xeon-Scalable-7-Custom-2060x1373.jpg

Intel并不是没有10nm的桌面高性能CPU,他们只是没有针对家用市场而已


又比如说,大家都知道现在Intel的桌面旗舰CPU Core i9-11900K实际功耗可以到200W以上,而它采用的是14nm、8核心、主频5.3GHz的设计。可很多人可能不知道的是,Intel还有一款名为Xeon W3375的工作站CPU,其拥有10nm、38核心、4GHz的恐怖规格,但功耗却只比11900K高了一点点(270W)。

33.jpg

这说明其实其他的PC芯片厂商也明白,更先进制程+多核心+低频率的设计,能够更容易实现高能效比的这个道理。只不过,先进的制程加上超大尺寸的多核心芯片,本身就意味着比“高频率小芯片”高得多的制造成本。因此在如今的大多数民用PC芯片上,高频率、高发热、高功耗的“小芯片”才会成为主流。


而在这个过程中,厂商一方面成功控制了制造成本,另一方面又能实现预期的性能增长。至于高功耗的问题,最终反正是交由消费者来买单,自然也就被在一定程度上被忽视掉了。


【本文部分图片来自网络】

踩(0)

最新文章

相关文章

大家都在看