php 高性能框架AMD7nmZen2架構(gòu)解析:從優(yōu)秀到卓越,背后得付出多少性能最好的php框架

2023-02-12

順序

墻裂推薦AMD粉、AMD黑、牙膏黨可以看看。下面這篇文章是數(shù)碼君轉(zhuǎn)載自今年Zen2上市之初，太平洋互聯(lián)網(wǎng)網(wǎng)《獸王》作者的文章，雖然大部分內(nèi)容是AMD官方的PPT翻譯，但是真的值得所有CPU愛好者一讀，受益匪淺！

正文開始（原標(biāo)題：《AMD 7nm Zen2架構(gòu)解析：從優(yōu)秀到優(yōu)秀，背后有多少》作者：獸王）

不知不覺，AMD的銳龍?zhí)幚砥饕呀?jīng)上市兩年半了。 2017年誕生的Zen架構(gòu)也發(fā)展了兩代。現(xiàn)在第三代-銳龍3000系列已經(jīng)上市。看的時(shí)候發(fā)現(xiàn)現(xiàn)在的主力銳龍7開始陸續(xù)下架，就像很多人不記得銳龍7處理器下架一樣。

管理上有一句名言——from good to ，這句話用來形容現(xiàn)在的AMD再合適不過了。

基于7nm工藝打造的第三代銳龍，相信很多人對(duì)其頻率、核心、性能大幅提升背后的架構(gòu)創(chuàng)新和調(diào)整非常感興趣。今天就拿AMD的官方PPT分享給大家。讓我們用簡單的方式來談?wù)勊?/p>

本文內(nèi)容較長，涉及專業(yè)名詞術(shù)語較多，閱讀有一定門檻，但我已經(jīng)盡量簡明扼要地進(jìn)行了解釋。對(duì)于喜歡DIY、對(duì)半導(dǎo)體技術(shù)感興趣的愛好者，不妨找個(gè)安靜的地方。好好看看，應(yīng)該能有所收獲。

過去幾年，AMD一直在研發(fā)更高性能、更節(jié)能的Zen架構(gòu)php 高性能框架，這也是為什么AMD在2017年銳龍?zhí)幚砥鲉柺罆r(shí)以52%的IPC性能提升震驚世界的原因。大家調(diào)侃的牙膏太過激了，從性能到能效都是質(zhì)的變化。

從這一點(diǎn)來看，兩年前的第一代銳龍1000系列可以說是一鳴驚人，讓落后多年的AMD拿到了高性能CPU市場的新門票。霸主局面重現(xiàn)，CPU市場格局發(fā)生變化。近兩年從4核升級(jí)到6核再到8核。它不再是牙膏升級(jí)。這確實(shí)是AMD的功勞。

不過目前兩代銳龍?zhí)幚砥鬟€有一個(gè)嚴(yán)重的不足——單核性能不足，導(dǎo)致部分AMD游戲和專業(yè)應(yīng)用的性能下降。

從第一代銳龍到第二代銳龍，AMD將CPU架構(gòu)從14nm Zen提升到12nm Zen+，不過這還是小修小補(bǔ)，縮短了與現(xiàn)世代的單核差距，但沒有質(zhì)的提升改變。無法挖掘更高頻率的潛力。

管理上有一句名言——from good to ，這句話很適合形容現(xiàn)在的AMD，14/12nm騰云網(wǎng)的銳龍?zhí)幚砥魇且豢顑?yōu)秀的處理器，但是還有一些槽點(diǎn)沒有解決，而且現(xiàn)在7nm Zen 2架構(gòu)的目標(biāo)是精益求精，AMD從追趕者變領(lǐng)導(dǎo)者的任務(wù)就靠它了。

此前，AMD 在 CPU 路線圖中對(duì) Zen 2 架構(gòu)的概述是多維增強(qiáng)的 Zen 架構(gòu)。從官方定性的角度來看，我們可以將Zen 2看成是Zen的深度改進(jìn)版——CPU的基本結(jié)構(gòu)沒有太大變化，只是在工藝、封裝、單核和多核方面進(jìn)行了全面改進(jìn)。

AMD官方對(duì)Zen 2架構(gòu)的優(yōu)勢(shì)主要集中在三個(gè)方面——性能、技術(shù)和并行性，而我們的介紹也主要圍繞這三個(gè)部分展開。

第三代銳龍采用7nm工藝：AMD CPU歷史上首次領(lǐng)先

對(duì)于CPU這樣極其先進(jìn)的邏輯芯片，任何重要的進(jìn)步都離不開工藝技術(shù)的升級(jí)。 14/12nm 的一些缺點(diǎn)，比如CPU 單核頻率不夠高，AMD 不清楚，但他們也沒辦法。 GF的14/12nm制程已經(jīng)確定了上限，不是想加頻就加頻。

好在現(xiàn)在AMD推出了7nm，代工廠也從格芯換成了臺(tái)積電。說到這里，一波三折。去年8月初，格芯黯然宣布無限期停止7nm及以下制程的研發(fā)生產(chǎn)。兩條腿走路的AMD不得不將CPU和GPU的7nm訂單全部交給臺(tái)積電。

對(duì)于AMD來說，從原來的兩家代工廠改為一家代工廠其實(shí)風(fēng)險(xiǎn)更大，而且臺(tái)積電之前也沒有制造高性能X86處理器的經(jīng)驗(yàn)，但最終臺(tái)積電還是很有錢的。性能上比GF好很多，AMD的7nm CPU和GPU終于量產(chǎn)成功。

此外，AMD的銳龍3000系列處理器所采用的7nm工藝也不同于臺(tái)積電為華為、蘋果代工移動(dòng)處理器所采用的工藝。它是 7nm HPC 工藝，針對(duì)高性能 IP 內(nèi)核進(jìn)行了優(yōu)化。 7nm HPC工藝的公開介紹并不多。

根據(jù)AMD公布的數(shù)據(jù)，7nm工藝帶來明顯的計(jì)算效率，包括晶體管密度翻倍，功耗降低50%（同等性能下），性能提升25%（同等功耗下）。

考慮到AMD與14nm工藝相比，密度和功耗的變化還算不錯(cuò)，但25%的性能提升就差強(qiáng)人意了。由此也可以看出，摩爾定律到了10nm節(jié)點(diǎn)之后，芯片性能的提升并不是那么容易的。向上

只要提到處理器技術(shù)，無論如何都繞不過去。平心而論，中國的10nm制程技術(shù)并沒有落伍，甚至在晶體管密度上比臺(tái)積電的7nm制程還要有一些優(yōu)勢(shì)。在這個(gè)問題上，就連AMD自己也很清醒，他們只表示7nm工藝趕上了與友商的差距。

當(dāng)然，綜合來看，AMD在7nm節(jié)點(diǎn)上還是領(lǐng)先的。盡管在技術(shù)上與10nm相當(dāng)，但在時(shí)間安排上AMD贏了。高性能桌面和服務(wù)器版本要等到明年，AMD現(xiàn)在出貨的是7nm工藝的高性能桌面處理器，64核的EYPC Rome處理器也將在下半年出貨.

也正是因?yàn)槿绱?，此前有華爾街分析師稱贊AMD在7nm 3000處理器上卷土重來。這是十多年來AMD首次在技術(shù)和性能上全面超越。這絕對(duì)是一個(gè)歷史性的時(shí)刻。

三代銳龍?jiān)O(shè)計(jì)：CPU/IO核心分離是解決延遲的關(guān)鍵

雖然AMD在 3000處理器上成功使用了7nm工藝，但是說它是7nm芯片有點(diǎn)不準(zhǔn)確。其實(shí) 3000是7nm混合12nm工藝，這與其模塊化設(shè)計(jì)有關(guān)。

在7nm節(jié)點(diǎn)，設(shè)計(jì)一顆芯片的成本高達(dá)3億美元，這對(duì)于AMD來說也是非常高的。這就需要騰云網(wǎng)絡(luò)采用更好的方法來保證芯片的良品率。芯片越大，成品率越低。，芯片越小，成品率可能越高。

在Zen 2架構(gòu)處理器上，AMD采用小芯片的設(shè)計(jì)思路，通過模塊化將不同內(nèi)核的處理器組合在一起。設(shè)計(jì)不同于以往的膠水包裝。從本質(zhì)上講，就是根據(jù)需要將不同工藝和架構(gòu)的芯片電路進(jìn)行匹配，比簡單的膠水封裝更加精密和復(fù)雜。

在去年推出的首款Zen 2架構(gòu)處理器——EPYC Rome上，AMD率先應(yīng)用了這種設(shè)計(jì)方法。 8組CPU核心和1組IO核心堆砌出一個(gè)64核的處理器。在銳龍3000上，桌面版不需要那么多核心。它采用2組CPU核心層，1組IO核心，最大16核32線程。

具體來說，圖中上述兩組CPU核心均采用7nm工藝制造，因?yàn)镃PU核心對(duì)性能要求高，對(duì)功耗也很敏感。改進(jìn)工藝對(duì)CPU核心大有裨益，好鋼要用在刀刃上。

下面的IO核心集成了內(nèi)存控制器、PCIe控制器等IO單元。這部分電路對(duì)性能和功耗沒有那么高的要求，IO單元也不容易隨工藝縮小，所以采用了比較低端的工藝。 ——之前說是14nm，但是 3000上的IO核心是12nm工藝的改進(jìn)版。

AMD在Zen2上采用這樣的設(shè)計(jì)無疑是非常聰明的，而且配置也非常靈活。想要增加CPU核心數(shù)，只需堆疊CPU模塊，銳龍?zhí)幚砥骶涂梢暂p松從之前的8核16線程變成16核32線程。此外，AMD還需要通過這種方式生產(chǎn)小核，提高了良品率，降低了成本，而IO核則采用了更成熟的12nm工藝，進(jìn)一步降低了成本。

當(dāng)然，有得也有失。設(shè)計(jì)有很多好處，但缺點(diǎn)也很明顯，就是如何處理核心之間的連接，尤其是內(nèi)存主控分離后，內(nèi)存的延遲理論上會(huì)增加，肯定不如原來的多核是的，AMD是怎么解決這個(gè)問題的？

第一種是改進(jìn)型總線（簡稱中頻）。中頻總線是Zen架構(gòu)的基礎(chǔ)技術(shù)之一。它連接Zen架構(gòu)中的CCX模塊，現(xiàn)在也用于連接不同的CPU和IO核心模塊。

在銳龍3000處理器上，中頻總線已經(jīng)進(jìn)化到第二代，在并行度、延遲、能效等方面全面提升。總線位寬從256b升級(jí)到512b，支持PCIe 4.0。同時(shí)將Fclk和Uclk頻率解耦解鎖，提升內(nèi)存超頻性能，并采取多種方式降低內(nèi)存延遲，提高緩存速度，降低延遲的影響。

除了中頻總線的提升，AMD還有一個(gè)大動(dòng)作——三級(jí)緩存翻倍，每個(gè)CCX單元的三級(jí)緩存容量從之前的8MB增加到16MB（7nm工藝的密度優(yōu)勢(shì)任性)，這樣對(duì)延遲敏感的應(yīng)用程序可以更多地依賴 L3 緩存和內(nèi)存php 高性能框架，AMD 聲稱這可以將等效內(nèi)存延遲減少 33ns，并將游戲性能提高 21%。

此外，AMD還憑借IO核心分離提高了內(nèi)存頻率。而之前的銳龍所支持的內(nèi)存頻率，現(xiàn)在可以輕松達(dá)到4000+。

對(duì)于顯存頻率，如果追求極致的低延遲，頻率高不一定好。這也與中頻總線的工作方式有關(guān)。雖然和內(nèi)存頻率分開了，但是在1:1的情況下延遲還是最低的。分界點(diǎn)是DDR4-3733，此時(shí)內(nèi)存延遲最低，AMD官方推薦DDR4-3600 CL16模式，對(duì)于目前的內(nèi)存來說很容易達(dá)到。

三代銳龍Zen2架構(gòu)詳解：一切為了更高的吞吐量

如果你還記得銳龍7剛發(fā)布時(shí)的場景，應(yīng)該對(duì)Zen架構(gòu)的SMT多線程、CCX單元、IF總線等創(chuàng)新還有印象，而銳龍3000的Zen2架構(gòu)也繼承了這些優(yōu)點(diǎn)，但在Zen2 IO相關(guān)分離中，CPU核心變得更加純粹，總體方向是增加核心數(shù)使多線程性能翻倍，同時(shí)最大化單核性能。

在銳龍3000中，CPU和IO核心分離后，可以有多種搭配。比如1組CPU可以配1組IO核，這樣最大就是8核16線程，2組CPU核可以配1組IO核。最多16核32線程，這也是目前銳龍9 12核和16核處理器的基礎(chǔ)。

在14nm Zen架構(gòu)中，一個(gè)CCX單元的總面積為，其中CPU核心、8MB L3緩存為，算上其他IO、內(nèi)存主控、IF等單元，核心面積為8-核心處理器是。

Zen 2架構(gòu)中，一顆芯片總面積僅為31.3mm2，其中CCX+16MB三級(jí)緩存核心面積僅為31.3mm2，同比下降47%。一方面是因?yàn)?nm工藝的密度優(yōu)勢(shì)，另一方面也只是和Zen2的CCX一樣。 CPU核相關(guān)，IO單元減少。

這也可以解釋為什么 AMD 敢于將 L3 緩存大幅增加一倍以減少延遲。每個(gè)CCX加倍到16MB L3緩存后，CCX核心面積還是減少了一半左右。為什么不這樣做。

就整個(gè)Zen2架構(gòu)而言，它繼承了SMT多線程技術(shù)，同時(shí)在分支預(yù)測(cè)、緩存系統(tǒng)、整數(shù)、浮點(diǎn)數(shù)等單元進(jìn)行了改進(jìn)，并加入了新的指令，進(jìn)一步減少延遲的影響。

緩存系統(tǒng)上，Zen 2的L3緩存翻倍，L2緩存保持8-Way不變，L1緩存有所調(diào)整，指令緩存容量從64KB減少到32KB，但關(guān)聯(lián)性從4-Way變?yōu)?-Way，而且，-Op緩存加倍。 AMD顯然想在性能、節(jié)能和面積之間取得平衡。

在預(yù)取單元上，AMD提升了分支預(yù)測(cè)的準(zhǔn)確性，增加了BTB（）容量，優(yōu)化了32KB L1緩存，最重要的是加入了TAGE分支預(yù)測(cè)器，最終使得分支預(yù)測(cè)miss hit hit命中率降低30%，命中精度提升，降低能耗，提升性能。

在解碼單元，主要改進(jìn)了-op微操作緩存，容量從2K翻倍到4K，可以支持更多的解碼操作。

浮點(diǎn)單元是 Zen 2 架構(gòu)中變化很大的一部分。在去年的EPYC Rome處理器中，AMD表示浮點(diǎn)性能吞吐量翻了一番。原因是它完全支持AVX2指令，并且位寬增加了，然后將之前的指令拆分為兩條指令，分兩個(gè)周期執(zhí)行，使浮點(diǎn)性能翻倍。

在整數(shù)執(zhí)行單元中，調(diào)度器的數(shù)量從84個(gè)增加到92個(gè)，物理寄存器的數(shù)量從168個(gè)增加到180個(gè)，每個(gè)周期的傳輸次數(shù)從6個(gè)增加到7個(gè)。這個(gè)區(qū)域更加量化，進(jìn)一步優(yōu)化了執(zhí)行單元的效率和執(zhí)行速度。

在加載/存儲(chǔ)單元中，隊(duì)列深度也增加，TLB緩存容量增加，帶寬增加，延遲降低。最重要的是帶寬從每周期 16B 增加了一倍到 32B 字節(jié)。

在緩存一致性方面，前面已經(jīng)介紹了L1、L2、L3緩存的變化。其中L2緩存不變，L3緩存翻倍，L1指令緩存減半，但結(jié)合性翻倍。

Zen2架構(gòu)中新增了一些指令，比如CLWB、QOS等，我就不詳細(xì)解釋了。這些指令主要與內(nèi)存和緩存有關(guān)。主要目標(biāo)是提高緩存性能并減少延遲。它們主要用于 EPYC 處理器。是的， 3000 消費(fèi)級(jí)處理器支持這些指令主要是因?yàn)楣狻?/p>

最后值得一提的是處理器的安全性。由于后發(fā)優(yōu)勢(shì)，Zen2架構(gòu)在安全和漏洞防護(hù)方面更具優(yōu)勢(shì)。 Zen 架構(gòu)已經(jīng)免疫了多個(gè)變體漏洞，例如和。此外，硬件不受變體的影響，這對(duì)消費(fèi)者處理器影響不大，但對(duì)企業(yè)用戶很重要。

第三代銳龍的終極目標(biāo)：多核和單核，還要能效和低溫

無論是7nm工藝還是設(shè)計(jì)，還是Zen 2微內(nèi)核架構(gòu)，AMD在驍龍和銳龍?zhí)幚砥魃献非蟮哪繕?biāo)無非就是性能和能效，結(jié)合之前處理器的優(yōu)缺點(diǎn)，具體來說，就是它就是繼續(xù)保持多核性能優(yōu)勢(shì)，提升單核性能，提高能效，降低功耗和發(fā)熱，降低成本。不過，價(jià)格還是跟市場有關(guān)。具體要看具體的產(chǎn)品，這里就不說了。 .

性能方面，AMD在7nm Zen2上追求性能提升，首先是IPC性能。從推土機(jī)架構(gòu)到Zen架構(gòu)，AMD實(shí)現(xiàn)了52%的IPC性能提升，不過那是有特別的加成，但是從Zen到Zen2，AMD表示他們也實(shí)現(xiàn)了15%的IPC性能提升，值得稱道. 畢竟，高性能CPU架構(gòu)的提升難度越來越大。相比之前的產(chǎn)品IPC性能提升5%已經(jīng)不錯(cuò)了。

其次，AMD需要實(shí)現(xiàn)更高的頻率。 1代和2代處理器在這方面吃過苦頭，加速頻率僅為4.3GHz，與已經(jīng)實(shí)現(xiàn)的5GHz加速頻率相比有很大差距。單核性能吃虧不少，游戲性能也吃虧。

在7nm Zen2上，AMD終于有了突破。 9 12核處理器的加速頻率也達(dá)到了4.6GHz，16核 9的頻率達(dá)到了4.7GHz，AMD表示他們的加速頻率不僅僅是為了追求最高頻率單核，如果可能，更愿意讓多核達(dá)到加速頻率，這樣性能會(huì)更強(qiáng)。

綜合IPC性能和頻率的提升，AMD終于在銳龍3000上實(shí)現(xiàn)了單核性能的大幅提升，官方數(shù)據(jù)顯示單線程性能提升了21%。考慮到銳龍一代和二代處理器的單核性能和Core處理能力的最大差距只有20%左右。這一提升足以讓AMD在單核性能上趕超甚至超越酷睿。

同時(shí)，AMD一直占據(jù)優(yōu)勢(shì)的多核性能也將繼續(xù)保持。 3000 的最大內(nèi)核數(shù)翻了一番，達(dá)到 16 核 32 線程。隨著核心數(shù)的增加，多核性能基本保持線性增長。處理器R20的多核跑分為3678，12核24線程的銳龍3000跑分為7248網(wǎng)站優(yōu)化，基本同步增長。

更重要的是，AMD在提升性能的同時(shí)降低了處理器的功耗。 7的絕對(duì)功耗從前兩者的195W和157W降低到135W，能效表現(xiàn)可圈可點(diǎn)。

考慮到銳龍7和酷睿i7處理器都是14nm工藝級(jí)別，7nm銳龍3000處理器在能效上有兩代工藝差距。官方表示同等性能下功耗降低50%，能效可以說是降維打擊。

隨著能效的提升，AMD的銳龍3000處理器在發(fā)熱量方面也有優(yōu)勢(shì)。 AMD 的 6 核和 8 核酷睿處理器的高發(fā)熱量讓不少玩家感到不適，但銳龍 7 卻冷靜了許多。這個(gè)優(yōu)勢(shì)在于，銳龍一二代上已經(jīng)是這樣了。

除了硬件的改進(jìn)，AMD 也跟上了優(yōu)化的步伐。銳龍 3000 處理器得到了微軟的支持。在最新的5月10日更新（1903版本）中，還支持AMD處理器的fast CPU狀態(tài)。切換功能，當(dāng)涉及到一些突如其來的工作負(fù)載時(shí)，銳龍3000處理器的升頻時(shí)間從30毫秒減少到1-2毫秒。簡單的說就是在需要的時(shí)候可以更快的提升頻率，這樣就可以提高應(yīng)用程序的響應(yīng)速度，AMD表示10的啟動(dòng)時(shí)間縮短了6%，游戲的啟動(dòng)時(shí)間也縮短了減少了 15%。

第三代銳龍的絕配：X570芯片組+PCIe 4.0帶寬

除了處理器，不得不說的還有新一代的X570芯片組。相比之前翔碩設(shè)計(jì)的芯片組小程序開發(fā)，這次的X570由AMD親自推出，為了實(shí)現(xiàn)PCIe 4.0技術(shù)支持，并且在14nm制程工藝上不惜重金。

與PCIe 3.0相比，PCIe 4.0的速度從8GT/s提升到16GT/s，帶寬翻倍。主要優(yōu)點(diǎn)如下：

① 速度更快，x16雙向帶寬達(dá)到32GB/s，是PCIe 3.0的兩倍。

②向下兼容，PCIe 4.0也兼容PCIe 3.0設(shè)備。

③連接更多，PCIe 4.0帶寬高，1值2，可以連接更多設(shè)備，不用擔(dān)心性能下降。

PCIe 4.0目前是AMD X570/ 3000在消費(fèi)類平臺(tái)上的專屬功能。因此，群聯(lián)、慧榮等騰云網(wǎng)絡(luò)推出的PCIe 4.0主控和騰云網(wǎng)絡(luò)的PCIe 4.0硬盤要想發(fā)揮威力，AMD平臺(tái)是首選。可將SSD讀寫性能提升至5GB/s級(jí)別，未來可進(jìn)一步提升至6.5GB/s。

此外，除了PCIe 4.0，X570平臺(tái)上的SATA、USB 3.1 Gen2、NVMe等其他標(biāo)準(zhǔn)也優(yōu)于Z390平臺(tái)。網(wǎng)絡(luò)有信心打造頂級(jí)平臺(tái)。這也是與之前300、400系列芯片組最大的不同。先進(jìn)的技術(shù)可以任性。

當(dāng)然，考慮到PCIe 4.0目前支持較少，如果不追求極致性能，可以選擇X470、B450等平臺(tái)。 AMD此前也已經(jīng)確認(rèn)，除了支持PCIe 4.0外，銳龍3000處理器在其他平臺(tái)上的性能是一樣的，不會(huì)受到影響。

總結(jié)：從好到好，三代銳龍的所有優(yōu)點(diǎn)“我都要”

從AMD的7nm Zen2架構(gòu)設(shè)計(jì)來看，AMD對(duì)于這一代處理器的野心可以說是遠(yuǎn)大的，無論是單核還是多核性能，還是能效、溫度、成本，AMD的目標(biāo)簡直就是如圖所示在下圖中。 :

沒錯(cuò)，AMD在 3000處理器上展現(xiàn)的就是所有的優(yōu)勢(shì)都要占盡，不給友商們留下后路的感覺，通過先進(jìn)的7nm工藝，獨(dú)特的小芯片，全面提升的Zen2架構(gòu)來實(shí)現(xiàn)性能，能效的同步增長，以及過去最弱的單核性能這次也趕上了。

關(guān)于銳龍3000處理器的性能，AMD官方的測(cè)試已經(jīng)展示了很多，這里就不一一列舉了。上圖是綜合代表。單核和多核性能均優(yōu)于酷睿i9處理器。 .

想閱讀原文的可以點(diǎn)擊“擴(kuò)展鏈接”，感謝原作者獸王的精彩文章！