php 高性能框架AMD7nmZen2架構(gòu)解析:從優(yōu)秀到卓越,背后得付出多少性能最好的php框架
2023-02-12
順序
墻裂推薦AMD粉、AMD黑、牙膏黨可以看看。 下面這篇文章是數(shù)碼君轉(zhuǎn)載自今年Zen2上市之初,太平洋互聯(lián)網(wǎng)網(wǎng)《獸王》作者的文章,雖然大部分內(nèi)容是AMD官方的PPT翻譯,但是真的值得所有CPU愛好者一讀,受益匪淺!
正文開始(原標(biāo)題:《AMD 7nm Zen2架構(gòu)解析:從優(yōu)秀到優(yōu)秀,背后有多少》作者:獸王)
不知不覺,AMD的銳龍?zhí)幚砥饕呀?jīng)上市兩年半了。 2017年誕生的Zen架構(gòu)也發(fā)展了兩代。 現(xiàn)在第三代-銳龍3000系列已經(jīng)上市。 看的時(shí)候發(fā)現(xiàn)現(xiàn)在的主力銳龍7開始陸續(xù)下架,就像很多人不記得銳龍7處理器下架一樣。
管理上有一句名言——from good to ,這句話用來形容現(xiàn)在的AMD再合適不過了。
基于7nm工藝打造的第三代銳龍,相信很多人對(duì)其頻率、核心、性能大幅提升背后的架構(gòu)創(chuàng)新和調(diào)整非常感興趣。 今天就拿AMD的官方PPT分享給大家。 讓我們用簡單的方式來談?wù)勊?/p>
本文內(nèi)容較長,涉及專業(yè)名詞術(shù)語較多,閱讀有一定門檻,但我已經(jīng)盡量簡明扼要地進(jìn)行了解釋。 對(duì)于喜歡DIY、對(duì)半導(dǎo)體技術(shù)感興趣的愛好者,不妨找個(gè)安靜的地方。 好好看看,應(yīng)該能有所收獲。
過去幾年,AMD一直在研發(fā)更高性能、更節(jié)能的Zen架構(gòu)php 高性能框架,這也是為什么AMD在2017年銳龍?zhí)幚砥鲉柺罆r(shí)以52%的IPC性能提升震驚世界的原因。大家調(diào)侃的牙膏太過激了,從性能到能效都是質(zhì)的變化。
從這一點(diǎn)來看,兩年前的第一代銳龍1000系列可以說是一鳴驚人,讓落后多年的AMD拿到了高性能CPU市場的新門票。 霸主局面重現(xiàn),CPU市場格局發(fā)生變化。 近兩年從4核升級(jí)到6核再到8核。 它不再是牙膏升級(jí)。 這確實(shí)是AMD的功勞。
不過目前兩代銳龍?zhí)幚砥鬟€有一個(gè)嚴(yán)重的不足——單核性能不足,導(dǎo)致部分AMD游戲和專業(yè)應(yīng)用的性能下降。
從第一代銳龍到第二代銳龍,AMD將CPU架構(gòu)從14nm Zen提升到12nm Zen+,不過這還是小修小補(bǔ),縮短了與現(xiàn)世代的單核差距,但沒有質(zhì)的提升改變。 無法挖掘更高頻率的潛力。
管理上有一句名言——from good to ,這句話很適合形容現(xiàn)在的AMD,14/12nm騰云網(wǎng)的銳龍?zhí)幚砥魇且豢顑?yōu)秀的處理器,但是還有一些槽點(diǎn)沒有解決,而且現(xiàn)在7nm Zen 2架構(gòu)的目標(biāo)是精益求精,AMD從追趕者變領(lǐng)導(dǎo)者的任務(wù)就靠它了。
此前,AMD 在 CPU 路線圖中對(duì) Zen 2 架構(gòu)的概述是多維增強(qiáng)的 Zen 架構(gòu)。 從官方定性的角度來看,我們可以將Zen 2看成是Zen的深度改進(jìn)版——CPU的基本結(jié)構(gòu)沒有太大變化,只是在工藝、封裝、單核和多核方面進(jìn)行了全面改進(jìn)。
AMD官方對(duì)Zen 2架構(gòu)的優(yōu)勢(shì)主要集中在三個(gè)方面——性能、技術(shù)和并行性,而我們的介紹也主要圍繞這三個(gè)部分展開。
第三代銳龍采用7nm工藝:AMD CPU歷史上首次領(lǐng)先
對(duì)于CPU這樣極其先進(jìn)的邏輯芯片,任何重要的進(jìn)步都離不開工藝技術(shù)的升級(jí)。 14/12nm 的一些缺點(diǎn),比如CPU 單核頻率不夠高,AMD 不清楚,但他們也沒辦法。 GF的14/12nm制程已經(jīng)確定了上限,不是想加頻就加頻。
好在現(xiàn)在AMD推出了7nm,代工廠也從格芯換成了臺(tái)積電。 說到這里,一波三折。 去年8月初,格芯黯然宣布無限期停止7nm及以下制程的研發(fā)生產(chǎn)。 兩條腿走路的AMD不得不將CPU和GPU的7nm訂單全部交給臺(tái)積電。
對(duì)于AMD來說,從原來的兩家代工廠改為一家代工廠其實(shí)風(fēng)險(xiǎn)更大,而且臺(tái)積電之前也沒有制造高性能X86處理器的經(jīng)驗(yàn),但最終臺(tái)積電還是很有錢的。 性能上比GF好很多,AMD的7nm CPU和GPU終于量產(chǎn)成功。
此外,AMD的銳龍3000系列處理器所采用的7nm工藝也不同于臺(tái)積電為華為、蘋果代工移動(dòng)處理器所采用的工藝。 它是 7nm HPC 工藝,針對(duì)高性能 IP 內(nèi)核進(jìn)行了優(yōu)化。 7nm HPC工藝的公開介紹并不多。
根據(jù)AMD公布的數(shù)據(jù),7nm工藝帶來明顯的計(jì)算效率,包括晶體管密度翻倍,功耗降低50%(同等性能下),性能提升25%(同等功耗下)。
考慮到AMD與14nm工藝相比,密度和功耗的變化還算不錯(cuò),但25%的性能提升就差強(qiáng)人意了。 由此也可以看出,摩爾定律到了10nm節(jié)點(diǎn)之后,芯片性能的提升并不是那么容易的。 向上
只要提到處理器技術(shù),無論如何都繞不過去。 平心而論,中國的10nm制程技術(shù)并沒有落伍,甚至在晶體管密度上比臺(tái)積電的7nm制程還要有一些優(yōu)勢(shì)。 在這個(gè)問題上,就連AMD自己也很清醒,他們只表示7nm工藝趕上了與友商的差距。
當(dāng)然,綜合來看,AMD在7nm節(jié)點(diǎn)上還是領(lǐng)先的。 盡管在技術(shù)上與10nm相當(dāng),但在時(shí)間安排上AMD贏了。 高性能桌面和服務(wù)器版本要等到明年,AMD現(xiàn)在出貨的是7nm工藝的高性能桌面處理器,64核的EYPC Rome處理器也將在下半年出貨.
也正是因?yàn)槿绱?,此前有華爾街分析師稱贊AMD在7nm 3000處理器上卷土重來。 這是十多年來AMD首次在技術(shù)和性能上全面超越。 這絕對(duì)是一個(gè)歷史性的時(shí)刻。
三代銳龍?jiān)O(shè)計(jì):CPU/IO核心分離是解決延遲的關(guān)鍵
雖然AMD在 3000處理器上成功使用了7nm工藝,但是說它是7nm芯片有點(diǎn)不準(zhǔn)確。 其實(shí) 3000是7nm混合12nm工藝,這與其模塊化設(shè)計(jì)有關(guān)。
在7nm節(jié)點(diǎn),設(shè)計(jì)一顆芯片的成本高達(dá)3億美元,這對(duì)于AMD來說也是非常高的。 這就需要騰云網(wǎng)絡(luò)采用更好的方法來保證芯片的良品率。 芯片越大,成品率越低。 ,芯片越小,成品率可能越高。
在Zen 2架構(gòu)處理器上,AMD采用小芯片的設(shè)計(jì)思路,通過模塊化將不同內(nèi)核的處理器組合在一起。 設(shè)計(jì)不同于以往的膠水包裝。 從本質(zhì)上講,就是根據(jù)需要將不同工藝和架構(gòu)的芯片電路進(jìn)行匹配,比簡單的膠水封裝更加精密和復(fù)雜。
在去年推出的首款Zen 2架構(gòu)處理器——EPYC Rome上,AMD率先應(yīng)用了這種設(shè)計(jì)方法。 8組CPU核心和1組IO核心堆砌出一個(gè)64核的處理器。 在銳龍3000上,桌面版不需要那么多核心。 它采用2組CPU核心層,1組IO核心,最大16核32線程。
具體來說,圖中上述兩組CPU核心均采用7nm工藝制造,因?yàn)镃PU核心對(duì)性能要求高,對(duì)功耗也很敏感。 改進(jìn)工藝對(duì)CPU核心大有裨益,好鋼要用在刀刃上。
下面的IO核心集成了內(nèi)存控制器、PCIe控制器等IO單元。 這部分電路對(duì)性能和功耗沒有那么高的要求,IO單元也不容易隨工藝縮小,所以采用了比較低端的工藝。 ——之前說是14nm,但是 3000上的IO核心是12nm工藝的改進(jìn)版。
AMD在Zen2上采用這樣的設(shè)計(jì)無疑是非常聰明的,而且配置也非常靈活。 想要增加CPU核心數(shù),只需堆疊CPU模塊,銳龍?zhí)幚砥骶涂梢暂p松從之前的8核16線程變成16核32線程。 此外,AMD還需要通過這種方式生產(chǎn)小核,提高了良品率,降低了成本,而IO核則采用了更成熟的12nm工藝,進(jìn)一步降低了成本。
當(dāng)然,有得也有失。 設(shè)計(jì)有很多好處,但缺點(diǎn)也很明顯,就是如何處理核心之間的連接,尤其是內(nèi)存主控分離后,內(nèi)存的延遲理論上會(huì)增加,肯定不如原來的多核 是的,AMD是怎么解決這個(gè)問題的?
第一種是改進(jìn)型總線(簡稱中頻)。 中頻總線是Zen架構(gòu)的基礎(chǔ)技術(shù)之一。 它連接Zen架構(gòu)中的CCX模塊,現(xiàn)在也用于連接不同的CPU和IO核心模塊。
在銳龍3000處理器上,中頻總線已經(jīng)進(jìn)化到第二代,在并行度、延遲、能效等方面全面提升。 總線位寬從256b升級(jí)到512b,支持PCIe 4.0。 同時(shí)將Fclk和Uclk頻率解耦解鎖,提升內(nèi)存超頻性能,并采取多種方式降低內(nèi)存延遲,提高緩存速度,降低延遲的影響。
除了中頻總線的提升,AMD還有一個(gè)大動(dòng)作——三級(jí)緩存翻倍,每個(gè)CCX單元的三級(jí)緩存容量從之前的8MB增加到16MB(7nm工藝的密度優(yōu)勢(shì)任性),這樣對(duì)延遲敏感的應(yīng)用程序可以更多地依賴 L3 緩存和內(nèi)存php 高性能框架,AMD 聲稱這可以將等效內(nèi)存延遲減少 33ns,并將游戲性能提高 21%。
此外,AMD還憑借IO核心分離提高了內(nèi)存頻率。 而之前的銳龍所支持的內(nèi)存頻率,現(xiàn)在可以輕松達(dá)到4000+。
對(duì)于顯存頻率,如果追求極致的低延遲,頻率高不一定好。 這也與中頻總線的工作方式有關(guān)。 雖然和內(nèi)存頻率分開了,但是在1:1的情況下延遲還是最低的。 分界點(diǎn)是DDR4-3733,此時(shí)內(nèi)存延遲最低,AMD官方推薦DDR4-3600 CL16模式,對(duì)于目前的內(nèi)存來說很容易達(dá)到。
三代銳龍Zen2架構(gòu)詳解:一切為了更高的吞吐量
如果你還記得銳龍7剛發(fā)布時(shí)的場景,應(yīng)該對(duì)Zen架構(gòu)的SMT多線程、CCX單元、IF總線等創(chuàng)新還有印象,而銳龍3000的Zen2架構(gòu)也繼承了這些優(yōu)點(diǎn),但在Zen2 IO相關(guān)分離中,CPU核心變得更加純粹,總體方向是增加核心數(shù)使多線程性能翻倍,同時(shí)最大化單核性能。
在銳龍3000中,CPU和IO核心分離后,可以有多種搭配。 比如1組CPU可以配1組IO核,這樣最大就是8核16線程,2組CPU核可以配1組IO核。 最多16核32線程,這也是目前銳龍9 12核和16核處理器的基礎(chǔ)。
在14nm Zen架構(gòu)中,一個(gè)CCX單元的總面積為 ,其中CPU核心、8MB L3緩存為,算上其他IO、內(nèi)存主控、IF等單元,核心面積為8-核心處理器是。
Zen 2架構(gòu)中,一顆芯片總面積僅為31.3mm2,其中CCX+16MB三級(jí)緩存核心面積僅為31.3mm2,同比下降47%。 一方面是因?yàn)?nm工藝的密度優(yōu)勢(shì),另一方面也只是和Zen2的CCX一樣。 CPU核相關(guān),IO單元減少。
這也可以解釋為什么 AMD 敢于將 L3 緩存大幅增加一倍以減少延遲。 每個(gè)CCX加倍到16MB L3緩存后,CCX核心面積還是減少了一半左右。 為什么不這樣做。
就整個(gè)Zen2架構(gòu)而言,它繼承了SMT多線程技術(shù),同時(shí)在分支預(yù)測(cè)、緩存系統(tǒng)、整數(shù)、浮點(diǎn)數(shù)等單元進(jìn)行了改進(jìn),并加入了新的指令,進(jìn)一步減少延遲的影響。
緩存系統(tǒng)上,Zen 2的L3緩存翻倍,L2緩存保持8-Way不變,L1緩存有所調(diào)整,指令緩存容量從64KB減少到32KB,但關(guān)聯(lián)性從4-Way變?yōu)?-Way,而且,-Op緩存加倍。 AMD顯然想在性能、節(jié)能和面積之間取得平衡。
在預(yù)取單元上,AMD提升了分支預(yù)測(cè)的準(zhǔn)確性,增加了BTB( )容量,優(yōu)化了32KB L1緩存,最重要的是加入了TAGE分支預(yù)測(cè)器,最終使得分支預(yù)測(cè)miss hit hit命中率降低30%,命中精度提升,降低能耗,提升性能。
在解碼單元,主要改進(jìn)了-op微操作緩存,容量從2K翻倍到4K,可以支持更多的解碼操作。
浮點(diǎn)單元是 Zen 2 架構(gòu)中變化很大的一部分。 在去年的EPYC Rome處理器中,AMD表示浮點(diǎn)性能吞吐量翻了一番。 原因是它完全支持AVX2指令,并且位寬增加了,然后將之前的指令拆分為兩條指令,分兩個(gè)周期執(zhí)行,使浮點(diǎn)性能翻倍。
在整數(shù)執(zhí)行單元中,調(diào)度器的數(shù)量從84個(gè)增加到92個(gè),物理寄存器的數(shù)量從168個(gè)增加到180個(gè),每個(gè)周期的傳輸次數(shù)從6個(gè)增加到7個(gè)。這個(gè)區(qū)域更加量化,進(jìn)一步優(yōu)化了執(zhí)行單元的效率和執(zhí)行速度。
在加載/存儲(chǔ)單元中,隊(duì)列深度也增加,TLB緩存容量增加,帶寬增加,延遲降低。 最重要的是帶寬從每周期 16B 增加了一倍到 32B 字節(jié)。
在緩存一致性方面,前面已經(jīng)介紹了L1、L2、L3緩存的變化。 其中L2緩存不變,L3緩存翻倍,L1指令緩存減半,但結(jié)合性翻倍。
Zen2架構(gòu)中新增了一些指令,比如CLWB、QOS等,我就不詳細(xì)解釋了。 這些指令主要與內(nèi)存和緩存有關(guān)。 主要目標(biāo)是提高緩存性能并減少延遲。 它們主要用于 EPYC 處理器。 是的, 3000 消費(fèi)級(jí)處理器支持這些指令主要是因?yàn)楣狻?/p>
最后值得一提的是處理器的安全性。 由于后發(fā)優(yōu)勢(shì),Zen2架構(gòu)在安全和漏洞防護(hù)方面更具優(yōu)勢(shì)。 Zen 架構(gòu)已經(jīng)免疫了多個(gè)變體漏洞,例如 和 。 此外,硬件不受 變體的影響,這對(duì)消費(fèi)者處理器影響不大,但對(duì)企業(yè)用戶很重要。
第三代銳龍的終極目標(biāo):多核和單核,還要能效和低溫
無論是7nm工藝還是設(shè)計(jì),還是Zen 2微內(nèi)核架構(gòu),AMD在驍龍和銳龍?zhí)幚砥魃献非蟮哪繕?biāo)無非就是性能和能效,結(jié)合之前處理器的優(yōu)缺點(diǎn),具體來說,就是它就是繼續(xù)保持多核性能優(yōu)勢(shì),提升單核性能,提高能效,降低功耗和發(fā)熱,降低成本。 不過,價(jià)格還是跟市場有關(guān)。 具體要看具體的產(chǎn)品,這里就不說了。 .
性能方面,AMD在7nm Zen2上追求性能提升,首先是IPC性能。 從推土機(jī)架構(gòu)到Zen架構(gòu),AMD實(shí)現(xiàn)了52%的IPC性能提升,不過那是有特別的加成,但是從Zen到Zen2,AMD表示他們也實(shí)現(xiàn)了15%的IPC性能提升,值得稱道. 畢竟,高性能CPU架構(gòu)的提升難度越來越大。 相比之前的產(chǎn)品IPC性能提升5%已經(jīng)不錯(cuò)了。
其次,AMD需要實(shí)現(xiàn)更高的頻率。 1代和2代處理器在這方面吃過苦頭,加速頻率僅為4.3GHz,與已經(jīng)實(shí)現(xiàn)的5GHz加速頻率相比有很大差距。 單核性能吃虧不少,游戲性能也吃虧。
在7nm Zen2上,AMD終于有了突破。 9 12核處理器的加速頻率也達(dá)到了4.6GHz,16核 9的頻率達(dá)到了4.7GHz,AMD表示他們的加速頻率不僅僅是為了追求最高頻率單核,如果可能,更愿意讓多核達(dá)到加速頻率,這樣性能會(huì)更強(qiáng)。
綜合IPC性能和頻率的提升,AMD終于在銳龍3000上實(shí)現(xiàn)了單核性能的大幅提升,官方數(shù)據(jù)顯示單線程性能提升了21%。 考慮到銳龍一代和二代處理器的單核性能和Core處理能力的最大差距只有20%左右。 這一提升足以讓AMD在單核性能上趕超甚至超越酷睿。
同時(shí),AMD一直占據(jù)優(yōu)勢(shì)的多核性能也將繼續(xù)保持。 3000 的最大內(nèi)核數(shù)翻了一番,達(dá)到 16 核 32 線程。 隨著核心數(shù)的增加,多核性能基本保持線性增長。 處理器R20的多核跑分為3678,12核24線程的銳龍3000跑分為7248網(wǎng)站優(yōu)化,基本同步增長。
更重要的是,AMD在提升性能的同時(shí)降低了處理器的功耗。 7的絕對(duì)功耗從前兩者的195W和157W降低到135W,能效表現(xiàn)可圈可點(diǎn)。
考慮到銳龍7和酷睿i7處理器都是14nm工藝級(jí)別,7nm銳龍3000處理器在能效上有兩代工藝差距。 官方表示同等性能下功耗降低50%,能效可以說是降維打擊。
隨著能效的提升,AMD的銳龍3000處理器在發(fā)熱量方面也有優(yōu)勢(shì)。 AMD 的 6 核和 8 核酷睿處理器的高發(fā)熱量讓不少玩家感到不適,但銳龍 7 卻冷靜了許多。 這個(gè)優(yōu)勢(shì)在于,銳龍一二代上已經(jīng)是這樣了。
除了硬件的改進(jìn),AMD 也跟上了優(yōu)化的步伐。 銳龍 3000 處理器得到了微軟的支持。 在最新的5月10日更新(1903版本)中,還支持AMD處理器的fast CPU狀態(tài)。 切換功能,當(dāng)涉及到一些突如其來的工作負(fù)載時(shí),銳龍3000處理器的升頻時(shí)間從30毫秒減少到1-2毫秒。 簡單的說就是在需要的時(shí)候可以更快的提升頻率,這樣就可以提高應(yīng)用程序的響應(yīng)速度,AMD表示10的啟動(dòng)時(shí)間縮短了6%,游戲的啟動(dòng)時(shí)間也縮短了減少了 15%。
第三代銳龍的絕配:X570芯片組+PCIe 4.0帶寬
除了處理器,不得不說的還有新一代的X570芯片組。 相比之前翔碩設(shè)計(jì)的芯片組小程序開發(fā),這次的X570由AMD親自推出,為了實(shí)現(xiàn)PCIe 4.0技術(shù)支持,并且在14nm制程工藝上不惜重金。
與PCIe 3.0相比,PCIe 4.0的速度從8GT/s提升到16GT/s,帶寬翻倍。 主要優(yōu)點(diǎn)如下:
① 速度更快,x16雙向帶寬達(dá)到32GB/s,是PCIe 3.0的兩倍。
②向下兼容,PCIe 4.0也兼容PCIe 3.0設(shè)備。
③連接更多,PCIe 4.0帶寬高,1值2,可以連接更多設(shè)備,不用擔(dān)心性能下降。
PCIe 4.0目前是AMD X570/ 3000在消費(fèi)類平臺(tái)上的專屬功能。 因此,群聯(lián)、慧榮等騰云網(wǎng)絡(luò)推出的PCIe 4.0主控和騰云網(wǎng)絡(luò)的PCIe 4.0硬盤要想發(fā)揮威力,AMD平臺(tái)是首選。 可將SSD讀寫性能提升至5GB/s級(jí)別,未來可進(jìn)一步提升至6.5GB/s。
此外,除了PCIe 4.0,X570平臺(tái)上的SATA、USB 3.1 Gen2、NVMe等其他標(biāo)準(zhǔn)也優(yōu)于Z390平臺(tái)。 網(wǎng)絡(luò)有信心打造頂級(jí)平臺(tái)。 這也是與之前300、400系列芯片組最大的不同。 先進(jìn)的技術(shù)可以任性。
當(dāng)然,考慮到PCIe 4.0目前支持較少,如果不追求極致性能,可以選擇X470、B450等平臺(tái)。 AMD此前也已經(jīng)確認(rèn),除了支持PCIe 4.0外,銳龍3000處理器在其他平臺(tái)上的性能是一樣的,不會(huì)受到影響。
總結(jié):從好到好,三代銳龍的所有優(yōu)點(diǎn)“我都要”
從AMD的7nm Zen2架構(gòu)設(shè)計(jì)來看,AMD對(duì)于這一代處理器的野心可以說是遠(yuǎn)大的,無論是單核還是多核性能,還是能效、溫度、成本,AMD的目標(biāo)簡直就是如圖所示在下圖中。 :
沒錯(cuò),AMD在 3000處理器上展現(xiàn)的就是所有的優(yōu)勢(shì)都要占盡,不給友商們留下后路的感覺,通過先進(jìn)的7nm工藝,獨(dú)特的小芯片,全面提升的Zen2架構(gòu)來實(shí)現(xiàn)性能,能效的同步增長,以及過去最弱的單核性能這次也趕上了。
關(guān)于銳龍3000處理器的性能,AMD官方的測(cè)試已經(jīng)展示了很多,這里就不一一列舉了。 上圖是綜合代表。 單核和多核性能均優(yōu)于酷睿i9處理器。 .
想閱讀原文的可以點(diǎn)擊“擴(kuò)展鏈接”,感謝原作者獸王的精彩文章!