英特爾LunarLake架構解析:單核暴增、Xe2首秀

2024年6月初,英特爾方面在COMPUTEX展會期間正式公佈了傳聞許久的LunarLake平臺具體信息。

作爲英特爾的下一代低功耗筆記本電腦計算平臺,LunarLake的定位毫無疑問是接替現在的MeteorLake。但從它的具體設計上來說,LunarLake又並非簡單地基於本世代進行的規格增強,因爲它的變化實在是太大、甚至可以說是有點“顛覆”。

那麼,這一世代的英特爾移動平臺究竟是如何設計,它又會帶來產品形態、技術路線上怎樣的影響呢?接下來,就讓我們一起來看看剛剛公佈的LunarLake架構相關信息吧。

變化綜述:4+4CPU、集成內存、NPU性能暴增

首先,我們簡述一下LunarLake的幾大特徵。

在CPU方面,LunarLake採用了最高4P+4E的設計。不得不說這其實挺讓人意外,因爲上一代的MeteorLake最多可是擁有6P+8E+2LPE的16核CPU,因此英特爾如何用一半的核心數量實現性能提升,顯然會是這次的重點。

在GPU方面,LunarLake一如我們此前猜測的那樣,集成了全新的Xe2架構核顯。它除了更大的GPU規格之外,一個很顯著的變化,就是重新加入了之前在“核顯版”ARC上被刪掉的XMX矩陣計算單元。

與此同時,LunarLake也成爲英特爾歷史上第二款集成內存的CPU設計。之所以說是第二款,是因爲在之前的13代酷睿平臺上,已經有了i9-13905H這款帶有實驗性質、採用“超短內存佈線”設計的方案存在。當時它就已經證明,將內存直接集成在CPU基板上,可以很容易地換來比常規內存或者主板焊接內存高得多的頻率(因爲佈線更短、干擾就更少,有利於使用更高頻的顆粒)。LunarLake顯然便是這種設計思路的“推廣化”應用。

最後,LunarLake的內置NPU規格也從前代的10TOPs,一躍提升到了最高48TOPs。而且它的GPU現在也具備高達67TOPs的AI性能,再加上5TOPs算力的CPU,總計便能達到120TOPs的“平臺AI算力”。

很顯然,LunarLake明顯是一款迎合當下“AI PC”潮流的處理器設計。但比起AI特性,它的其他一些部分可能更加值得關注。

“超寬型”CPU設計,小核已能達到過去大核得性能

LunarLake“憑什麼”敢於用4+4核的CPU設計?其中一個很大的原因,就是它的CPU架構迎來了巨大改動。特別是其中的E核(能效核、小核),性能相比前代更是提升了2-4倍之多。所以哪怕只有4核心,實際性能已經未必輸給前代的8E配置了。與此同時,它的P核這一次改動也不小。

首先是E核。LunarLake此次採用了全新的E核設計,它取消了前代MeteorLake裡位於低功耗島裡面的LPE(超低功耗能效)核心,因此相當於“迴歸”了從12代酷睿開始的“P+E”混合架構。這也就意味着LunarLake的E核這一次既要用更少的核心數量實現足夠高的峰值性能,又要能夠在低頻率運行時做到極低的功耗,以取代之前LPE核心的功用。

那麼它是怎麼做到的呢?簡單來說,這源自新一代的“Skymont”架構。而它的變化用一個字其實就可以形容,那就是“寬”。

與前代的E核相比,Skymont架構的解碼單元採用了3*3的9寬度設計,比前代增加了足足50%。

同時,它的亂序執行引擎也大幅加寬。其分配寬度從6發射改成了8發射,指令退役單元從8寬度倍增到16寬度,亂序執行窗口的重定序緩衝(ROB)容量從256大幅增至416個指令。除此之外,更深的指令隊列長度、更大的加載和存儲緩衝區,以及多達26個預取接口,都使得Skymont架構在各種意義上來說的核心規模,都已經超過了名稱相似的經典架構Skylake。

這裡還有個很有意思的的伏筆,那就是Skymont架構這次內置了四組128bit的浮點和SIMD矢量單元。嗯,四組128bit,相信大家懂得都懂,看來AVX512、或者更準確地來說AVX10.1指令集降臨消費級E核的日子,或許是不遠了。

根據英特爾方面公佈的相關數據來看,Skymont架構E核現在的單核整數IPC相當於前代LPE節能核138%的水平,浮點性能則是168%。

算上頻率增長帶來的性能提升之後,全新的E核現在每一個核心已經可以頂過去2個低功耗核的水準,甚至是在低功耗範圍上勝過13代酷睿的Raptor Cove大核。換句話說,LunarLake現在的每一顆能效核,都有着比過去“性能核”還要高的同頻性能、同時還能兼顧到“LPE”級別功用的超低功耗。而這,便是它敢於只設計四個E核的底氣了。

更大更強的性能核,架構設計上還有伏筆

講完了LunarLake的能效核,接下來我們來說說它的性能核,也就是俗稱的P核、大核。

與能效核一樣,英特爾此次也完全重新設計了新處理器的性能核架構,現在它使用的是名爲“Lion Cove”的新架構。

與Skymont一樣,更寬更大的併發處理能力也是Lion Cove架構的主要改進思路。比如它的前端部分將預測區塊增大了8倍之多,擁有更寬的預取單元,同時還增加了微操作的緩衝容量。

而在執行單元部分,Lion Cove將分配/重命名單元的寬度從6增加到8個,指令退役單元的寬度從8個增加到12個,指令窗口深度從512增加到576,同時執行接口也從12個增加到18個。

與此同時,Lion Cove架構現在擁有更大規模的整數執行設計,它的算數邏輯單元從5個增加到6個,64*64乘法單元從1個增加到3個。

而在浮點部分,Lion Cove的256bit SIMD單元也從3個增加到了4個,浮點除法器數量翻倍,同時還降低了乘加運算的指令延遲。此外值得注意的是,大家都知道隔壁AMD是用兩個256bit SIMD單元去實現的AVX512指令集兼容,而英特爾這次將Lion Cove內部的256bit SIMD單元數量增加爲4組,也算是再次暗示了未來512bit向量指令集在消費級CPU上回歸的可能。

或許是爲了更好地應對更寬、吞吐量更大的架構設計,英特爾還首次在Lion Cove架構裡引入了大容量的L0緩存。當然,其實說他們是增加了新的“L1.5”緩存或許更準確。因爲從本質上來說,現代CPU其實都會帶有很小的L0(通常只有幾KB、甚至不到1KB)用於存儲微操作指令。而從Lion Cove與前代Redwood Cove(注:MeteorLake的性能核)的對比中就不難發現,新的緩存實際上相當於在L1和L2中間加入了新的緩衝層,以緩解更大、但循環週期更長的L2對延遲造成的影響。

從官方公佈的數據來看,Lion Cove性能核架構的IPC比前代提升大約在14%,而且尤其在低頻部分的優勢會更加明顯、接近20%。

放棄超線程,但多線程能效反而得以大增

除了更寬的架構設計,LunarLake的CPU部分這次還有一個很大的變化,那就是取消了性能核的超線程功能。

需要注意的是,根據英特爾方面的說法,取消超線程並不一定是架構層面的硬件不支持,主要是出於平臺能效比做的決定。因爲他們發現,對於如今的“性能核”來說,增加超線程功能可以提供大約30%的多線程增益,但同時會多消耗20%的功耗。

但是由於LunarLake的能效核性能比過去一下子強了太多,這就使得性能核的超線程單元相比之下反而就很“不划算”了。因爲現在新處理器的能效核與性能核之間的差距,已經沒有過去那麼大,所以他們的辦法就是直接用能效核去承擔更多的多線程運算。

與此同時,LunarLake處理器現在擁有大幅改進的“線程調度器”和電源管理特性。它的小核現在具備單獨的電源管理單元,同時大核的主頻調節步進不再是過去的100MHz、而是細化爲可以按照16.67MHz爲一個步進、進行頻率的自動調整。

這樣一來,一方面操作系統(目前主要是Windows 11的最新版本)可以更加清楚地“知道”,什麼類型的程序應該被放在什麼種類的核心上運行,從而避免過去性能核動不動被低功耗程序所激活,白白浪費功耗的情況出現。

另一方面,當筆記本電腦處於受限功耗場景(比如電池模式、或者低噪聲散熱模式)時,新的處理器可以儘可能地根據實時性能需求更細密地調整主頻,從而解決了過去粗放式的睿頻機制所導致,低功耗模式下主頻太低、性能不夠用的問題。

核顯補齊短板,內存設計杜絕“簡配”

最後,我們來聊聊LunarLake這一代的核顯部分設計。

實際上,LunarLake的核顯會加回XMX單元這件事,我們三易生活很早之前就已經猜到。因爲對現代的Intel ARC獨顯來說,XMX單元不僅是重要的AI計算資源,而且對於遊戲內的AI超分、AI HDR等最新的畫面增強功能,也會提供很大的幫助。

不過在具體的架構上,LunarLake這次集成的Xe2 GPU架構又絕非是簡單地“加回XMX單元”。因爲除此之外,它還大幅提升了內部渲染切片的吞吐率,將紋理預取和網格遮罩性能都增加到了原來的3倍。

與此同時,新的GPU內核也同樣採用了“更大更寬”的改進思路。其採樣吞吐量、渲染吞吐量全部翻倍,像素色彩緩衝增大了33%。同時英特爾還全面重新設計了Xe2的光追引擎,大幅提升了光追的計算效率,降低了開啓光追之後的幀率損失。

根據官方公佈的數據顯示,與前代Xe架構的ARC核顯相比,LunarLake的Xe2架構在單時鐘週期下的光追性能達到了前代的1.6倍,採樣反饋性能爲前代2.7倍,網格渲染性能可達4倍以上。同時得益於XMX單元的引入,在多個AI計算場景下,Xe2的同頻性能都能達到前代的4倍。

這裡特別值得一提的是,Xe2架構增加了對於Excute Indirect功能的硬件支持。而這則是最新版Direct 12裡引入的技術特性,它完全改變了GPU的工作方式,讓GPU不需要再等待CPU的指令,可以自主地“安排”高併發的draw和dispatch任務。

根據實測數據顯示,與過去依賴CPU進行“指揮”的GPU架構相比,Xe2的這一改進使得它在新版系統下的dispatch速度提升了7倍、draw速度提升了12.5倍,毫無疑問堪稱是革命性的增強。

當然大家都知道,要想充分地發揮核顯性能,足夠高帶寬的內存是必須的。在之前的MeteorLake上,英特爾雖然提供了對LPDDR5X-7500內存的支持,但並未強制OEM廠商使用這種高頻內存。因此也給了部分品牌“節約成本”,換用普通DDR5-5600內存的可能性。

但到了LunarLake這一代,情況就完全改變了。因爲新處理器直接採用了集成內存的設計,可以將16GB或32GB的LPDDR5X-8533內存集成到CPU基板上。

雖然可以說這樣的設計也就意味着LunarLake不可能再去適配更大的內存,不過沒關係,考慮到LunarLake的定位,它對應的同世代“高性能向”移動平臺,註定會是同樣在今年登場的“箭湖”變體。而後者採用了與LunarLake同宗同源的CPU核心設計,並且幾乎一定可以支持更大容量的內存配置,以滿足那些移動工作站,以及下一代遊戲本的需求。

總結:主打低功耗,但也帶來了新的希望

總的來說,LunarLake可以說是英特爾這幾年以來變化最大的一次處理器設計。如果按照代次間變化程度的大小去評判,那麼它的“新意”甚至可能比11代酷睿到12代酷睿的變化還要更大一些。

當然不能否認的是,無論是最大4P+4E的CPU佈局、最高32GB的片上內存設計,還是其所採用的集成式WiFi新方案,這些都表明LunarLake註定會是一款更注重“低功耗”、主打超輕薄筆記本電腦、x86掌機等等設備的處理器設計。

官方已經明示,新架構同樣會被用於桌面端新品

但這就會帶來一個問題,那就是LunarLake很可能並不能完全覆蓋現在MeteorLake的市場區間。因爲後者畢竟有6P+8E+2LPE的高功耗版本被用在一些遊戲本、甚至是工作站級別的產品中,而LunarLake就未必可以滿足它們的配置需求。

不過英特爾方面在發佈LunarLake的過程中也多次提及,這次的CPU、GPU採用的都是可擴展的模塊化架構。比如其Skymont E核,未來在高性能處理器上就必然還會有8核、16核,甚至是更多核心數量的版本,Lion Cove P核在更注重純粹性能的“純大核”處理器上,也完全可以加入超線程功能。

所以這實際上也就意味着,LunarLake的意義並不僅僅是一代新的超輕薄AI筆記本電腦芯片方案,它的許多基礎架構將來都會被繼承到英特爾新的高性能桌面CPU、高性能遊戲本CPU、獨立顯卡,甚至是服務器和工作站產品線上。反過來說,這也代表着LunarLake很可能會是英特爾全新的軟件優化、指令集優化生態和驅動適配服務的一個“新起點”。所以它“戰未來”的潛力,或許比我們現在想象的還要更大一些。