電子產(chǎn)品通常都是越用越不值錢,但現(xiàn)在有一個(gè)例外,那就是顯卡。當(dāng)顯卡已經(jīng)成為了理財(cái)產(chǎn)品的現(xiàn)在,英特爾推出了自己首個(gè)針對游戲應(yīng)用的“Arc銳炫”獨(dú)立顯卡系列,首款產(chǎn)品名為Alchemist煉金術(shù)師。
英特爾此時(shí)進(jìn)軍獨(dú)顯市場,是基于怎樣的考慮?英特爾的新一代獨(dú)立顯卡,在技術(shù)上有哪些獨(dú)到之處?特別是為何在顯卡里集成了大量AI加速引擎?它會對現(xiàn)在的顯卡市場造成怎樣的改變?今天的文章我們就一起來看一下。
ARC是誰
在去年九月的架構(gòu)日活動里,英特爾就深度披露了關(guān)于ARC的許多技術(shù)細(xì)節(jié),特別是它針對游戲應(yīng)用的Xe HPG微架構(gòu)。在今年一月的CES大會上,英特爾又進(jìn)一步展示了ARC的更多內(nèi)容和最新進(jìn)展。
英特爾在GPU的架構(gòu)上是有不少技術(shù)積累的,至少在集顯領(lǐng)域,大部分的英特爾CPU產(chǎn)品都搭載著自家的Iris集成顯卡。因此,看著Xe HPG的微架構(gòu),我們會在某些細(xì)節(jié)處感受到一些似曾相識的感覺。
但作為一款可擴(kuò)展的、為游戲這一應(yīng)用場景深度優(yōu)化的獨(dú)立顯卡,它終究是基于一種完全不同于前輩們的設(shè)計(jì)理念。
首先,Xe內(nèi)核(Xe-core)取代了此前集成顯卡架構(gòu)中的EU(Execution Unit)的概念,成為了Xe HPG架構(gòu)中最基礎(chǔ)的執(zhí)行單元。每一個(gè)Xe內(nèi)核中都配置了數(shù)量可觀的運(yùn)算單元,包括16個(gè)256位的矢量引擎和16個(gè)1024位的矩陣引擎。矢量引擎主要負(fù)責(zé)包括傳統(tǒng)的圖像處理在內(nèi)的計(jì)算任務(wù),而矩陣則是為了加速AI運(yùn)算。
為什么顯卡內(nèi)核里要集成AI加速單元呢?這個(gè)和游戲又有什么關(guān)系呢?先賣個(gè)關(guān)子,咱們先繼續(xù)看架構(gòu)。
再往上看,每4個(gè)Xe內(nèi)核組成了一個(gè)Rendering Slice,也就是"渲染切片",這個(gè)單元在Xe內(nèi)核的基礎(chǔ)上增加了針對DX12 Ultimate的優(yōu)化、用來做實(shí)時(shí)3D渲染的硬件。每個(gè)切片還配備了四個(gè)硬件光追單元,以支持實(shí)時(shí)的光線追蹤技術(shù)。
追求極致游戲體驗(yàn)的小伙伴一定對光追技術(shù)并不陌生,因?yàn)槠鋺?yīng)用能夠顯著地提升那些3A大作的畫面和光影效果。既然沉浸式的游戲體驗(yàn)已經(jīng)離不開光追,為游戲而生的Xe HPG自然沒忘了提供相應(yīng)的硬件支持,這也是它和其他Xe微架構(gòu)的最主要區(qū)別。
此外,Xe HPG當(dāng)然也沒忘了其他主流的圖形技術(shù),比如網(wǎng)格著色、采樣器反饋等,我們也能在渲染切片中找到相應(yīng)的硬件支持。
Xe HPG最大的特點(diǎn)就是靈活。每個(gè)Xe HPG都有一個(gè)大的二級緩存,由多個(gè)渲染切片共享,最多支持8個(gè)。這樣的結(jié)構(gòu)可擴(kuò)展性很強(qiáng),一方面,根據(jù)切片的數(shù)量的不同,產(chǎn)品線變得更加豐富,用戶有更多的選擇。另一方面,這樣的連接方式也使得多張顯卡的協(xié)同工作成為可能。
怎么樣,是不是有種格局打開了的感覺?
根據(jù)英特爾的數(shù)據(jù),Xe HPG在同等電壓下的頻率是XeLP獨(dú)顯的1.5倍,同時(shí)每瓦性能也比XeLP提升1.5倍。
英特爾獨(dú)立游戲顯卡的品牌名是Arc,中文名叫英特爾銳炫。其中Alchemist煉金術(shù)師是它的第一個(gè)產(chǎn)品,將于今年一季度上市。之后三款產(chǎn)品的代號都按ABCD字母表的順序排列,分別是Battlemage戰(zhàn)斗法師,Celestial天神,Druid德魯伊。
AI如何改變游戲?
說起游戲體驗(yàn),幀率和分辨率也許是大部分玩家最為關(guān)注的兩個(gè)因素,它們分別決定著畫面的流暢感和清晰度。
盡管幀率和分辨率不是非此即彼的關(guān)系,但很多時(shí)候都是不能兩者兼得的。
打個(gè)比方,如果GPU是一家餐廳的大廚,那么幀率就好比是上菜的速度,分辨率則是菜品的質(zhì)量。如果顧客對于上菜的速度的要求非常高,那么大廚顯然就沒有充足的時(shí)間把一道煮白菜按照國宴標(biāo)準(zhǔn)的開水白菜去料理。同樣的,如果顧客認(rèn)定了非要吃國宴,那也就得老實(shí)待著,別指望能在短時(shí)間內(nèi)吃上。
對于游戲來說也是這樣:想體驗(yàn)細(xì)節(jié)拉滿的畫面?復(fù)雜的渲染任務(wù)很可能讓幀數(shù)嗖嗖地往下掉。
但是作為成年人,自然是不會滿足于做單選題。這個(gè)時(shí)候就需要人工智能AI的幫助了。為了解決幀率和分辨率不可兼得的問題,英特爾推出了一個(gè)名叫XeSS、也就是Xe超采樣的技術(shù)。它的本質(zhì)是一種圖像升級技術(shù),可以通過充分地提取和利用已有的圖像信息,去預(yù)測未知的信息,而不是通過渲染來精確計(jì)算。這樣既能保證幀率,又能大幅提升分辨率。
這里的圖像信息,來源主要有兩個(gè) :一個(gè)是相鄰像素點(diǎn)中蘊(yùn)藏的、空間維度的信息;另一個(gè)是多幀圖片展示出的動態(tài)過程中的時(shí)間維度的信息。神經(jīng)網(wǎng)絡(luò)模型利用這兩種信息,對像素的細(xì)節(jié)進(jìn)行重構(gòu),在有效地縮短了處理時(shí)間的前提下一樣能夠得到接近于渲染效果的高分辨率畫面。
回到我們做菜的例子,AI就像是一顆"濃湯寶",讓大廚能夠只花煮一棵白菜的時(shí)間便料理出如假包換的國宴口味。
還記不記得前面提到Xe里集成的AI矩陣引擎,它們也正是為了支持像XeSS這樣技術(shù)的應(yīng)用。
在年初的CES上,英特爾給出了一段demo,對比了運(yùn)行于英特爾銳炫顯卡上的《裂縫破壞者》這款游戲在XeSS開啟前與開啟后的畫面。雖然我們沒有拿到定量的對比數(shù)據(jù),但是XeSS在豐富畫面細(xì)節(jié)方面的效果確實(shí)是肉眼可見的。
目前,支持XeSS技術(shù)的游戲還有《殺手3》、《死亡擱淺》等等大作,英特爾也在緊鑼密鼓地與多家游戲工作室合作開發(fā)游戲與引擎。
和友商的DLSS技術(shù)相比,XeSS還放了一個(gè)大招,那就是開源支持DP4a指令集的版本以及SDK。這意味著,我們可以期待在未來看到大量的硬件平臺都能采用并受益于XeSS技術(shù):不管是獨(dú)顯還是集顯、來自英偉達(dá)還是AMD,只要硬件支持DP4a指令集就可以使用這種基于AI的超采樣技術(shù)。
我覺得這樣開放的態(tài)度會是開發(fā)者和用戶都樂于看到的,而這也很可能成為XeSS這位后浪與DLSS這位老師傅分庭抗禮,甚至是后來居上的關(guān)鍵一招。
百寶箱:DeepLink
前面說的都是針對Arc GPU本身的優(yōu)化,但別忘了英特爾還有12代CPU、還有CPU上的集顯。為了充分利用所有硬件的性能,英特爾還提出了一個(gè)名叫Deep Link 的技術(shù)。
事實(shí)上它并不是具體某種單一的技術(shù),而是包含了一系列技術(shù)在內(nèi)的軟件架構(gòu),目的是把系統(tǒng)中不同的處理器和硬件協(xié)調(diào)起來、讓它們以整體的思維去完成處理任務(wù),從而更充分地釋放出所有硬件的性能。
你可以把它想象成哆啦A夢的口袋,里面有各種解決問題的道具。
游戲是GPU的主戰(zhàn)場,但GPU也同樣可以用在很多領(lǐng)域,除了你們想的那個(gè)(wakuang),還有很多創(chuàng)作類的工作也離不開GPU。很多人都認(rèn)為視頻剪輯只是少數(shù)人的需求,但現(xiàn)在越來越多的人做UP主,網(wǎng)上視頻內(nèi)容越來越多,背后其實(shí)都是對視頻編輯渲染算力的需求。
但是視頻渲染導(dǎo)出的時(shí)候,需要執(zhí)行大量的編碼任務(wù),所以每次都要等很久。但在傳統(tǒng)的系統(tǒng)中,即使配備有多個(gè)GPU,編碼任務(wù)往往只會交給其中一個(gè),這顯然是對硬件資源的浪費(fèi)。所以英特爾Deep Link這個(gè)大口袋里,就有一個(gè)名叫HyperEncode超編碼的技術(shù),它可以把編碼工作將被自動地分配給多個(gè)GPU。
比如你的電腦上有一個(gè)Iris集成顯卡和一張Arc獨(dú)立顯卡,通常情況下編碼任務(wù)會交給獨(dú)顯完成,此時(shí)集顯沒事做。但開啟超編碼之后,集顯和獨(dú)顯同時(shí)高負(fù)荷運(yùn)行。通過兩者的協(xié)同工作,編碼速度提升了約1.4倍。
除了HyperEncode之外,DeepLink還有一個(gè)名叫"動態(tài)功率共享(Dynamic Power Share)"技術(shù)。也就是根據(jù)實(shí)際的復(fù)雜,分配給CPU 和GPU的功率將處于一個(gè)動態(tài)變化的過程中,從而實(shí)現(xiàn)整個(gè)系統(tǒng)的性能的最優(yōu)化。
總的來說,Deep Link的目標(biāo)就是系統(tǒng)中所有硬件的深度連接,避免單打獨(dú)斗,而是以整體的思維去完成運(yùn)算任務(wù)。在單個(gè)芯片的性能提升到極限之后,進(jìn)行多個(gè)芯片的協(xié)同優(yōu)化就成了非常自然的選擇。
從GPU,看英特爾的破局之路
我知道對于顯卡,特別是對于高性能的游戲顯卡,絕大部分人可能并不關(guān)心技術(shù)。特別是在一卡難求的大環(huán)境下,英特爾進(jìn)軍獨(dú)立顯卡業(yè)務(wù),其實(shí)抓住了很好的時(shí)機(jī)。
他并不需要一上來就提供完美的產(chǎn)品,而是可以根據(jù)當(dāng)前市場的痛點(diǎn),給消費(fèi)者提供價(jià)格公道性能夠用的產(chǎn)品就可以了。然后不斷迭代,并且一步一步構(gòu)建起自己的生態(tài),比如前面說的DP4a的開源,都符合這個(gè)思路。
值得一提的是,ARC由臺積電6納米工藝代工,很多人會有產(chǎn)能的擔(dān)憂。但英特爾的這步棋走的有點(diǎn)絕,一方面繼續(xù)擠壓了友商的產(chǎn)能,另一方面自己的產(chǎn)能也在不斷鋪開,之前的文章也分析過,IDM2.0已經(jīng)成了英特爾最重要的戰(zhàn)略方向。
這有點(diǎn)像玩星際的時(shí)候的偷礦戰(zhàn)術(shù),玩到最后大家才發(fā)現(xiàn),產(chǎn)能和資源才是最終的王道。
(注:本文僅代表作者個(gè)人觀點(diǎn),與任職單位無關(guān)。)