概述
云計(jì)算和基于容器的應(yīng)用是推動當(dāng)今IT領(lǐng)域產(chǎn)生重大變革的兩大趨勢。與其他技術(shù)和方法相比,二者都能夠以更高的靈活性和更低的成本去運(yùn)行和操作應(yīng)用,因此日益受到歡迎。然而,在所有新的機(jī)遇面前,要實(shí)現(xiàn)潛在優(yōu)勢也都會有巨大的挑戰(zhàn)。
層出不窮的新技術(shù)通常會對業(yè)務(wù)運(yùn)營產(chǎn)生漸進(jìn)式的影響。但是,以云計(jì)算作為運(yùn)行模式,結(jié)合管理云原生應(yīng)用的Kubernetes——這一做法已經(jīng)改變了信息技術(shù)的交付、管理和使用方式。
此外,為支持這些環(huán)境而設(shè)計(jì)的系統(tǒng)需要選擇計(jì)算、網(wǎng)絡(luò),尤其是存儲系統(tǒng),這些系統(tǒng)具備高度可擴(kuò)展的容量和性能,而無需采用傳統(tǒng)管理方式。Kubernetes提供機(jī)制,幫助應(yīng)用以透明的方式利用多種計(jì)算和存儲資源。但是,要確保應(yīng)用對持久數(shù)據(jù)的訪問,需要底層存儲基礎(chǔ)架構(gòu)具有彈性,同時還能滿足成千上萬個應(yīng)用的容量和性能需求。
在此背景下,Evaluator Group獲邀對適合云原生應(yīng)用環(huán)境的兩種存儲系統(tǒng)展開對比。
- Lightbits云數(shù)據(jù)平臺:專為云環(huán)境設(shè)計(jì)的軟件定義存儲
如下所示,在使用相同硬件和存儲介質(zhì)的情況下,Lightbits在所有工作負(fù)載測試中,實(shí)現(xiàn)的性能均遠(yuǎn)遠(yuǎn)優(yōu)于Ceph。表1匯總顯示了使用QLC介質(zhì)的NVMe固態(tài)硬盤(SSD)的測試結(jié)果。該測試使用在OpenShift Kubernetes環(huán)境中作為容器運(yùn)行的工作負(fù)載來進(jìn)行。
?
表1:在容器環(huán)境中使用QLC介質(zhì)時的Lightbits與Ceph I/O速率比較。(來源:Evaluator Group)
本文的其余部分將更深入地探討二者的技術(shù)和性能差異,以及使用NVMe SSD與TLC介質(zhì)時的性能數(shù)據(jù)。
新興技術(shù)
如前所述,多個趨勢正在推動IT領(lǐng)域發(fā)生重大變化;其中,利用公共云等服務(wù)的趨勢正在改變IT運(yùn)行的地點(diǎn)和付費(fèi)方式,影響了應(yīng)用程序的運(yùn)行方式。云原生應(yīng)用程序(CNA)的推行正在改變應(yīng)用程序的開發(fā)和管理方式,這在一定程度上得益于企業(yè)向服務(wù)和云端遷移的趨勢。此外,可通過Fabric去訪問NVMe存儲的新技術(shù),以及新的非易失性存儲技術(shù)的出現(xiàn),使得那些能夠利用這些功能的系統(tǒng)擁有顯著的性能優(yōu)勢。
云原生應(yīng)用程序
基于容器的應(yīng)用程序設(shè)計(jì)旨在運(yùn)行于云環(huán)境,包括本地云和公共云。云原生應(yīng)用程序被設(shè)計(jì)為可獨(dú)立擴(kuò)展的服務(wù),又稱為微服務(wù)。借助微服務(wù)架構(gòu),CNA能夠在少量或甚至無需管理介入的情況下,按需擴(kuò)展應(yīng)用程序的各個部分。
此外,CNA部署在一個位置后,可以根據(jù)可用資源甚至根據(jù)資源的價格而移動到其他位置。另外,許多此類應(yīng)用程序所需的持久性存儲也必須動態(tài)響應(yīng)不斷變化的容量和性能需求。
NVMe over Fabrics協(xié)議
非易失性存儲主機(jī)控制器接口規(guī)范(NVMe)是一個支持固態(tài)硬盤(SSD)去使用高速PCIe總線進(jìn)行通信的接口,以實(shí)現(xiàn)對固態(tài)設(shè)備的低時延訪問。與SCSI或SATA設(shè)備相比,NVMe支持?jǐn)?shù)十億條命令,顯著減少了延遲或時延。為了兼容與外部設(shè)備的通信,NVMe over Fabrics擴(kuò)展了NVMe協(xié)議,支持通過Fabric去訪問NVMe。
NVMe over Fabric訪問的最新選擇之一是使用TCP傳輸協(xié)議,即NVMe/TCP。實(shí)施這項(xiàng)協(xié)議的技術(shù)負(fù)擔(dān)可顯著減少,無需任何特定的硬件或交換機(jī)設(shè)置即可支持商用以太網(wǎng)??傮w而言,與TCP上的其他存儲協(xié)議相比,在仍然使用現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)設(shè)施的情況下,NVMe over TCP具有更低的時延和更高的吞吐量。
持久性存儲
持久性存儲(PMem)兼具存儲特性(特別是無需能耗即可保留或“持久保存”數(shù)據(jù)的能力),以及內(nèi)存總線訪問特性(例如極低的時延和字節(jié)尋址能力)。持久性存儲有兩種主要類型,分別是NVDIMM和英特爾傲騰持久性存儲(Optane Persistent Memory)。NVDIMM和傲騰PMem之間的主要區(qū)別在于存儲密度和成本,其中,與NVDIMM設(shè)備相比,英特爾傲騰PMem持久性存儲在這兩個方面都具有顯著優(yōu)勢。
英特爾PMem既可用于“應(yīng)用程序直接訪問模式”,也可用于“內(nèi)存模式”。前者需要修改應(yīng)用程序,后者以低于DRAM的成本、透明地?cái)U(kuò)展系統(tǒng)內(nèi)存容量。Lightbits在App Direct模式下使用PMem作為非易失性寫入緩沖區(qū),將寫入和元數(shù)據(jù)訪問直接定向至PMem,減少了備份介質(zhì)的磨損,改善了系統(tǒng)寫入性能。
解決方案概述
過去幾十年里,使用商用硬件、以“軟件或軟件定義存儲(SDS)”的形式運(yùn)行的存儲系統(tǒng)日益受到追捧。這種方法之所以引人入勝,是因?yàn)樗軌蛟诓豢墒褂脤S没驅(qū)S杏布沫h(huán)境中運(yùn)行彈性的數(shù)據(jù)中心級存儲。此外,其靈活性有利于在不同的環(huán)境和部署規(guī)模中使用相同的SDS堆棧。如前所述,我們的評估中就使用兩種不同的SDS選項(xiàng),為容器應(yīng)用提供持久存儲。隨后將概述它們的功能。采用英特爾技術(shù)的Lightbits解決方案如圖1所示。
圖1:用于Lightbits軟件定義存儲的英特爾平臺(來源:英特爾)
英特爾
英特爾為當(dāng)今許多領(lǐng)先的服務(wù)器和存儲解決方案提供基礎(chǔ)平臺組件。這些組件包括英特爾至強(qiáng)處理器、英特爾網(wǎng)絡(luò)適配器和英特爾傲騰?技術(shù)等,其中,英特爾傲騰?可作為NVMe固態(tài)硬盤,或內(nèi)存形式的傲騰持久性存儲(PMem)設(shè)備提供。此外,具有應(yīng)用設(shè)備隊(duì)列(ADQ)的英特爾Ethernet 800系列提供了高性能、低時延的NVMe/TCP網(wǎng)絡(luò)接口卡。
Lightbits云數(shù)據(jù)平臺
Lightbits云數(shù)據(jù)平臺是一種軟件定義存儲,旨在運(yùn)用最新的技術(shù),包括NAND閃存和英特爾傲騰持久性存儲(PMem);它使用高速100GbE網(wǎng)絡(luò)接口卡,支持NVMe over TCP。Lightbits使用分布式架構(gòu),能夠按需獨(dú)立擴(kuò)展CPU、內(nèi)存、PMem或NVMe設(shè)備。因此,Lightbits能夠提供可擴(kuò)展的企業(yè)級存儲,性能優(yōu)于本地NVMe設(shè)備。
Lightbits智能閃存管理解決方案Intelligent Flash Management ?(IFM)支持最大限度地提高SSD性能和延長其耐用性。
其主要特性包括寫條帶化、無IOP元數(shù)據(jù)訪問、智能垃圾收集、追加寫策略和并行讀/寫通道。
通過將英特爾的高性能硬件平臺與Lightbits方案進(jìn)行耦合,可提供可擴(kuò)展的解決方案,降低總體擁有成本(TCO)。
Lightbits解決方案特別采用了以下技術(shù):
- 英特爾?至強(qiáng)?處理器系統(tǒng)
高性能CPU、內(nèi)存、I/O和PCIe Gen4
使用高性能CPU架構(gòu)的高效存儲軟件
企業(yè)級SSD熱插拔和LED支持NVMe介質(zhì)
- 英特爾傲騰持久性存儲(PMem)?
低時延、非易失性寫緩沖區(qū)和元數(shù)據(jù)存儲
大容量持久性存儲, 總擁有成本低于其他替代方案
- 英特爾 Ethernet ?800系列網(wǎng)絡(luò)適配器
提供應(yīng)用設(shè)備隊(duì)列(ADQ)
高性能應(yīng)用設(shè)備隊(duì)列
低時延NVMe/TCP,無需使用定制的驅(qū)動程序
通過Kubernetes容器存儲接口(CSI),Kubernetes管理的容器可以作為持久卷(PV)訪問Lightbits存儲。Lightbits CSI插件使Kubernetes能夠使用其“Elastic RAID”在Lightbits集群中存儲持久卷(PV),該“Elastic RAID”提供糾刪碼保護(hù),防止每個節(jié)點(diǎn)的數(shù)據(jù)丟失。其他Lightbits服務(wù)包括壓縮、復(fù)制、卷快照、克隆和用于多租戶環(huán)境中的基于角色的訪問控制(RBAC)。
Ceph
Ceph是一款開源的軟件定義存儲產(chǎn)品,帶有多個不同的接口,可作為塊設(shè)備、文件系統(tǒng)和目標(biāo)存儲進(jìn)行訪問。設(shè)計(jì)Ceph時,采用旋轉(zhuǎn)硬盤驅(qū)動器作為主要的存儲介質(zhì),基于NAND的SSD在大多數(shù)主流存儲系統(tǒng)中不發(fā)揮作用。
自Ceph設(shè)計(jì)以來的15年間,各種外形規(guī)格的固態(tài)閃存已成為高性能存儲系統(tǒng)的主要介質(zhì)。但Ceph初始設(shè)計(jì)中旨在提高旋轉(zhuǎn)物理介質(zhì)性能的許多元素仍得以保留。最近,更新后的Ceph已經(jīng)可以使用固態(tài)的“BlueStore”和“RocksDB”進(jìn)行元數(shù)據(jù)操作。迄今為止,Ceph還沒有針對持久性存儲進(jìn)行優(yōu)化,也不支持NVMe over fabrics或NVMe over TCP。
我們在測試中使用Ceph的開源版本,詳見附錄。
存儲效率
與一些軟件定義存儲系統(tǒng)相比,Lightbits的彈性設(shè)計(jì)擁有更多優(yōu)勢。Lightbits針對每個節(jié)點(diǎn)使用糾刪碼保護(hù),確保在丟失存儲設(shè)備時的數(shù)據(jù)可用性;此外,節(jié)點(diǎn)之間可進(jìn)行復(fù)制,因此,Lightbits能夠在減少開銷和存儲容量浪費(fèi)的同時,提供?? ?更大的彈性。在測試期間,Lightbits的配置是:在每個節(jié)點(diǎn)上使用糾刪碼來保護(hù)數(shù)據(jù),同時在Lightbits集群中的另一個節(jié)點(diǎn)上額外制作一份數(shù)據(jù)拷貝。
與此相反,Ceph的配置是:創(chuàng)建三個數(shù)據(jù)副本來進(jìn)行數(shù)據(jù)保護(hù),此時,如果一個節(jié)點(diǎn)的驅(qū)動器和另一個節(jié)點(diǎn)出現(xiàn)故障斷電,則無法確保數(shù)據(jù)可用性。盡管這兩種保護(hù)方法的存儲效率相似,但Lightbits方法的可用性更高。
不同容器工作負(fù)載下的性能
Evaluator Group需對Kubernetes應(yīng)用環(huán)境中作為容器運(yùn)行的兩種不同的存儲產(chǎn)品進(jìn)行分析。我們對Lightbits軟件定義存儲與面向容器的開源軟件定義存儲產(chǎn)品Ceph進(jìn)行了比較。測試環(huán)境由12個Kubernetes節(jié)點(diǎn)組成,在專用的3節(jié)點(diǎn)Lightbits集群或3節(jié)點(diǎn)Ceph集群中運(yùn)行容器工作負(fù)載。容器應(yīng)用測試圖表和其他細(xì)節(jié)、硬件、軟件和其他方面的詳細(xì)信息,請參見附錄描述。
測量存儲性能時,使用眾所周知的“vdbench”工具創(chuàng)建工作負(fù)載,每個節(jié)點(diǎn)使用8個運(yùn)行vdbench的容器實(shí)例,總共96個vdbench實(shí)例。
測試包括性能敏感型應(yīng)用中常見的5種不同的訪問模式和塊大?。?/p>
- 4KB,100%讀取,100%隨機(jī)訪問
- 4KB,100%寫入,100%隨機(jī)訪問
- 8KB,80%讀取/20%寫入,80%隨機(jī)訪問
- 16KB,70%讀取/30%寫入,80%隨機(jī)訪問
- 32KB,50%讀取/50%寫入,80%隨機(jī)訪問
這些工作負(fù)載用于比較Lightbits與Ceph的性能,使用QLC固態(tài)介質(zhì)作為主要存儲介質(zhì),并根據(jù)每個存儲系統(tǒng)使用適當(dāng)?shù)母咚俪志媒橘|(zhì)。在所有情況下,分別多次運(yùn)行5個工作負(fù)載,獲得可用于比較的平均結(jié)果。有關(guān)Lightbits和Ceph配置的具體細(xì)節(jié),請參見附錄。
Evaluator Group評論:測試結(jié)果顯示,使用Lightbits具有巨大的性能優(yōu)勢,其中,4KB寫入工作負(fù)載的性能是Ceph的16倍??紤]到在所有比較中,底層介質(zhì)的數(shù)量和類型是相同的,這種優(yōu)勢尤為明顯。
圖2:Ceph與Lightbits吞吐量比較(來源:Evaluator Group)
圖2顯示了使用QLC介質(zhì)時,Lightbits和Ceph在5種不同訪問模式下的吞吐量結(jié)果。吞吐量結(jié)果是直接可比較的,因?yàn)樗鼈兛紤]了數(shù)據(jù)塊大小的差異,因此將其全部顯示在一起。
性能詳情
I/O速率(以每秒I/O傳輸次數(shù)或IOPs衡量)是小數(shù)據(jù)塊工作負(fù)載的常用指標(biāo),但不利于對比不同的數(shù)據(jù)塊大小。如下方圖3所示,對典型應(yīng)用大小——8KB、16KB和32 KB進(jìn)行比較,繪制I/O速率,以每秒I/O傳輸次數(shù)衡量。在32KB時,Lightbits的優(yōu)勢是5.7倍,在16KB時,優(yōu)勢是10.4倍,在8K工作負(fù)載時,Lightbits的性能超過Ceph 12倍。
圖3:使用QLC介質(zhì)時Lightbits與Ceph的性能對比–不同數(shù)據(jù)塊大小的吞吐量(來源:Evaluator Group)
上文顯示的三種工作負(fù)載是數(shù)據(jù)庫或其他事務(wù)應(yīng)用程序中的常見負(fù)載。盡管許多數(shù)據(jù)庫嘗試執(zhí)行16K或32K大小的I/O,但在許多情況下,如果更改較小或事務(wù)率較高,它們傾向于使用較小數(shù)據(jù)塊。數(shù)據(jù)庫將執(zhí)行8K甚至4K事務(wù),而非等待合并幾個較小的I/O。
以下顯示Ceph和Lightbits使用兩種不同類型的存儲介質(zhì),即QLC和TLC介質(zhì)時,4KB讀取操作的I/O速率比較。
?
圖4:使用QLC和TLC介質(zhì)時,Ceph與Lightbits的4KB讀取I/O速率比較(來源:Evaluator Group)
雖然會發(fā)生4KB讀取操作,但4KB寫入操作更經(jīng)常用于數(shù)據(jù)庫日志記錄操作。使用QLC介質(zhì)時,Lightbits的性能比Ceph高出近17倍,使用TLC介質(zhì)時,性能比Ceph高出近7倍,如下圖5所示。
圖5:使用QLC和TLC介質(zhì)時,Ceph與Lightbits的4KB寫入I/O速率比較(來源:Evaluator Group)
Evaluator Group評論: ?數(shù)據(jù)庫和其他事務(wù)應(yīng)用程序依賴于低時延存儲,尤其是事務(wù)日志,后者必須在事務(wù)完成前寫入持久介質(zhì)。日志大多通過4K I/O操作寫入,在此工作負(fù)載下,Lightbits顯示出比Ceph更大的優(yōu)勢:使用TLC介質(zhì)時,優(yōu)勢高出近7倍,使用QLC時,優(yōu)勢高出近17倍。
其他性能數(shù)據(jù)
下文為性能結(jié)果概述,其中指出三個主要指標(biāo),包括吞吐量、I/O速率以及時延。Lightbits相對于Ceph的性能優(yōu)勢極其顯著,因此用“x”倍數(shù)來體現(xiàn)這種優(yōu)勢。使用簡單的除法(即515,697 / 30,728 = 16.78 x)來顯示Lightbits性能優(yōu)勢倍數(shù)。要點(diǎn)如下:
- 在所有五個工作負(fù)載下的測試結(jié)果表明,Lightbits具有4到16倍的優(yōu)勢?
- 數(shù)據(jù)庫經(jīng)常使用對時延高度敏感的小塊寫入日志或日記
- 在4KB寫入下,Lightbits的性能優(yōu)勢為16.78倍,優(yōu)勢顯著
?
表3:Lightbits與Ceph性能比較(來源:Evaluator Group)
關(guān)于測試,還有一點(diǎn)值得留意,即在使用QLC介質(zhì)時,Ceph的時延高于大多數(shù)工作負(fù)載可接受的水平。這是因?yàn)?,我們在所有測試中使用相同的隊(duì)列深度設(shè)置,確保比較結(jié)果的公平公正。如果工作負(fù)載針對Ceph QLC進(jìn)行了優(yōu)化,將使用較低的隊(duì)列深度設(shè)置,從而降低I/O速率,同時減小時延。如果以這種方式進(jìn)行測試,Ceph的時延水平更易于接受,但性能會顯著降低,從而放大Lightbits的優(yōu)勢。
最終結(jié)論
性能始終是IT基礎(chǔ)設(shè)施的重要考慮因素,尤其是在運(yùn)行云環(huán)境或托管云原生應(yīng)用程序時。盡管并非每個應(yīng)用或微服務(wù)都需要高I/O速率,但如要運(yùn)行現(xiàn)代云基礎(chǔ)設(shè)施,提供具有高I/O速率和低時延的彈性、可擴(kuò)展存儲至關(guān)重要。
Evaluator Group評論:在使用相同硬件配置的情況下,Lightbits的性能顯著優(yōu)于Ceph,彈性也更高。Lightbits針對英特爾的高性能技術(shù)進(jìn)行優(yōu)化,為支持云的Kubernetes環(huán)境提供了強(qiáng)大的存儲平臺。
近期技術(shù)進(jìn)展層出不窮,助力IT用戶去大規(guī)模、經(jīng)濟(jì)高效地運(yùn)營基礎(chǔ)設(shè)施。當(dāng)與英特爾傲騰持久性存儲結(jié)合使用時,QLC等新型存儲介質(zhì)可以為要求不高的工作負(fù)載支持海量存儲容量,并提供良好的性能。包括新處理器和端到端NVMe在內(nèi)的其他技術(shù)也可以提供性能和成本優(yōu)勢。
英特爾的專有技術(shù),如Xeon CPU、支持NVMe over TCP的英特爾網(wǎng)卡,以及傲騰持久性存儲和高密度NVMe SSD,為軟件定義產(chǎn)品提供了強(qiáng)大的硬件基礎(chǔ)。由于高效利用了英特爾CPU、網(wǎng)絡(luò)接口和持久存儲介質(zhì),Lightbits存儲可提供本地NVMe級別的性能,從而持續(xù)確保低時延和數(shù)據(jù)服務(wù)。
本文中所示的性能測試使用了IT環(huán)境和應(yīng)用中常見的工具和工作負(fù)載。附錄提供了進(jìn)一步的詳細(xì)信息,如希望進(jìn)一步了解測試,或希望使用自己的硬件配置重復(fù)這些測試,可參考附錄。
Evaluator Group評論:借助存儲專業(yè)人員熟知的測試工具和工作負(fù)載,我們認(rèn)為,Lightbits可以提升現(xiàn)代應(yīng)用程序的性能。Lightbits可以通過QLC介質(zhì)和傲騰PMem,支持時延敏感型應(yīng)用,而Ceph在明顯具有更高延遲的情況下只能提供很低的I/O速率。
利用持久性存儲和端到端NVMe等新技術(shù),Lightbits即可提供比Ceph更優(yōu)異的性能,且彈性更高。顯而易見,Lightbits的性能是Ceph的16倍,時延更低,是適合現(xiàn)代應(yīng)用和云環(huán)境的更佳選擇。
附錄
測試環(huán)境詳情
測試環(huán)境利用以下硬件、軟件和應(yīng)用工作負(fù)載項(xiàng)目。
測試持續(xù)4個月,從2021年9月起至12月止。
硬件和基礎(chǔ)設(shè)施
- 關(guān)于測試配置的概述,請參見下方圖6
在裸機(jī)上運(yùn)行的應(yīng)用集群,由12個Kubernetes“worker”節(jié)點(diǎn)組成
3節(jié)點(diǎn)管理集群/作為虛擬機(jī)運(yùn)行的Kubernetes“master”節(jié)點(diǎn)
運(yùn)行軟件定義存儲堆棧的3節(jié)點(diǎn)存儲集群
- 應(yīng)用環(huán)境和編排使用OpenShift 4.6版
?
圖6:OpenShift訪問存儲節(jié)點(diǎn)的工作負(fù)載測試設(shè)置(來源:Evaluator Group)
軟件環(huán)境
- 使用Red Hat OpenShift 4.6版作為3個管理節(jié)點(diǎn)和12個應(yīng)用節(jié)點(diǎn)
12個應(yīng)用(OpenShift“worker”)節(jié)點(diǎn)直接運(yùn)行于硬件上,因此稱為“裸機(jī)”
3個管理(OpenShift“master”)節(jié)點(diǎn)作為虛擬機(jī)運(yùn)行,但作為“裸機(jī)”安裝?
- CentOS 8.4版是3個Ceph節(jié)點(diǎn)使用的基礎(chǔ)操作系統(tǒng)
- Ceph SDS堆棧使用開源Ceph 16.2.6版(又名“Pacific”)
- VMware 7.0;3臺虛擬機(jī)使用ESXi及vCenter?
SUT配置
- 一個12節(jié)點(diǎn)應(yīng)用集群,運(yùn)行Red Hat OpenShift
應(yīng)用/工作節(jié)點(diǎn)配置:
雙插槽第一代英特爾至強(qiáng)可擴(kuò)展系統(tǒng)(Intel Xeon Platinum 8173M)
96 GB內(nèi)存(12個8 GB DIMM)
英特爾XXV710-DA2網(wǎng)卡,每臺主機(jī)帶2個25 Gb/s連接?
- 兩個存儲系統(tǒng)連接到OpenShift應(yīng)用集群
SDS #1,Ceph配置:
雙插槽第三代英特爾至強(qiáng)可擴(kuò)展系統(tǒng)(Intel Xeon Gold 6338)
256 GB內(nèi)存(16個16 GB DIMM)
2 TB的英特爾傲騰PMem(配置為WAL和Cache設(shè)備)
英特爾E810-CQDA2網(wǎng)卡,每臺主機(jī)帶1個100 Gb/s連接?
8個英特爾NVMe存儲介質(zhì),可選擇
- QLC SSD介質(zhì):英特爾SSD D5-P5316 @ 15.36 TB
- TLC SSD介質(zhì):英特爾SSD D7-P5510 @ 3.84 TB
SDS #2,Lightbits配置:
雙插槽第三代英特爾至強(qiáng)可擴(kuò)展系統(tǒng)(Intel Xeon Gold 6338)
256b GB內(nèi)存(16個16 GB DIMM)
2 TB英特爾傲騰持久性存儲Persistent Memory 200(配置為Lightbits寫入緩沖區(qū))
英特爾E810-CQDA2網(wǎng)卡,每臺主機(jī)帶1個100 Gb/s連接?
8臺英特爾NVMe存儲設(shè)備,可選擇:
- QLC SSD介質(zhì):英特爾SSD D5-P5316 @ 15.36 TB
- TLC SSD介質(zhì):英特爾SSD D7-P5510 @ 3.84 TB
客戶端配置–基礎(chǔ)設(shè)施?
- 使用運(yùn)行VMware ESXi的單一英特爾系統(tǒng)來支持基礎(chǔ)設(shè)施
3臺虛擬機(jī)用作OpenShift“master”節(jié)點(diǎn)
運(yùn)行Microsoft Server 2019的“jump”主機(jī),用于遠(yuǎn)程訪問基礎(chǔ)設(shè)施
SDS存儲配置
Ceph配置
備注:Ceph沒有“默認(rèn)”配置,由于硬件的可用性和其他配置參數(shù),每次安裝都可能不同。有關(guān)配置,請參見下文:
- 使用“CentOS 8.4版”作為所有三個節(jié)點(diǎn)的主機(jī)操作系統(tǒng)
- 按照上述定義配置硬件,每個節(jié)點(diǎn)配置8個NVMe設(shè)備
- 下載后,在全部3個節(jié)點(diǎn)上配置Ceph“Pacific”
將2 TB的PMem分成兩個分區(qū),一個用于WAL,另一個用于RocksDB
每個NVMe SSD配置為6個邏輯OSD(每臺設(shè)備設(shè)置6個OSD)
- Ceph設(shè)備配置
每臺主機(jī)有8個SSD,分別被劃分為6個區(qū)域
在8個物理SSD上使用6個分區(qū),每個系統(tǒng)總共有6 * 8 = 48個OSD?
Ceph配置了駐留在Optane PMem上的WAL
- 默認(rèn)資源設(shè)置:?
CPU設(shè)置為每個OSD 1個CPU,內(nèi)存設(shè)置為每個設(shè)備4 GB
Lightbits配置
備注:Lightbits沒有“默認(rèn)”配置。Lightbits和英特爾工程部門為Lightbits執(zhí)行了所有的設(shè)置操作。有關(guān)配置,請參見下文:
- 使用“Lightbits”作為全部三個節(jié)點(diǎn)的主機(jī)操作系統(tǒng)
- 按照上述定義配置硬件,每個節(jié)點(diǎn)配置8個NVMe設(shè)備
- 在全部3個節(jié)點(diǎn)上配置Lightbits
指定2 TB的PMem作為緩存設(shè)備
將每個NVMe SSD用作邏輯設(shè)備
應(yīng)用工作負(fù)載
- 使用“vdbench”工具,生成具有不同數(shù)據(jù)塊大小和讀寫比率的合成工作負(fù)載
在開始其他測試之前,運(yùn)行“寫入-填充”工作負(fù)載,完全寫入被測的整個存儲容量
每個測試運(yùn)行15分鐘進(jìn)行“預(yù)熱”,然后運(yùn)行30分鐘進(jìn)行“測量”
測試按順序進(jìn)行,每完成5個測試稱為一“組”
每個測試組重復(fù)9次,用9輪運(yùn)行結(jié)果的平均值進(jìn)行比較?
- 針對存儲配置測試以下5種工作負(fù)載
4KB,100%讀取,100%隨機(jī)訪問
4KB,100%寫入,100%隨機(jī)訪問
8KB,80%讀取/20%寫入,100%隨機(jī)訪問
16KB,70%讀取/30%寫入,80%隨機(jī)訪問
32KB,50%讀取/50%寫入,50%隨機(jī)訪問
測試過程概述
- 設(shè)置用于應(yīng)用的服務(wù)器和網(wǎng)絡(luò)
- 設(shè)置系統(tǒng),安裝附加測試基礎(chǔ)設(shè)施使用的VMware
- 在15個系統(tǒng)上安裝OpenShift(12個“worker”裸機(jī)硬件和3個“master”虛擬機(jī)節(jié)點(diǎn))
- 安裝和配置軟件定義存儲目標(biāo)集群
將Lightbits安裝到3個節(jié)點(diǎn)上,用于Lightbits SDS存儲
安裝CentOS,并在用于Ceph SDS存儲的3個節(jié)點(diǎn)上安裝Ceph Pacific
- 創(chuàng)建包含96個vdbench客戶端容器實(shí)例和1個vdbench控制器實(shí)例的容器工作負(fù)載環(huán)境
- 在控制器容器上運(yùn)行vdbench工作負(fù)載,將工作負(fù)載分配給所有96個vdbench實(shí)例
- 為每個工作負(fù)載收集9組結(jié)果,得到平均I/O速率、吞吐量和時延?
使用TLC介質(zhì)進(jìn)行比較
使用QLC介質(zhì)測試完畢后,重新將兩個存儲系統(tǒng)配置為使用TLC介質(zhì)設(shè)備,而非QLC設(shè)備。眾所周知,TLC介質(zhì)的寫入I/O速率更優(yōu),時延更低。同樣,測試兩個存儲系統(tǒng)時,使用相同的工作負(fù)載,在相同的服務(wù)器硬件、網(wǎng)絡(luò)上運(yùn)行,最重要的是,使用相同數(shù)量和類型的存儲介質(zhì)?;赥LC的NVMe固態(tài)設(shè)備作為主要的存儲介質(zhì),并根據(jù)最佳實(shí)踐,為每個存儲堆棧使用英特爾傲騰PMem。
圖7:TLC多工作負(fù)載下的Lightbits與Ceph吞吐量比較(來源:Evaluator Group)
圖7顯示了使用TLC SSD介質(zhì)時,五次相同測試的吞吐量結(jié)果。顯示吞吐量結(jié)果旨在提供可直接比較的結(jié)果,不過I/O速率是更常用于顯示單個小數(shù)據(jù)塊工作負(fù)載的指標(biāo)。