加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
    •  
    • 共享算力:分布式計(jì)算的全民版本
    • 方興未艾,自有擔(dān)當(dāng):中國(guó)云計(jì)算的今日景況
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

英偉達(dá)的“GPU共享抗疫法”,為什么沒(méi)能走進(jìn)中國(guó)方案?

2020/03/20
64
閱讀需 14 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

它來(lái)了它來(lái)了,它帶著 AI 方案走來(lái)了!

海外疫情的日益嚴(yán)峻,AI 投身抗疫的海外版也陸續(xù)上線。

在諸多項(xiàng)目中,共享算力方案聽(tīng)起來(lái)格外耳熟。有點(diǎn)像中國(guó)人民“躺在家為國(guó)做貢獻(xiàn)”類似,英偉達(dá)號(hào)召游戲玩家們“開電腦為抗疫做貢獻(xiàn)”。,吁 PC 玩家們捐獻(xiàn)自家 GPU/CPU 的閑置算力,支援斯坦福大學(xué)的分布式計(jì)算 Folding@home(FAH)項(xiàng)目,以彌補(bǔ)病毒研究算力的不足。

英特爾、MSI 微星等巨頭和網(wǎng)友們也紛紛響應(yīng),表示自己準(zhǔn)備好了:為了拯救世界,多掏點(diǎn)電費(fèi)算什么!MSI 甚至用了“復(fù)仇者聯(lián)盟”終局之戰(zhàn)的配圖,用“人人都是超級(jí)英雄”來(lái)瘋狂暗示。

不過(guò),共享算力能否為抗擊新冠病毒起到作用?為何在中國(guó)抗疫方案中卻沒(méi)有見(jiàn)到它的身影呢?

?

共享算力:分布式計(jì)算的全民版本

想要了解共享算力對(duì)于抗擊新冠病毒的價(jià)值,要從斯坦福大學(xué) Pande 實(shí)驗(yàn)室發(fā)起的 Folding@home 說(shuō)起。

所謂算力共享,是指依托建立的網(wǎng)絡(luò)信息中心,運(yùn)用云端分布式計(jì)算技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)算力的互聯(lián)共享,以達(dá)成分析計(jì)算。

比如這次用于抗擊新冠疫情的 Folding@home,就是目前世界上最大的分布式計(jì)算計(jì)劃(2007 年吉尼斯世界紀(jì)錄),主要用于疾病的 AI 研究,為蛋白質(zhì)折疊、聚合及由此引起的相關(guān)疾病,進(jìn)行藥物計(jì)算設(shè)計(jì)和其他分子動(dòng)力學(xué)研究。

自 2000 年 10 月 1 日啟動(dòng)以來(lái),已經(jīng)吸引了英偉達(dá)、索尼等商業(yè)巨頭的參與,成功模擬 5-10 微秒的折疊過(guò)程。目前,F(xiàn)olding@home 所有的 GPU 項(xiàng)目,也都瞄準(zhǔn)了 COVID-19 ,旨在找到它的潛在藥物靶標(biāo),未來(lái) CPU 項(xiàng)目也會(huì)盡快加入。

玩家的參與方式,需要在項(xiàng)目客戶端上選擇“Any disease”,就會(huì)收到相關(guān)需求,根據(jù)其進(jìn)行客戶端設(shè)置就好。然后 Folding@home 就會(huì)在后臺(tái),以非常的優(yōu)先級(jí),也就是在計(jì)算機(jī)空閑時(shí)來(lái)供給案例,不必?fù)?dān)心會(huì)影響游戲、視頻等正常的計(jì)算機(jī)體驗(yàn)。

而在疫情爆發(fā)之前,算力共享也已經(jīng)有了不少成熟應(yīng)用。

早在 2002 年就建立的項(xiàng)目“BOINC 算力地球”,就號(hào)稱能夠幫助普通人的電腦實(shí)現(xiàn)和外星文明的“第五類接觸”。

C 端用戶允許 BOINC 在閑置時(shí)調(diào)用個(gè)人的 CPU 和 GPU 計(jì)算能力,支持?jǐn)?shù)學(xué)、醫(yī)學(xué)、天文學(xué)、氣象學(xué)等各個(gè)領(lǐng)域的科學(xué)研究。英國(guó)牛津大學(xué)就曾使用 BOINC 的算力來(lái)預(yù)測(cè)未來(lái) 100 年全球氣候變化。

過(guò)去十幾年間 BOINC 平臺(tái)的算力資源一直在持續(xù)增長(zhǎng)。截至 2019 年 3 月,已經(jīng)有超過(guò) 440 萬(wàn)的志愿用戶加入 BOINC ,日活的主機(jī)大約 60 萬(wàn)臺(tái),貢獻(xiàn)出大概 30 PFLOPS 的算力。如果按照 AWS 服務(wù)器同等體量的算力租金來(lái)計(jì)算的話,共享一年的價(jià)值就相當(dāng)于全球 PC 用戶為科研捐出了 5000 萬(wàn)美元。

而 BOINC 的創(chuàng)建者,正是加州大學(xué)伯克利分校分布式計(jì)算領(lǐng)域的著名科學(xué)家 David Anderson。

BOINC 支援過(guò)最大的項(xiàng)目,是加州大學(xué)伯克利分校發(fā)起的、搜索外星智能生物的計(jì)算資源共享計(jì)劃 SETI@HOME。分析位于波多黎各阿雷西博天文臺(tái)和望遠(yuǎn)鏡,以及位于維吉尼亞州的綠岸天文望遠(yuǎn)鏡(Green Bank Telescope)所搜集到的無(wú)線電信號(hào),來(lái)尋找外星高等智能生物存在的證據(jù),是一個(gè)龐大的運(yùn)算工程。

1999 年 5 月 17 日啟動(dòng)至今,吸引了全世界超過(guò) 500 萬(wàn)個(gè)用戶,有超過(guò) 71 萬(wàn)臺(tái)活躍主機(jī),每天提供約 30PetaFLOPS 的運(yùn)算能力。

當(dāng)然,分布式計(jì)算平臺(tái)真正大規(guī)模走入人們的視野,還離不開“挖礦”的市場(chǎng)化洗禮。

2017-2018 年,區(qū)塊鏈(尤其是數(shù)字貨幣)的火熱也帶動(dòng)了“共享算力經(jīng)濟(jì)”,出現(xiàn)了眾多可以出租個(gè)人計(jì)算機(jī)資源的平臺(tái)。用戶將帶顯卡的機(jī)器托管到礦池里,把剩余算力租賃給“礦場(chǎng)”挖礦來(lái)獲得收益,平臺(tái)也得以降低虛擬幣的算力成本。

那么,共享算力作為分布式計(jì)算的“民主化版本”,究竟有哪些利與弊呢?

豐滿理想與骨感現(xiàn)實(shí):共享算力的真實(shí)面貌

國(guó)王說(shuō)?:“親愛(ài)的大臣,昨晚我夢(mèng)見(jiàn)一個(gè)數(shù)字,是 190554261410902619,我不知道這個(gè)數(shù)是不是一個(gè)素?cái)?shù),我需要最快知道答案?!?/p>

大臣回答?:“陛下,我也不知道,不過(guò),我們剛給王國(guó)里的每個(gè)百姓按自然數(shù)順序編了身份證號(hào)碼,只要發(fā)布命令,讓每個(gè)人用自己的號(hào)碼去除國(guó)王所夢(mèng)見(jiàn)的數(shù)字,很快就能得到答案。”

命令發(fā)布后的第二天,國(guó)王就收獲了兩個(gè)報(bào)告?,一個(gè)是 456275009,另一個(gè)是 456275291。

這個(gè)故事中,就蘊(yùn)涵了分布式計(jì)算的思想。

一方面,信息技術(shù)的飛速發(fā)展、人工智能的產(chǎn)業(yè)化浪潮,讓處理、分析海量數(shù)據(jù)的算力,成了新的關(guān)鍵資源。

比如分析蛋白質(zhì)這類項(xiàng)目,涉及到復(fù)雜的模型結(jié)構(gòu)和龐大的計(jì)算量,即便是利用超級(jí)計(jì)算機(jī)也需要消耗很長(zhǎng)的時(shí)間,以及高昂的服務(wù)器租賃成本。

如果能讓許多計(jì)算機(jī)參與到運(yùn)算過(guò)程中,將需要大量計(jì)算的項(xiàng)目分割成小塊,由由多臺(tái)計(jì)算機(jī)同時(shí)處理,再上傳運(yùn)算結(jié)果后統(tǒng)一合并得出數(shù)據(jù)結(jié)論,過(guò)程就能夠大為縮短。

而且,與中心化的商業(yè)云計(jì)算平臺(tái)不同,大量個(gè)人計(jì)算機(jī)的用戶都存在一定的資源閑置。

有統(tǒng)計(jì)顯示,全球的電腦年出貨量是 2 億臺(tái),以每五年為一個(gè)更換周期來(lái)計(jì)算,全球大概有 10 億臺(tái)電腦隨時(shí)保持運(yùn)行的狀態(tài),但利用率只有 20-30%,絕大部分時(shí)間都在閑置狀態(tài)。

如果讓它們成為分布式計(jì)算的節(jié)點(diǎn),以公益捐贈(zèng)或者小成本購(gòu)買的方式,那些因無(wú)力支付算力費(fèi)用而停滯的項(xiàng)目因此獲得支持,按需取用,豈不是人類的科技進(jìn)程都要加快很多?

當(dāng)然,共享算力這事兒出道多年,始終沒(méi)有收獲規(guī)?;?的個(gè)人用戶支持,背后一定是有其特殊的原因。

首先,共享算力一般會(huì)發(fā)生在高度公益屬性,或是具備高度經(jīng)濟(jì)收益的項(xiàng)目上。

個(gè)人閑置算力的確資源龐大,而且成本低廉,試問(wèn)誰(shuí)不想在這場(chǎng)算力圈地運(yùn)動(dòng)中“一呼百應(yīng)”呢?畢竟云服務(wù)商自己搭建數(shù)據(jù)中心,還要投入機(jī)房、房租、電費(fèi)、運(yùn)維等等成本。如果讓全民為自己打工,這種場(chǎng)景你仔細(xì)想……你想得美!

要知道,就算平臺(tái)的信譽(yù)有所保證,用戶在共享閑置算力時(shí)電腦也要持續(xù)運(yùn)行,尤其是使用 GPU 計(jì)算時(shí),會(huì)一直會(huì)保持在滿負(fù)載運(yùn)行狀態(tài),耗電量也必然會(huì)增大,有的還會(huì)占用軟件內(nèi)存導(dǎo)致卡頓,設(shè)備的耐久性和壽命也會(huì)因此打折扣。

所以除非有足夠的理由驅(qū)使,比如為了人類命運(yùn)共同體協(xié)力抗擊病毒,亦或是給予充分的經(jīng)濟(jì)回報(bào),比如挖礦,否則很難調(diào)動(dòng)起大多數(shù)人的積極性。

其次,就算是值得托付的項(xiàng)目 / 平臺(tái),也未必能管理好共享資源。

一方面,分布式計(jì)算只適合那些能夠通過(guò)計(jì)算來(lái)解決全部或部分問(wèn)題的研究,而且計(jì)算過(guò)程還需要容易被分割成個(gè)人計(jì)算機(jī)處理能力可接受的大小,這就限制了許多研究采用“共享模式”來(lái)進(jìn)行。

另一方面,項(xiàng)目方 / 平臺(tái)方需要管理海量用戶的 GPU/CPU 硬件資源,但商業(yè)競(jìng)爭(zhēng)的關(guān)系,GPU 的設(shè)計(jì)細(xì)節(jié)并未公開,不同廠商產(chǎn)品也存在很大的差異。而且算力上傳到云端虛擬化還會(huì)產(chǎn)生性能損耗,這都增加了其部署和管理的難度。

這也是為什么,在上線 21 年后,SETI @ Home 決定在今年 3 月 31 日終止向志愿者分配作業(yè)。項(xiàng)目小組解釋,是因?yàn)橐呀?jīng)分析完所有需要的數(shù)據(jù),而且數(shù)據(jù)的分布式計(jì)算管理很費(fèi)事,專案小組決定把精力放在完成數(shù)據(jù)的后端分析,和撰寫論文上面。

第三,能將共享資源效率最大化的平臺(tái),必然具備強(qiáng)大的技術(shù)能力,這也限制了共享項(xiàng)目的擴(kuò)張。

因?yàn)閷?duì)海量個(gè)人算力的云端虛擬化、調(diào)配,需要部署分布計(jì)算環(huán)境(也稱為中間件),用來(lái)提供公共服務(wù),支持分布式應(yīng)用,否則,項(xiàng)目人員就不得不解決多種操作系統(tǒng)、多種網(wǎng)絡(luò)協(xié)議、多種數(shù)據(jù)庫(kù)、性能、效率、安全等等,與業(yè)務(wù)本身沒(méi)有直接關(guān)系的難題。

比如虛擬化技術(shù),多核 CPU 和擁有大量核數(shù)的 GPU 出現(xiàn),讓計(jì)算機(jī)性能得到數(shù)量級(jí)提高的同時(shí),也加大了共享的部署難度,很容易造成 GPU 密集型負(fù)載的性能混亂和資源浪費(fèi),這就需要通過(guò)虛擬化來(lái)對(duì)豐富的計(jì)算資源進(jìn)行抽象和模擬,讓算力達(dá)到原生 GPPU/CPU 的性能,同時(shí)成千上萬(wàn)個(gè)應(yīng)用相互之間沒(méi)有任何干擾。

這樣功能強(qiáng)大、穩(wěn)定統(tǒng)一的技術(shù),主要還是掌握在云計(jì)算廠商手中。

這或許也從某個(gè)層面,解釋了中國(guó)的 AI 抗疫動(dòng)作里,暫時(shí)還沒(méi)有出現(xiàn)“全民共享 GPU”這個(gè)選項(xiàng)。

方興未艾,自有擔(dān)當(dāng):中國(guó)云計(jì)算的今日景況

其一,中國(guó)云計(jì)算產(chǎn)業(yè)規(guī)模不斷增長(zhǎng),擁有相對(duì)充足的算力資源。

在過(guò)去的數(shù)年間,從國(guó)家政策到企業(yè)需求,推動(dòng)了國(guó)內(nèi)云計(jì)算產(chǎn)業(yè)規(guī)模的高速增長(zhǎng)。信通院、IDC 等研究機(jī)構(gòu)發(fā)布的數(shù)據(jù)顯示,2018 年,中國(guó)云計(jì)算產(chǎn)業(yè)規(guī)模達(dá)到 962.8 億元人民幣,較 2017 年增長(zhǎng) 39.2%,2019 年產(chǎn)業(yè)規(guī)模則預(yù)計(jì)超過(guò)千億,達(dá)到 1290.7 億元人民幣。眾多省市都在建設(shè)超級(jí)計(jì)算中心,這為抗疫期間 AI 算力的緊缺需求,提供了高效戰(zhàn)略調(diào)動(dòng)的前提。

第二,中國(guó)云服務(wù)廠商市場(chǎng)份額和技術(shù)能力趨于世界前列,在疫情危急關(guān)頭挺身而出開放算力。

IDC《全球公有云服務(wù)市場(chǎng)跟蹤》報(bào)告顯示,中國(guó)公有云服務(wù)整體市場(chǎng)規(guī)模(IaaS/PaaS/SaaS)超 40 億美金,中國(guó)云廠商占據(jù)了全球四強(qiáng)席位。

而這些科技企業(yè)的加入,也撐起了算力需求的江山。阿里云宣布向全球公共科研機(jī)構(gòu)免費(fèi)開放一切 AI 算力,百度研究院免費(fèi)開放線性時(shí)間算法 LinearFold 以及世界上現(xiàn)有最快的 RNA 結(jié)構(gòu)預(yù)測(cè)網(wǎng)站;滴滴云也免費(fèi)開放了 GPU 云計(jì)算資源和技術(shù)支持,用于抗擊疫情相關(guān)工作……此外,一些云服務(wù)廠商也在積極研發(fā),并無(wú)償開放多款專門針對(duì)疫情調(diào)研、排查、防控的智能服務(wù)產(chǎn)品,比如至少阿里、騰訊、字節(jié)跳動(dòng)、華為等云協(xié)同辦公廠商先后免費(fèi)開放多項(xiàng)功能,上海經(jīng)信委與各運(yùn)營(yíng)商商議提供 6 個(gè)月以上云辦公、云視頻會(huì)議的免費(fèi)服務(wù)……

有這么多算力巨無(wú)霸撐起了計(jì)算資源的硬核輸入,自然也就不需要號(hào)召全民開機(jī)、支持抗疫了。

從這個(gè)角度來(lái)說(shuō),爭(zhēng)分奪秒的“GPU 抗疫”,既是對(duì)與新型冠狀病毒賽跑的科研人員的強(qiáng)有力支持,也是一個(gè)全球云計(jì)算業(yè)態(tài)的最佳側(cè)寫。

英偉達(dá)

英偉達(dá)

NVIDIA(中國(guó)大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國(guó)跨國(guó)科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。

NVIDIA(中國(guó)大陸譯名:英偉達(dá),港臺(tái)譯名:輝達(dá)),成立于1993年,是一家美國(guó)跨國(guó)科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設(shè)計(jì)業(yè)務(wù),隨著公司技術(shù)與業(yè)務(wù)發(fā)展,已成長(zhǎng)為一家提供全棧計(jì)算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務(wù)、科學(xué)研究、制造業(yè)、汽車等領(lǐng)域的計(jì)算解決方案提供支持。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜