搞深度學習的人,應該感謝“祖師爺”Geoffrey Hinton在2012年的嘗試。
那一年9月30日,Hinton團隊上傳了AlexNet在ImageNet視覺識別挑戰(zhàn)賽的成績:
15.3%的錯誤率,比第二名低了10.8個百分點之多!
之所以能出現(xiàn)如此巨大的飛躍,是因為Hinton團隊使用了GPU進行AI運算加速,讓神經(jīng)網(wǎng)絡AlexNet的實現(xiàn)成為可能,開啟了深度學習大爆發(fā)的時代。
那一篇論文的引用量如今已超過8萬次,成為深度學習領域引用最高的論文。
Hinton徹底帶火了GPU,帶火了以計算機視覺為主的醫(yī)療AI。連Hinton本人也對AI輔助醫(yī)療技術將會迅速成熟充滿了信心。
但是,Hinton可能萬萬沒想到,現(xiàn)在搞醫(yī)療AI的人,尤其是落地部署和使用醫(yī)療AI的人,卻做出了一個違背“祖師爺”的決定:
用CPU來做醫(yī)學影像領域的輔助診斷推理。
醫(yī)學影像領域,為何要用CPU?
從AlexNet誕生算起,GPU加速技術已發(fā)展近十年。為何醫(yī)療AI還要選擇CPU呢?
能不能落地是一個非常重要的原因。
要知道,用AI輔助醫(yī)療診斷不過才出現(xiàn)幾年時間,大多數(shù)醫(yī)療機構可能還沒有做好全面迎接醫(yī)療AI的準備。
作為最終用戶的醫(yī)院或醫(yī)療機構使用AI,與從事AI技術或應用研發(fā)的企業(yè)推進醫(yī)療AI的研究有很大的不同。
從事醫(yī)療AI研究的公司和機構,可以快速升級到最新的硬件,用GPU加速AI訓練。
但在真正使用醫(yī)療AI的醫(yī)院里,頻繁升級硬件的難度很大,如果在過去的服務器中加入GPU之類的AI加速硬件,就勢必改造系統(tǒng),不僅增加成本,也會帶來更復雜的部署和應用難題。
倘若能用既有的、基于CPU的硬件架構高效、經(jīng)濟、快捷地進行AI醫(yī)療的輔助診斷推理,何樂而不為呢?
一方面,醫(yī)院無需明顯增加系統(tǒng)和人力等成本,也無需大幅修改硬件部署,就能讓先進的AI應用更快地部署和投入實戰(zhàn),真正讓醫(yī)療AI普惠到每個患者。
另一方面,在醫(yī)學影像AI方面,既有的CPU平臺,尤其是英特爾主打企業(yè)計算任務的至強(Xeon),也已經(jīng)做好了準備,自然也就被熱心于醫(yī)療AI實踐的用戶們看中了。
那么,問題來了,在GPU原本擅長的領域,CPU的能力真的可以勝任嗎?
是時候拋棄對CPU的偏見了
事實證明,只要軟硬件配合得當,CPU一樣可以實現(xiàn)出色的AI應用效果,尤其是進行準確、快速的AI推理。性能優(yōu)化到位的話,在這方面的表現(xiàn)就可與GPU相媲美。
舉例來說,從去年開始影響全球的新冠肺炎疫情,對醫(yī)療機構的快速診斷能力提出了嚴峻的挑戰(zhàn)。國內專注醫(yī)療AI應用開發(fā)的匯醫(yī)慧影,就在這個關鍵時期推出了專攻新冠肺炎CT輔助診斷場景的AI應用系統(tǒng),而且使用的就是第二代英特爾至強可擴展處理器與英特爾OpenVINO工具套件這一軟硬件組合。
結果是,OpenVINO幫助AI模型更好地利用了CPU集成的深度學習加速技術,與新冠肺炎篩查相關的肺部CT影像分析場景,在20秒內就能完成一個數(shù)據(jù)樣本的推理。
除了性能上的提升外,英特爾至強CPU+OpenVINO工具套件,在加速之余也保證了AI模型的診斷精度不變。
其實早在數(shù)年前,浙江大學和德尚韻興就曾與英特爾公司合作,用至強CPU和英特爾的軟件優(yōu)化工具開發(fā)過深度學習模型,用于在臨床分析甲狀腺的超聲波影像。
△ 使用深度學習進行的甲狀腺結節(jié)檢測和定性診斷(右)
這種AI輔助診斷的準確度,當時就已經(jīng)比中國甲等醫(yī)院的放射科醫(yī)生至少高出10%。
當然,這并不是說醫(yī)學影像AI應用會取代醫(yī)生,而是讓影像科醫(yī)生在輔助下能有更高的工作效率,也可以讓經(jīng)驗豐富的醫(yī)生專注于更復雜的病例。
當然,CPU也僅僅是AI計算硬件中的一種,而非唯一的選擇??伤絹碓绞艿结t(yī)療AI領域的青睞,必然有更為深刻的原因:
那便是惠民。
CPU讓AI醫(yī)療更普惠
將“AI+CPU模式”推廣到醫(yī)學影像中,結果就是AI技術更容易落地,被推廣,因為用CPU做AI可以減少異構帶來的問題,開發(fā)和部署的門檻低、上手快。
在國內,許多AI醫(yī)療輔助診斷案例也實實在在地說明,用CPU做AI確實降低了醫(yī)院的成本負擔,讓經(jīng)費、人才和資源有限的醫(yī)院也能用上先進的AI模型。
這些AI模型對不同的醫(yī)院和患者可是一視同仁的,它讓社區(qū)醫(yī)院也能具備和大醫(yī)院相近的輔助診斷精度,患者也不必因為一些小病趕去大醫(yī)院,尤其是外地的大醫(yī)院,從而有望從技術層面上解決老百姓“看病遠、看病難、看病貴”的問題。
另一家AI醫(yī)療企業(yè)江豐生物也發(fā)現(xiàn),目前醫(yī)療機構的信息化系統(tǒng),基本都基于英特爾架構的服務器構建,如果加裝GPU將耗費高昂的成本。
通過與英特爾的合作,江豐生物基于至強CPU和深度學習技術開發(fā)了結核分枝桿菌智能篩查系統(tǒng),巧妙利用英特爾CPU多核、大內存的特性,采用多實例異步并發(fā)進行處理,最終性能提升到原來的11.4倍。
要知道,目前我國每年新增結核病患者約90萬例,屬于全球結核病高負擔國家之一;但同時我國肺結核患者的治療成功率又達90%以上,治療手段已經(jīng)非常先進。
這說明,問題出在結核病的篩查手段上。
英特爾與江豐生物的合作,就是利用更易于使用的CPU,開發(fā)出快速檢測病理切片圖像的AI方案,大大地提升了醫(yī)療機構病理檢測的生產(chǎn)力。
這種方案能夠保持86.8%的檢測準確率,以及88.9%的涂片級分級準確率,80秒內即能完成單例涂片的數(shù)字化掃描和涂片定量分級。
△ 結核分枝桿菌輔助篩查技術路線圖
江豐生物還基于至強CPU和深度學習技術開發(fā)了宮頸液基細胞學篩查系統(tǒng),宮頸癌是一種女性常見的生殖道惡性腫瘤,在全球女性的惡性腫瘤疾病中,宮頸癌發(fā)病率高居第二位。
這個項目在3萬多例宮頸液基細胞學數(shù)字圖像的標注數(shù)據(jù)上,搭建了目標檢測深度學習框架。利用至強CPU和大內存的優(yōu)勢,解決了訓練圖像尺寸受GPU顯存資源約束的問題。用比GPU訓練圖像尺寸大5倍的圖塊訓練得到的可疑細胞檢測模型,綜合MAP接近0.43,比用GPU訓練得到的模型漲點接近5%。
△ 宮頸液基細胞學篩查系統(tǒng)-技術路線圖
江豐這些醫(yī)療AI創(chuàng)新成果在落地時,也體現(xiàn)了選擇CPU平臺的好處——模型的部署和使用都非常方便,從三級醫(yī)院至基層醫(yī)院都能快速推廣落地。
這樣,就能在極大程度上消除病理科醫(yī)生水平差異帶來的問題,病患也能通過AI及時獲得更精確的診斷,以及相配套的治療方案。
CPU做AI計算,它很難嗎?
雖然已經(jīng)有了很多實例,目前仍然有許多人對CPU做AI抱有疑慮。
而這些疑慮,主要集中在計算速度和生態(tài)系統(tǒng)這兩點上:
例如:CPU做AI計算,訓練和推理速度是不是太低了?又比如:同時,AI生態(tài),對GPU架構的支持好像更多喲。
但英特爾,早已為CPU在AI行業(yè)的應用,做好了軟硬件兩手準備。
一方面,針對AI應用的算力和數(shù)據(jù)加速,英特爾早從數(shù)年前就開始布局,從硬件架構上對AI推進了三方面的優(yōu)化:
在2017年發(fā)布的第一代至強可擴展處理器上,導入支持AVX-512高級矢量擴展技術,讓CPU單位時間內能處理更多浮點運算任務,用以加速高精度的AI應用;
在2019年發(fā)布的第二代至強可擴展處理器上,基于AVX-512技術擴展出了英特爾深度學習加速(DL Boost)技術,支持INT8加速,主攻推理加速;
2020年發(fā)布的面向四路和八路服務器的第三代至強可擴展處理器時,為這項技術增添了BF16加速能力,從而兼顧推理和訓練的加速;
在2019年推出傲騰持久內存,兼具接近DRAM內存的高性能,以及DRAM內存所不具備的容量、價格和數(shù)據(jù)非易失優(yōu)勢,讓基于CPU的AI系統(tǒng)可以將更大體量的數(shù)據(jù)緩存在距離CPU更近的地方,加速訓練和推理。
△ 英特爾傲騰持久內存200系列
時間到了2021年,上述這些產(chǎn)品已經(jīng)演進到最新的面向單路和雙路系統(tǒng)的第三代至強可擴展處理器,它采用進一步優(yōu)化的全新微架構,基于10納米制程工藝生產(chǎn),并可搭配性能進一步提升的第二代傲騰持久內存。據(jù)測試,它在AI性能(INT8實時推理吞吐量)上已能達到第二代至強可擴展處理器的1.74倍。
面向多路服務器的第三代至強可擴展處理器,推理和訓練性能也分別可達到上一代產(chǎn)品的1.9倍和1.93倍。
這些測試結果也是新款至強CPU與英特爾AI優(yōu)化軟件工具搭檔的成果,與硬件的創(chuàng)新幾乎同步,英特爾在軟件上主要干了這些事兒:
推出可優(yōu)化CPU上AI應用性能的基礎軟件工具oneDNN;
將oneDNN融入Tensorflow和Pytorch等AI框架,將它們改造成面向英特爾架構優(yōu)化的AI框架;
推出可以在大數(shù)據(jù)平臺上開展AI應用,將大數(shù)據(jù)與AI無縫對接的Analytics Zoo;
發(fā)布集成各種英特爾架構優(yōu)化能力,更易部署且對圖像識別、語義分割、單眼深度估計等幾乎所有CV應用提供優(yōu)化的OpenVINO。
順帶一提,現(xiàn)在連OpenCV都支持調用OpenVINO后端了。(真香?。?/p>
如今看來,用CPU做AI,確實沒啥可擔心的——
甚至在醫(yī)療AI行業(yè),這還是個更好的選擇。
大概,就連當年積極將GPU引入醫(yī)療AI行業(yè)的Hinton,也沒預料到會是這幅景象:
如今的CPU,正在醫(yī)療AI領域大放異彩。