Arm 控股有限公司(納斯達(dá)克股票代碼:ARM,以下簡稱“Arm”)近期宣布通過將 Arm? Kleidi 技術(shù)集成到 PyTorch 和 ExecuTorch,賦能新一代應(yīng)用在 Arm CPU 上運(yùn)行大語言模型 (LLM)。Kleidi 匯集了最新的開發(fā)者賦能技術(shù)和關(guān)鍵資源,旨在推動機(jī)器學(xué)習(xí) (ML) 技術(shù)棧中的技術(shù)協(xié)作和創(chuàng)新。通過這些重要進(jìn)展,Arm 致力于為任一 ML 技術(shù)棧的開發(fā)者提供更為順暢的體驗(yàn)。
Arm 戰(zhàn)略與生態(tài)部開發(fā)者技術(shù)副總裁 Alex Spinelli 表示:“Arm 正與領(lǐng)先的云服務(wù)提供商和框架設(shè)計(jì)者緊密合作,以打造便捷的開發(fā)環(huán)境,讓軟件開發(fā)者能夠輕松地在基于 Arm 架構(gòu)的硬件上加速人工智能 (AI) 和 ML 工作負(fù)載。自該技術(shù)推出的四個月以來,Kleidi 已在 Arm CPU 上加速開發(fā)并顯著提升主要的 AI 性能。Arm 與 PyTorch 社區(qū)的緊密合作印證了該技術(shù)可以大大減少開發(fā)者利用高效 AI 所需的工作量?!?/p>
與領(lǐng)先框架集成,實(shí)現(xiàn)顯著云端優(yōu)勢
在云端,Kleidi 以利用 Arm Compute Libraries (ACL) 增強(qiáng) PyTorch 帶來的成果為基礎(chǔ),為世界各地在 Arm 平臺上優(yōu)化 AI 的開發(fā)者打造藍(lán)圖。通過為開發(fā)者免去不必要的工程工作,以便開發(fā)者能將 Arm 視為運(yùn)行其關(guān)鍵 ML 工作負(fù)載的首選平臺。作為實(shí)現(xiàn)這一愿景的關(guān)鍵一步,Arm 直接與 PyTorch 和 TensorFlow 進(jìn)行 Arm Kleidi Libraries 的集成合作,這包括將基本的 Arm 軟件庫直接集成到上述的領(lǐng)先框架中。
重要的是,這意味著當(dāng)新的框架版本發(fā)布時,應(yīng)用開發(fā)者能夠自動從其大幅的性能提升中受益,而無需額外在 Arm 平臺上重新編譯。這項(xiàng)投入已對合作伙伴關(guān)系產(chǎn)生了積極影響:
- Arm 聊天機(jī)器人演示由 Meta Llama 3 LLM 驅(qū)動,并運(yùn)行在亞馬遜云科技 (AWS) Graviton 處理器上,首次在主線 PyTorch 中實(shí)現(xiàn)了實(shí)時聊天響應(yīng)。
根據(jù)在 AWS Graviton4 上所測得的數(shù)據(jù)顯示,通過將 Kleidi 技術(shù)集成到開源 PyTorch 代碼庫,詞元 (token) 首次響應(yīng)時間可提高 2.5 倍。
- 通過優(yōu)化 torch.compile 以充分利用通過 ACL 提供的 Kleidi 技術(shù),在基于 AWS Graviton3 上所測得的數(shù)據(jù)顯示,各類 Hugging Face 模型推理工作負(fù)載上的性能可提升 1.35 至 2 倍。
這些僅是出色的云端示例之一,卻代表了在 Arm 平臺上普及 ML 工作負(fù)載時可實(shí)現(xiàn)的性能加速類型。Arm 將持續(xù)投入,以確保開發(fā)者的 AI 應(yīng)用可以在其技術(shù)上從云到邊都能完美運(yùn)行,其中包括實(shí)現(xiàn)新功能的向前兼容,進(jìn)而使得開發(fā)者能夠即刻從中受益。
合作助力開發(fā)者緊跟生成式 AI 發(fā)展步伐
隨著新的語言模型版本快速地推陳出新,生成式 AI 掀起了一波 AI 創(chuàng)新熱潮。Arm 持續(xù)與 ML 技術(shù)棧的各個關(guān)鍵環(huán)節(jié)緊密合作,攜手 AWS 和 Google 等云服務(wù)提供商以及 Databricks 等迅速壯大的 ML 獨(dú)立軟件開發(fā)商 (ISV) 社區(qū),進(jìn)而幫助開發(fā)者立于技術(shù)前沿。
Google Cloud Compute 產(chǎn)品管理高級總監(jiān) Nirav Mehta 表示:“Arm 和 Google Cloud 致力于為開發(fā)者提升 AI 的可訪問性和敏捷性,而 Kleidi 代表了通過軟硬件協(xié)同優(yōu)化滿足 AI 需求所取得的重要進(jìn)展。隨著我們的客戶正積極采用基于 Arm 架構(gòu)的定制 CPU —— Axion,我們期待在整個 ML 技術(shù)棧中為客戶帶來更加順暢的集成體驗(yàn)?!?/p>
Databricks 軟件工程師Lin Yuan 表示:“利用 Databricks Data Intelligence Platform 進(jìn)行 AI 和 ML 工作流的企業(yè),將受益于跨 ML 軟件棧的 Arm Kleidi 集成所帶來的性能優(yōu)化。借助由 Databricks ML Runtime 集群提供支持的 Arm 架構(gòu) AWS Graviton 處理器,企業(yè)可以從各種 ML 軟件庫的加速中受益,同時降低云服務(wù)提供商的成本?!?/p>
協(xié)助開發(fā)者將 Arm 提供的資源應(yīng)用到實(shí)際用例中至關(guān)重要,為此 Arm 創(chuàng)建示例軟件棧和學(xué)習(xí)資源,向開發(fā)者展示如何在 Arm CPU 上構(gòu)建 AI 工作負(fù)載,進(jìn)而迅速推動了 Arm 系統(tǒng)的廣泛采用,并加快了開發(fā)者在 Arm 系統(tǒng)上的部署速度。第一個案例是通過 Kleidi 技術(shù)加速聊天機(jī)器人的實(shí)現(xiàn),今年晚些時候 ML Ops 和檢索增強(qiáng)生成 (RAG) 也將添加至這些用例,并計(jì)劃在 2025 年實(shí)現(xiàn)更多成果。
持續(xù)提升端側(cè)性能
基于 Kleidi 在端側(cè)的發(fā)展勢頭,KleidiAI 還將被集成到 ExecuTorch(PyTorch 新的端側(cè)推理運(yùn)行時)。這項(xiàng)集成預(yù)計(jì)將于 2024 年 10 月完成,并有望為目前正在 ExecuTorch 中進(jìn)行生產(chǎn)測試或?qū)崿F(xiàn)的端側(cè)應(yīng)用帶來顯著的性能提升。目前已完成的多項(xiàng) KleidiAI 集成包括與 Google XNNPACK 和 MediaPipe,以及騰訊的混元大模型,為其實(shí)際工作負(fù)載帶來了顯著提升。
Kleidi 將繼續(xù)與 PyTorch 和 ExecuTorch 的各版本以及其他主要 AI 框架進(jìn)行集成。從云數(shù)據(jù)中心到端側(cè)設(shè)備,開發(fā)者現(xiàn)在可以即刻在各類設(shè)備上基于 Arm 平臺高效運(yùn)行高性能 AI 工作負(fù)載。Arm 將繼續(xù)積極地面向 PyTorch 社區(qū)推出增強(qiáng)功能,并專注于針對各種整數(shù)格式提供量化優(yōu)化,進(jìn)一步提高性能,賦能 Arm CPU 大規(guī)模無縫運(yùn)行新一代 AI 體驗(yàn)。
實(shí)現(xiàn)更多成果以賦能開發(fā)者
PyTorch 正在推動 ML 開發(fā)領(lǐng)域的開拓創(chuàng)新。近日,Arm 加入 PyTorch 基金會成為 Premier 成員,這對于 Arm 的 AI 之旅來說,無疑是一個重要時刻。Arm 將持續(xù)致力于賦能全球各地的開發(fā)者在 Arm 平臺上充分發(fā)揮端到端 AI 的潛力,進(jìn)而塑造前沿的 AI 和應(yīng)用功能。