加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • LiveBench榜單公布,階躍星辰位居國內(nèi)首位
    • 自主研發(fā)萬億參數(shù)MoE大型語言模型
    • 半年時(shí)間Step系列通用大模型完成疊代
    • [含著金湯匙]出生的AI公司
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

產(chǎn)業(yè)丨LiveBench榜單比拼,階躍星辰成為國內(nèi)大模型第一

12/07 10:55
1114
閱讀需 15 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者 | 方文三

目前生成式AI產(chǎn)業(yè)尚處于發(fā)展的初期階段。

中國工程院院士、北京大學(xué)博雅講席教授高文指出,如果將人工智能的發(fā)展與人類成長相類比,那么通用人工智能目前可能僅處于蹣跚學(xué)步的幼兒階段。但從應(yīng)用的角度來看,人工智能已經(jīng)能夠解決生產(chǎn)、社會(huì)及服務(wù)領(lǐng)域的問題,因此可以先行投入使用,無需等待其達(dá)到完美狀態(tài)。

LiveBench榜單公布,階躍星辰位居國內(nèi)首位

國際權(quán)威榜單LiveBench官網(wǎng)最新公布的排名顯示,階躍星辰自主研發(fā)的萬億參數(shù)語言大模型Step-2在榜單中位居國產(chǎn)基座大模型之首。

其成績與OpenAI的o1-mini-2024-09-12模型相近,且超越了GPT-4o-2024-08-06、gemini-1.5-pro-002等國際知名模型。

目前,僅OpenAI和Anthropic的模型成績位于階躍星辰之上。

在評(píng)測(cè)中,Step-2取得了86.57的平均分,而gemini-1.5-flash-002則獲得了84.55分,這兩個(gè)模型是唯二超過80分的。

緊隨其后的是meta-llama-3.1-70b-instruct-turbo,其得分為79.08分。

以推理能力著稱的o1-preview-2024-09-12也取得了77.72分。

在本次榜單中,階躍星辰是唯一躋身前十名的中國語言大模型,全球排名第五。

同時(shí)上榜的其他大模型公司包括通義千問和深度求索,但均未能進(jìn)入前十名,分別位于第十三和第二十三名。

在榜單所包含的多項(xiàng)評(píng)估標(biāo)準(zhǔn)中,Step-2在IF Average(指令跟隨)的評(píng)估上以86.57分的成績位居榜首,超越了所有國內(nèi)外的語言大模型。

LiveBench是由AI科學(xué)家楊立昆(Yann LeCun)聯(lián)合Abacus.AI、紐約大學(xué)等機(jī)構(gòu)共同推出的評(píng)估平臺(tái)。

該榜單專門為大型模型設(shè)計(jì),從數(shù)學(xué)、推理、編程、語言理解、指令遵循和數(shù)據(jù)分析等多個(gè)復(fù)雜維度對(duì)模型進(jìn)行評(píng)估,包含6個(gè)類別的17個(gè)不同任務(wù),每月更新新問題。

根據(jù)歷史榜單數(shù)據(jù),上榜者通常為國外科技巨頭,國內(nèi)大模型能夠進(jìn)入前十名的情況極為罕見,大多數(shù)甚至難以上榜。

截至2024年,每個(gè)月的排名中,僅有通義千問的開源大模型Qwen2-72B在6月14日發(fā)布的LiveBench評(píng)估中上榜,位列第八。

自主研發(fā)萬億參數(shù)MoE大型語言模型

今年三月,階躍星辰推出了Step-2語言大模型的預(yù)覽版,此舉標(biāo)志著國內(nèi)首個(gè)由創(chuàng)業(yè)公司推出的萬億參數(shù)模型的誕生。

Step-2在語義理解、指令遵循、內(nèi)容創(chuàng)作等多個(gè)方面表現(xiàn)出色。

目前,階躍星辰面向消費(fèi)者的智能助手[躍問]已經(jīng)集成了Step-2這一萬億參數(shù)語言大模型。

在六項(xiàng)類別任務(wù)中,step-2-16k-202411在指令遵循(IF Average)評(píng)分上位居榜首,超越了OpenAI的o1-preview-2024-09-12。

具體而言,Step-2展現(xiàn)了卓越的理解能力,能夠從上下文中推斷用戶需求,精確捕捉用戶在模糊指令中的真實(shí)意圖,提供更準(zhǔn)確、個(gè)性化的響應(yīng);

在知識(shí)覆蓋范圍和深度方面,Step-2不僅能夠處理常見領(lǐng)域的知識(shí),還能深入理解和回答特定領(lǐng)域或邊緣分布中的復(fù)雜問題;

在生成高質(zhì)量、富有創(chuàng)意的文字內(nèi)容的同時(shí),Step-2還具備出色的細(xì)節(jié)控制能力,能夠根據(jù)用戶的指令對(duì)文本進(jìn)行精確調(diào)整和優(yōu)化。

Step-2僅用四個(gè)月時(shí)間便與GPT-4并駕齊驅(qū),又經(jīng)過四個(gè)月,它在部分能力上實(shí)現(xiàn)了對(duì)Gemini-1.5和GPT-o1的超越,進(jìn)步之快令人矚目。

然而,這一成就并不令人意外,因?yàn)镾tep-2自誕生之初便因其特殊的MoE架構(gòu)而被視為極具成長潛力的基礎(chǔ)模型。

從零開始構(gòu)建和訓(xùn)練MoE模型

階躍星辰之所以能在首次參與LiveBench評(píng)測(cè)時(shí)取得如此卓越的成績,與其自主研發(fā)的Step-2大型語言模型的兩個(gè)關(guān)鍵特性。

與其擁有萬億級(jí)別的參數(shù)量和采用的Mixture of Experts(MoE)架構(gòu)密切相關(guān)。

在大規(guī)模語言模型(LLM)的發(fā)展歷程中,MoE架構(gòu)因其獨(dú)特優(yōu)勢(shì)而受到越來越多的關(guān)注。

該架構(gòu)通過選擇性地激活部分專家網(wǎng)絡(luò),不僅提升了模型性能,同時(shí)保持了較高的計(jì)算效率。

目前,MoE模型的訓(xùn)練主要有兩種策略:一種是基于現(xiàn)有模型的upcycle(向上復(fù)用)訓(xùn)練,另一種則是從零開始訓(xùn)練。

Upcycle訓(xùn)練利用現(xiàn)有模型進(jìn)行訓(xùn)練,其優(yōu)勢(shì)在于對(duì)計(jì)算資源的需求較低,訓(xùn)練效率高。

由于可以復(fù)用已有的模型參數(shù),訓(xùn)練過程更為迅速。這種方法適合在資源有限的情況下快速開發(fā)和驗(yàn)證模型。

然而,upcycle訓(xùn)練的缺點(diǎn)在于模型性能的上限較低。

基于現(xiàn)有模型的拷貝可能導(dǎo)致專家網(wǎng)絡(luò)同質(zhì)化,限制了模型的多樣性和最終性能。

相比之下,從零開始構(gòu)建和訓(xùn)練MoE模型雖然面臨更高的訓(xùn)練難度和更大的資源投入,但能夠帶來更高的模型性能上限。

這種方法允許開發(fā)者設(shè)計(jì)更為復(fù)雜和多樣化的專家網(wǎng)絡(luò),使得每個(gè)專家網(wǎng)絡(luò)都能學(xué)習(xí)到更加獨(dú)特和專門化的特征。

同時(shí),它也提供了更大的靈活性,開發(fā)者可以根據(jù)具體需求對(duì)模型架構(gòu)進(jìn)行精細(xì)的調(diào)整和優(yōu)化。

在研發(fā)階段,階躍星辰對(duì)算法架構(gòu)的創(chuàng)新成為Step-2制勝的關(guān)鍵。

在Step-2訓(xùn)練階段,階躍星辰的系統(tǒng)團(tuán)隊(duì)成功攻克了6D并行、極致顯存管理、完全自動(dòng)化運(yùn)維等關(guān)鍵技術(shù)難題。

在構(gòu)建Step-2 MoE架構(gòu)的過程中,階躍星辰并未沿用upcycle(向上復(fù)用)的策略,而是選擇從零開始進(jìn)行訓(xùn)練。

通過采用部分專家參數(shù)共享、異構(gòu)化專家設(shè)計(jì)等創(chuàng)新手段,對(duì)MoE架構(gòu)設(shè)計(jì)進(jìn)行了革新。

這也意味著Step-2每次訓(xùn)練或推理所激活的參數(shù)量都超過了市面上大部分Dense模型。

通常而言,更大參數(shù)的語言模型意味著更佳的交付效果,特別是在指令遵循、內(nèi)容創(chuàng)作和語義理解方面。

半年時(shí)間Step系列通用大模型完成疊代

2024年3月,階躍星辰推出了具有千億參數(shù)的多模態(tài)大模型的初始版本Step-1V。

到了7月的WAIC期間,階躍星辰連續(xù)發(fā)布了三款Step系列通用大模型新品。

相較于階躍星辰自主研發(fā)的千億參數(shù)級(jí)語言大模型Step-1,Step-2在綜合能力上提升了近50%,在編程、邏輯推理、數(shù)學(xué)以及知識(shí)等多個(gè)維度上均能更有效地解決問題。

除了正式推出的Step-2萬億參數(shù)語言大模型外,還包括了Step-1V的迭代版本Step-1.5V多模態(tài)理解大模型,以及Step-1X圖像生成大模型。

在短短半年內(nèi),階躍星辰從萬億參數(shù)的語言大模型出發(fā),迅速實(shí)現(xiàn)了語言模型與多模態(tài)模型的并行發(fā)展。

得益于Step-2萬億參數(shù)大模型的支持,Step-1.5V多模態(tài)模型在圖像感知和理解能力上得到了全面的提升,并具備了卓越的視頻理解能力。

它能夠精確地識(shí)別視頻中的物體、人物和環(huán)境,并理解視頻的整體氛圍與人物情緒。

除此之外,Step-1.5V擁有非??捎^的推理能力,能夠根據(jù)圖像內(nèi)容解答數(shù)學(xué)題、編寫代碼、創(chuàng)作詩歌等高級(jí)推理任務(wù)。

基于這款模型,階躍星辰還在C端智能助手[躍問]上線了智能視覺搜索功能[拍照問],用戶可以即拍即問,例如拍攝美食圖計(jì)算卡路里、拍攝場(chǎng)景學(xué)習(xí)英文單詞等。

Step-1X采用了全鏈路自研的DiT(Diffusion Models with transformer)模型架構(gòu),支持600M、2B、8B三種不同的參數(shù)量,能夠滿足不同場(chǎng)景的需求。

此外,Step-1X 具備強(qiáng)大的語義對(duì)齊和指令跟隨能力,并針對(duì)中國元素和文化進(jìn)行了深度優(yōu)化,更具有中國風(fēng)格。

除了在基座模型層面布局全面、快速迭代之外,階躍星辰在產(chǎn)品化上也迅速推進(jìn):智能助手[躍問]和AI開放世界平臺(tái)[冒泡鴨],是階躍星辰面向C端用戶推出的兩款產(chǎn)品。

[含著金湯匙]出生的AI公司

據(jù)信息顯示,階躍星辰成立于2023年4月,至今僅一年多的時(shí)間,是一家相對(duì)低調(diào)的初創(chuàng)公司。

然而,其創(chuàng)始人姜大昕是一位在行業(yè)內(nèi)具有重要地位的人物,曾擔(dān)任微軟全球副總裁,在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語言處理和生物信息學(xué)等領(lǐng)域擁有超過十年的研究和工程經(jīng)驗(yàn)。

特別是在數(shù)據(jù)挖掘和行業(yè)自然語言處理方面有深入的研究,發(fā)表了近200篇相關(guān)論文。

階躍星辰可以說是[含著金湯匙]出生的公司,不僅創(chuàng)始團(tuán)隊(duì)實(shí)力雄厚,還受到資本市場(chǎng)的熱烈追捧。

早在成立初期,階躍星辰就獲得了多家風(fēng)險(xiǎn)投資公司的青睞,其中包括啟明創(chuàng)投、五源資本等一線風(fēng)投,均參與了該公司早前幾輪融資。

今年上半年,有消息稱階躍星辰正在進(jìn)行一輪估值20億美元的新融資,阿里巴巴也在投資者名單之列。

如果此輪融資成功,階躍星辰將直接晉升為頭部AI獨(dú)角獸企業(yè)。

階躍星辰開放平臺(tái)逐漸構(gòu)建了一個(gè)大型模型的[生態(tài)伙伴圈]。

在金融財(cái)經(jīng)、內(nèi)容創(chuàng)作、消費(fèi)娛樂等多個(gè)領(lǐng)域,領(lǐng)先機(jī)構(gòu)紛紛與階躍星辰建立了技術(shù)合作關(guān)系。

例如,財(cái)聯(lián)社與階躍星辰共同研發(fā)了國內(nèi)首個(gè)千億參數(shù)的多模態(tài)金融大模型——[財(cái)躍F1金融大模型]。

大型模型的算法結(jié)構(gòu)極為復(fù)雜,對(duì)計(jì)算能力的需求極高,同時(shí)對(duì)數(shù)據(jù)量的要求也相當(dāng)龐大。

此外,大型語言模型與多模態(tài)大型模型在技術(shù)路徑上也展現(xiàn)出顯著的差異性。

鑒于這些挑戰(zhàn),眾多企業(yè)采取了集中資源、專精一域的策略,專注于發(fā)展大型語言模型或多模態(tài)模型中的某一個(gè)方向。

在國內(nèi)眾多模型制造商中,階躍星辰公司是少數(shù)幾個(gè)同時(shí)在大型語言模型和多模態(tài)模型兩個(gè)領(lǐng)域進(jìn)行深入布局、并行推進(jìn)的公司之一。

與業(yè)界其他公司通常每半年或每年推出一個(gè)新版本相比,階躍星辰的更新迭代速度顯然更為迅速。

階躍星辰的創(chuàng)始人兼首席執(zhí)行官姜大昕先生堅(jiān)信,要達(dá)到通用人工智能(AGI)的終極目標(biāo),必須遵循一條特定的發(fā)展路徑,即從單模態(tài)到多模態(tài),再到多模態(tài)理解和生成的統(tǒng)一,進(jìn)而構(gòu)建世界模型,最終實(shí)現(xiàn)AGI。

結(jié)尾:

根據(jù)國際數(shù)據(jù)公司(IDC)的最新研究報(bào)告顯示,預(yù)計(jì)至2028年,全球人工智能產(chǎn)業(yè)的支出將達(dá)到6320億美元,幾乎是目前水平的兩倍,其五年間的復(fù)合年增長率(CAGR)預(yù)計(jì)為29%。

在這一領(lǐng)域中,生成式人工智能被視為主要的增長動(dòng)力,預(yù)計(jì)到2028年,該領(lǐng)域的投資支出將高達(dá)2020億美元,占整個(gè)人工智能支出的32%,其CAGR高達(dá)59.2%。

部分資料參考:階躍星辰:《LiveBench 最新榜單:階躍星辰位列中國大模型第一》,雷鋒網(wǎng):《超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一》,智東西:《在[全球最難糊弄榜單]里,階躍星辰拿下國產(chǎn)第一》,新智元:《[全球最嚴(yán)榜單],階躍拿下中國TOP 1!殺入世界前五,超過GPT-4o緊跟o1-mini》,極客公園:《權(quán)威榜單登頂國內(nèi)第一,階躍星辰Step-2是如何煉成的》,AI科技評(píng)論:《超越 GPT-4o 和 Gemini-1.5,階躍星辰拿下中國大模型第一》,甲子光年:《登上[最不可能作弊]的榜單,階躍星辰Step-2位列中國大模型第一》

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

AI芯天下是智能芯片行業(yè)垂直自媒體。采用媒體+行業(yè)的模式,堅(jiān)持從芯出發(fā),用心服務(wù)的理念,致力于豐富的網(wǎng)絡(luò)基礎(chǔ)資源建設(shè)。官網(wǎng):http://www.world2078.com/ 公眾號(hào):World_2078

TA的熱門作品
產(chǎn)業(yè)丨玻璃基板越發(fā)強(qiáng)勢(shì),AI時(shí)代下或?qū)⒂兴鳛?>
				</a>
							</li>
						<li id= 深度丨谷歌發(fā)布自研量子芯片Willow,試圖解決量子計(jì)算的糾錯(cuò)問題
  • 產(chǎn)業(yè)丨關(guān)注關(guān)鍵零部件核心競(jìng)爭力,日本正拆解國產(chǎn)新能源
  • 產(chǎn)業(yè)丨LiveBench榜單比拼,階躍星辰成為國內(nèi)大模型第一
  • 產(chǎn)業(yè)丨吉利6.88億入局UAM,低空賽道冰火兩重天
  • 查看更多