加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

OpenAI 聯(lián)合 SWE 發(fā)布 AI 軟件工程能力測(cè)試集,Gru.ai 榮登榜首

09/10 10:46
1513
閱讀需 3 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論
在 9 月 3 日,Gru.ai 在 SWE-Bench-Verified 評(píng)估最新發(fā)布的數(shù)據(jù)中以 45.2% 的高分排名第一。SWE-Bench-Verified 是 OpenAI 聯(lián)合 SWE 發(fā)布測(cè)試集,旨在更可靠的評(píng)估 AI 解決實(shí)際軟件問題的能力。該測(cè)試集經(jīng)由人工驗(yàn)證打標(biāo),被認(rèn)為是評(píng)估 AI 軟件工程能力的最權(quán)威標(biāo)準(zhǔn)。
本次參評(píng)登頂?shù)?Coding Agent 是來自 Gru.ai 的 Bug Fix Gru。根據(jù) Gru 團(tuán)隊(duì)的博客,他們提供給 Bug Fix Gru 完整的運(yùn)行環(huán)境及豐富的開發(fā)工具,這是獲取高分的基礎(chǔ),而工作流程,多模態(tài)支持,Rag 能力的添加都有效提高了得分。值得關(guān)注的是,Gru 團(tuán)隊(duì)著重提到了他們有一個(gè)評(píng)估流程來評(píng)估任何改動(dòng)帶來的影響。
Gru.ai 是一家提供軟件工程 Agent(智能體)的公司,提供四種 Agent:
  • Assistant Gru:幫助用戶解決獨(dú)立的技術(shù)問題,該產(chǎn)品可直接在網(wǎng)站注冊(cè)使用。
  • Test Gru:基于用戶代碼補(bǔ)全單測(cè)的 Agent,目前該產(chǎn)品僅面相企業(yè)開放。
  • Bug Fix Gru:基于 Github Issue,直接提交 Patch,目前該產(chǎn)品僅面向企業(yè)開放。
  • Babel Gru:基于技術(shù)文檔生成軟件,目前該產(chǎn)品仍處于實(shí)驗(yàn)室階段。
Gru 在今年一月披露了一筆 550 萬(wàn)美金的融資,投資方為云九資本和峰瑞資本。在 2023 年到 2024 年兩年間,國(guó)際上大量的資金涌入代碼 Agent 領(lǐng)域,如 Devin、Cosine.sh、Factory、Codium.ai 等,但國(guó)內(nèi)針對(duì)軟件工程領(lǐng)域 AI 的投資仍然較少。Gru 團(tuán)隊(duì)擁有豐富的軟件工程和 AI 實(shí)踐經(jīng)驗(yàn),CEO 張海龍?jiān)?a class="article-link" target="_blank" href="/tag/%E5%BC%80%E6%BA%90/">開源中國(guó)及 Coding.net 創(chuàng)始人。
隨著資金和大公司的視線逐步從大模型轉(zhuǎn)向上層應(yīng)用,AI 行業(yè)的主要進(jìn)步方向已經(jīng)開始轉(zhuǎn)向處理復(fù)雜精密的任務(wù),而非簡(jiǎn)單的生成文本內(nèi)容。而 Gru.ai 的成功登頂,標(biāo)志著國(guó)人團(tuán)隊(duì)在 Agent 領(lǐng)域的工程技術(shù)能力處于第一梯隊(duì)。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜