加入星計劃,您可以享受以下權益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 01、Web Agent自動化解決方案
    • 02、北大Open Sora生成能力增強
  • 推薦器件
  • 相關推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

AI技術前瞻:下一個AI風口在何處?

06/24 12:00
1141
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

分享嘉賓|寧鯤鵬 元空AI技術聯(lián)合創(chuàng)始人

在過去一年里,AI話題熱度持續(xù)升溫,在大模型百家爭鳴的今天,涌現(xiàn)出分門別類的人工智能體,誰會是下一個風口?本文從“ Web Agent?自動化解決方案”和“北大Open Sora生成能力增強”為各位帶來AI技術前瞻。

 

01、Web Agent自動化解決方案

我們希望讓 AI 成為真正的生產(chǎn)力,利用 Agent 幫我們干活,幻想中最完美的畫面,就是流程中有 Master Agent,發(fā)起任意需求,他會去幫你生成一系列工作流。比如投后診斷、小紅書達人分析、電商精品分析,自動生成工作流,在云主機上進行實時執(zhí)行,幫助相應工作的完成,同時將結果、分析結論、數(shù)據(jù)報表,實時同步,讓使用者感受到自己真正擁有了 AI agent 團隊。落實到實際營銷場景中,我們完成了從品牌的用戶洞察、輿情監(jiān)控、內(nèi)容制作、達人營銷、賬號矩陣自動化運營、智能客服等一整套全鏈路AI產(chǎn)品場景矩陣。

從技術層面來看,具體會涉及到LAM,該概念最早在 Rabbit 中提到。通過描述任務,比如:分析精致貴婦的生活KOL,LAM具備兩個功能。1、自我規(guī)劃能力2、自我反省能力。針對任務,做相應的思考與規(guī)劃。去小紅書蒲公英上搜索相應的關鍵詞,找到相應博主,分析對應的帖子內(nèi)容與文案,最后產(chǎn)生report,以郵件的方式反饋。一步步的流程形成工作流,只要描述內(nèi)容,讓多模態(tài)大模型生成工作流,后面只需要安排他干活就行了,發(fā)布指令就能完成系列工作。

舉一個簡單版的學術上的例子,我想在學術網(wǎng)頁上查找學者的引用量,首先發(fā)起任務,“幫我查找 Hinton 的引用量是多少”。Agent會自動思考,模擬人的行為把學者名字輸入到搜索框里,完成相應的點擊操作。這個模式跟自動駕駛類似,人可以從中間介入,他會綜合思考兩個東西,人類給的提示與 Agent 自己的思考,得出結論。最終會形成對應的工作流沉淀下來,相當于已經(jīng)訓練好了一個員工,后續(xù)只需執(zhí)行,他就會按照操作幫你完成接下來的工作。具體包含兩個內(nèi)容1、通過 task 驅動,只需要描述task,它可以自動完成且形成工作流,下一次也可以接著用。2、用戶可隨時介入,覺得回答不準或不達意,可實時溝通調(diào)整,修改相應的工作流。技術細節(jié)方面,我們發(fā)現(xiàn) AI 能完全理解你的需求,也知道該如何執(zhí)行。難點在于對于常人來說是一個非常簡單的問題,直接把需求輸入到搜索框里面就可以了,但 AI 怎么轉換成對應的指令且準確地輸入,這是比較困難的。

第一,首先有一個大屏幕做全局掃描,可理解成分割,把網(wǎng)頁的 HTML 代碼對應的葉子節(jié)點拿出來,搜索框、logo、圖片都是葉子節(jié)點, html 是樹形結構,我們只需要最下面一批就足夠。第二,圖像分割之后我們可以知道所有的東西。第三,剩下事情就變成了召回和 ranking 的過程,任務跟什么相關,只需要進行排序,再去輸入指令就夠了。

02、北大Open Sora生成能力增強

目前非?;鸬捻椖恳曨l生成( open Sora )。Open AI很早發(fā)布了Sora,雖然沒有對外開放,但效果非常炸裂驚艷。我們團隊希望用開源的力量復現(xiàn)出Sora,成為視覺版LLaMA。因為算力有限,希望以開源的方式讓更多的算力進來,讓Sora能力越來越強,這是團隊的初衷。

具體的實現(xiàn)方式包含三個部分。1、壓縮和解壓過程。2、 Diffusion 。3、Condition 線路?,F(xiàn)在的 AI 技術,包括 GPT、視頻生成、文生圖。技術都是大道至簡的感覺,對技術方案上較為統(tǒng)一。拼的更多是數(shù)據(jù)上的沉淀,細節(jié)訓練、修改。

比較標準的方案具體有三部分,第一部分是視頻的壓縮和解壓,形象點來說在電腦上把所有視頻壓縮成zip 包,然后再進行解壓。中間部分可以理解成 zip 包,只不過由編碼方式來進編碼,VAE是經(jīng)典的模型,把原始視頻輸進去,能達到一分鐘 720P 的重建Demo,壓縮率目前可達到 256 倍,個人也認為,只要把信息壓縮得足夠多,生成效果會越好。這并不是用文本生成視頻,這是重構,意味著把原視頻輸進去,通過壓縮再解壓,是否能還原。

DiT 在圖文生圖領域很常見,包括 Midjourney 與其他的文生圖都是通過這種該方法,Diffusion也是做視頻生成的常用方案。它具體如上圖所示,框架內(nèi)訓練了一個壓縮器和解壓器,可以理解成就把視頻打包成zip,可將他看做向量,然后這個向量里面我們會給它不斷地加隨機噪聲,直到變成完全隨機噪聲,這是整體輸入的過程。Diffusion 可起到去噪的效果,能夠還原之前的視頻,同時把 Condition 加進去,按照這些條件進行生成,都是一樣的道理。Condition 包括草圖、深度、關鍵點,只按照規(guī)定的幾個關鍵點去做相應的生成,但文本還是目前主流方式。最后提出一個問題供大家思考討論:文生視頻這個事情離商業(yè)化比較遙遠,大家會不會愿意為一個“閑聊”的玩具買單?

以上就是本次分享,如需獲取專家完整版視頻實錄和課件可掃碼領取。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
FT232RQ-TRAY 1 FTDI Chip USB Bus Controller, CMOS, 5 X 5 MM, GREEN, QFN-32

ECAD模型

下載ECAD模型
$4.5 查看
STM32H743XIH6TR 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

ECAD模型

下載ECAD模型
暫無數(shù)據(jù) 查看
MCF52259CAG80 1 Freescale Semiconductor 32-BIT, FLASH, 80MHz, RISC MICROCONTROLLER, PQFP144, 20 X 20 MM, ROHS COMPLIANT, LQFP-144

ECAD模型

下載ECAD模型
$17.28 查看

相關推薦

電子產(chǎn)業(yè)圖譜

愛分析是一家專注數(shù)字化市場的研究咨詢機構,成立于中國數(shù)字化興起之時,致力于成為決策者最值得信任的數(shù)字化智囊。憑借對新興技術和應用的系統(tǒng)研究,對行業(yè)和場景的深刻洞見,愛分析為數(shù)字化大潮中的企業(yè)用戶、廠商和投資機構,提供專業(yè)、客觀、可靠的第三方研究與咨詢服務,助力決策者洞察數(shù)字化趨勢,擁抱數(shù)字化機會,引領中國企業(yè)數(shù)字化轉型升級。