作者?|??三北,編輯?|??漠影
聚焦行業(yè)大模型,企業(yè)共創(chuàng)抵達(dá)“最后一公里”。
智東西4月2日?qǐng)?bào)道,當(dāng)前,大模型技術(shù)正在加速滲透到行業(yè)數(shù)字化進(jìn)程中,賦能新的應(yīng)用場(chǎng)景,為各行各業(yè)創(chuàng)造價(jià)值。
近期,在北京市召開的人工智能企業(yè)代表座談會(huì)上,曠視科技聯(lián)合創(chuàng)始人、CEO印奇表示,曠視將基于對(duì)行業(yè)的深入理解,推動(dòng)多模態(tài)大模型的技術(shù)創(chuàng)新和行業(yè)應(yīng)用。同時(shí),曠視將發(fā)揮在軟硬結(jié)合方面的優(yōu)勢(shì),圍繞“大模型+機(jī)器人”的發(fā)展方向,推動(dòng)人工智能為實(shí)體產(chǎn)業(yè)創(chuàng)造更大價(jià)值。
曠視布局大模型的實(shí)際進(jìn)展如何?公司高層對(duì)大模型研發(fā)和產(chǎn)業(yè)落地有什么樣的見解?
智東西獲悉,多模態(tài)、行業(yè)大模型和具身智能,是曠視圍繞大模型進(jìn)行布局的一個(gè)主邏輯。
當(dāng)下正值新的AI視覺浪潮興起,從去年爆火的ChatGPT到今年的Sora,從機(jī)器人Figure01的誕生到呼之欲出的GPT-5,產(chǎn)業(yè)的關(guān)注重心正從文本轉(zhuǎn)向視覺,從單模態(tài)轉(zhuǎn)向多模態(tài)。作為深耕深度學(xué)習(xí)技術(shù)超十年的曠視科技,也正從一家AI視覺公司,進(jìn)化成一家多模態(tài)大模型公司。
在業(yè)內(nèi)不少人士看來,當(dāng)下AI發(fā)展脈絡(luò)可分為AI 1.0及AI 2.0,但印奇認(rèn)為,AI的演進(jìn)是一個(gè)連續(xù)的過程。從CNN、ResNet到Transformer,在上面的視覺、語音、NLP,都在從獨(dú)立發(fā)展走向融合,從量變走向質(zhì)變。
按照印奇的規(guī)劃,曠視將面向AGI(通用人工智能)目標(biāo),基于其在視覺模型及軟硬結(jié)合方面的優(yōu)勢(shì),聚焦多模態(tài)大模型領(lǐng)域,逐步實(shí)現(xiàn)具身智能的價(jià)值主張;同時(shí)基于行業(yè)大模型,堅(jiān)定走通2B(面向企業(yè)的)商業(yè)變現(xiàn)路徑。
01.AI視覺擁抱“大一統(tǒng)”曠視駛向多模態(tài)
盡管視頻生成模型Sora風(fēng)靡全球,但AI視頻領(lǐng)域的頭部國(guó)產(chǎn)玩家曠視志不在此。OpenAI做的Sora是它們走向AGI的一個(gè)很重要的技術(shù)節(jié)點(diǎn),隨之產(chǎn)生了文生視頻潛在應(yīng)用,但更多是為了推動(dòng)GPT-5。因此,重點(diǎn)是要理解其底層的技術(shù)框架,而不是Sora應(yīng)用本身。同時(shí),在圖像視頻的領(lǐng)域,要將“生成”和“理解”分開來看。
如果將Sora作為獨(dú)立應(yīng)用來看的話,它聚焦視覺生成領(lǐng)域,核心應(yīng)用場(chǎng)景更偏C端;曠視聚焦視覺感知和理解側(cè),其多模態(tài)大模型是一個(gè)對(duì)圖片、視頻、文字等各種模態(tài)綜合識(shí)別理解和做邏輯推理的引擎。因此,曠視不會(huì)去做Sora,不會(huì)涉足太多生成式AI領(lǐng)域,而是專注于理解能力上,面向2B業(yè)務(wù)打造行業(yè)應(yīng)用?;谶@樣的考慮,曠視對(duì)自己的定位是打造數(shù)十億至數(shù)百億參數(shù)之間的多模態(tài)大模型。
曠視在視覺模型領(lǐng)域的多年積累,是其打造多模態(tài)大模型的基礎(chǔ)。同時(shí),數(shù)十億至數(shù)百億參數(shù)規(guī)模屬于中大型模型,已具備較好的通用屬性,且在行業(yè)部署成本、硬件適配度等方面是一個(gè)較好的區(qū)間。當(dāng)前,視覺模型領(lǐng)域呈現(xiàn)出“大”和“統(tǒng)一”的趨勢(shì)?!按蟆币馕吨?a class="article-link" target="_blank" href="/tag/%E5%A4%A7%E6%95%B0%E6%8D%AE/">大數(shù)據(jù)、大算力和大參數(shù)量,“統(tǒng)一”體現(xiàn)在NLP、視覺、語音等模態(tài)的融合,以及感知、理解和生成能力的融合。
印奇表示,曠視做多模態(tài)大模型,本質(zhì)上在視覺走向大一統(tǒng)路徑的背景下,補(bǔ)全了語言模型方面的能力,并把它們結(jié)合在一起,以符合現(xiàn)在這種多模態(tài)大模型新的技術(shù)趨勢(shì)。本質(zhì)上,曠視正在從一家AI視覺公司,進(jìn)化成一家多模態(tài)大模型公司。
從視覺大模型,到生物識(shí)別、計(jì)算攝影、自動(dòng)駕駛等垂類算法,是曠視近十年來長(zhǎng)期投入研發(fā)的領(lǐng)域。曠視本身在關(guān)于視覺的技術(shù)、數(shù)據(jù)和底層框架上都擁有很深的積累,并在此基礎(chǔ)上補(bǔ)齊了在語言方面的能力,布局多模態(tài)大模型,是順理成章的。
從資源投入角度來看,曠視研究院目前聚焦兩大方向:一是堅(jiān)定投入多模態(tài)大模型的研發(fā),二是做機(jī)器人和大模型的結(jié)合。曠視已從傳統(tǒng)意義上基于AI視覺的垂類算法研發(fā),進(jìn)化到了與大模型深度結(jié)合的研發(fā)賽道。
縱觀當(dāng)下多模態(tài)大模產(chǎn)業(yè),市面上主要有三類玩家,分別是從文本、從視頻或是直接從多模態(tài),切入多模態(tài)大模型領(lǐng)域做技術(shù)研發(fā)和落地。業(yè)內(nèi)人士告訴智東西,圖像是一個(gè)比文本更難的問題,因此曠視從視覺模型切入多模態(tài),或許要比市面上的文本模型玩家切入多模態(tài)更容易。
02.聚焦行業(yè)大模型企業(yè)共創(chuàng)抵達(dá)“最后一公里”
當(dāng)下我國(guó)大模型發(fā)展如火如荼,已居于全球大模型發(fā)展前列。但同時(shí),大模型產(chǎn)業(yè)仍面臨數(shù)據(jù)、人才、安全等方面挑戰(zhàn),與全球最先進(jìn)水平存在較大差距。在這種背景下,發(fā)展行業(yè)大模型成為一條可能的捷徑。曠視科技是這一觀點(diǎn)的支持者?;A(chǔ)大模型與行業(yè)結(jié)合,是要讓大模型在高價(jià)值的行業(yè)里不斷迭代和進(jìn)化。
一方面,大模型已經(jīng)能夠解決不少的需求碎片化問題。據(jù)悉,曠視目前大量行業(yè)客戶的需求都可以用大模型解決,包括知識(shí)庫、文案總結(jié)、圖像視頻事件分析等多個(gè)方面。比如,有客戶提出通過大量視頻監(jiān)測(cè)火情等情況,支持用自然語言描述進(jìn)行系統(tǒng)交互;有客戶提出建立支持文檔、法條、行業(yè)經(jīng)驗(yàn)等搜索的知識(shí)庫,這些場(chǎng)景都可以通過大模型技術(shù)來實(shí)現(xiàn)降本增效。
另一方面,要讓大模型真正攻破“最后一公里”并不容易,還需要在行業(yè)大模型上下功夫。為此,曠視基于自研可控的基礎(chǔ)大模型,疊加行業(yè)里面的數(shù)據(jù)閉環(huán),去打造行業(yè)垂直模型。如何讓大模型攻破行業(yè)落地的“最后一公里”?按照印奇的觀點(diǎn),
第一步,是要把基礎(chǔ)模型疊加行業(yè)知識(shí),讓它變成金融模型、運(yùn)營(yíng)商模型等。因?yàn)榛A(chǔ)大模型基本上無法覆蓋這些行業(yè)本身的語料和數(shù)據(jù);
第二步,行業(yè)大模型需要與行業(yè)中的場(chǎng)景和終端聯(lián)動(dòng),這就意味著在云端大模型以外,還需要配套一個(gè)能在端側(cè)實(shí)現(xiàn)部署的附屬模型。
曠視主張通過行業(yè)共創(chuàng)發(fā)展行業(yè)大模型。在行業(yè)大模型落地的過程中,大模型企業(yè)需要與行業(yè)從業(yè)者坐在一起,通過梳理需求并評(píng)估技術(shù)可行性,確保業(yè)務(wù)價(jià)值大于技術(shù)實(shí)施成本。
基于多年在AIoT(智能物聯(lián))行業(yè)的積累,曠視從深度行業(yè)理解、商業(yè)化積累和軟硬結(jié)合技術(shù)三大方面建立布局行業(yè)大模型的護(hù)城河。
1、深度理解行業(yè)。做行業(yè)模型,需要以行業(yè)真正深度的行業(yè)應(yīng)用和場(chǎng)景理解為驅(qū)動(dòng),才能不光是做一個(gè)簡(jiǎn)單的技術(shù)中臺(tái),或者是一個(gè)PaaS層,更重要的是要做到行業(yè)有價(jià)值的行業(yè)應(yīng)用層和SaaS層。
2、商業(yè)客戶及經(jīng)驗(yàn)積累。大模型的行業(yè)落地強(qiáng)調(diào)產(chǎn)品和商業(yè)化“一體兩面”,只有擁有非常好的行業(yè)、客戶和商業(yè)化能力資源積累,才能持續(xù)在行業(yè)里做迭代。
3、軟硬結(jié)合技術(shù)積累。大模型與行業(yè)的結(jié)合往往需要大模型的云側(cè)和端側(cè)的聯(lián)動(dòng),也就是軟硬結(jié)合。曠視多年來積累的“云+端”技術(shù)能力,也會(huì)幫助行業(yè)大模型的產(chǎn)業(yè)化落地。
總的來說,要真正將行業(yè)大模型的商業(yè)模式打磨出來,一定不是簡(jiǎn)單拿開源模型改一改就行了,還要有端到端的大模型能力,打造能基于行業(yè)需求靈活調(diào)節(jié)的大模型。同時(shí),行業(yè)大模型的本質(zhì)上還是要以客戶為中心,只有真的在行業(yè)浸泡很長(zhǎng)時(shí)間,找到行業(yè)痛點(diǎn),且能讓需求方和供應(yīng)方同時(shí)獲得收益,才能讓行業(yè)大模型成功抵達(dá)“最后一公里”。
03.軟硬結(jié)合布局“大模型+機(jī)器人”
如果說行業(yè)大模型是曠視的現(xiàn)在,那么“大模型+機(jī)器人”就是曠視的未來。
在過去十年里,曠視已將AI落地到了智慧城市、智能制造、智慧物流、消費(fèi)電子等多個(gè)行業(yè),這些都可能是未來機(jī)器人的核心應(yīng)用場(chǎng)景。在這個(gè)領(lǐng)域布局行業(yè)大模型將為曠視提供自我造血能力,從而支持其進(jìn)一步探索“大模型+機(jī)器人”的研發(fā)與落地。印奇表示,曠視的發(fā)展歷史清晰地表明,最初其專注于傳感器和其運(yùn)動(dòng)部件,這些可以看作是機(jī)器人的“眼睛”。隨后,曠視在物流領(lǐng)域開發(fā)了類似機(jī)器人“腿”的自動(dòng)化系統(tǒng)。
目前,曠視正在預(yù)研機(jī)器人的“手臂”,包括工業(yè)機(jī)械臂和靈巧手。未來,曠視期望將眼、手、腳三者結(jié)合,打造泛機(jī)器人產(chǎn)品。當(dāng)前,曠視科技的重點(diǎn)有兩個(gè):一是物流領(lǐng)域的機(jī)器人,它們?cè)诎徇\(yùn)和腿部功能上表現(xiàn)出色;二是輔助和自動(dòng)駕駛領(lǐng)域,曠視將提供核心的感知-決策-控制系統(tǒng)部件。
按照曠視的規(guī)劃,其“大模型+機(jī)器人”戰(zhàn)略是將愿景與能力結(jié)合,追求AGI(通用人工智能)和機(jī)器人技術(shù),以實(shí)現(xiàn)與人類生活的深度互動(dòng)和世界本質(zhì)的美好變化。
在商業(yè)模式上,AI與新硬件結(jié)合帶來巨大商業(yè)機(jī)會(huì),類比從PC到手機(jī)的變革,機(jī)器人行業(yè)潛力巨大。技術(shù)發(fā)展需長(zhǎng)期積累和成本控制,實(shí)現(xiàn)規(guī)模化推廣。曠視致力于軟硬結(jié)合和商業(yè)化,通過短期盈利閉環(huán)逐步擴(kuò)大商業(yè)規(guī)模,目標(biāo)成為AI機(jī)器人領(lǐng)域的全球領(lǐng)先企業(yè)。
04.結(jié)語:視覺走向大一統(tǒng)曠視推動(dòng)多模態(tài)落地行業(yè)
當(dāng)下,隨著AI成為發(fā)展新質(zhì)生產(chǎn)力的重要引擎,AI視覺技術(shù)也正走向新的大一統(tǒng)。透過曠視科技在大模型領(lǐng)域的布局,我們看到視覺大模型正與文本模型加快融合,從而進(jìn)入多模態(tài)大模型新階段。布局行業(yè)大模型是當(dāng)下我國(guó)“AI+”發(fā)展的有效路徑之一。
在過去的十幾年的時(shí)間里,曠視從技術(shù)長(zhǎng)期堅(jiān)持、迭代演進(jìn)到商業(yè)模式不斷探索,其技術(shù)積累及經(jīng)驗(yàn)教訓(xùn)都有望促進(jìn)其在行業(yè)大模型落地中,與企業(yè)共創(chuàng)攻破“最后一公里”。