衡宇 楊凈 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI
機器狗、機器人領域,又多了一個新玩家。
以AI知名的科技公司科大訊飛,2022全球1024開發(fā)者節(jié)上官宣最新技術成果和進展。
其中之一,就是“AI+四足機器人”項目,機器狗:小黑。
沒錯,科大訊飛也決定擁有一只機器狗,還是很新的那種:能沿著臺階進行上坡和下坡動作。(現(xiàn)在的大多數(shù)機器狗還在“模仿動作”的初級仿生階段,只具備基礎的平地行走功能。)
決定養(yǎng)“狗”的互聯(lián)網、AI公司越來越多了,現(xiàn)在認識一只機器狗,需要從廠牌開始分辨。
小黑的新,不僅在能力上,還在科大訊飛養(yǎng)它的方式上——別人造機器狗,更多是在做硬件,訓練它走路、陪伴。
科大訊飛造機器狗,更吸睛的故事,聚焦在訓練“超腦”上。
機器人超腦平臺
科大訊飛如何訓?怎么訓?現(xiàn)場小黑就來打了個樣。
別看外表平平無奇,但一上陣就懂了。
常規(guī)操作自然就不多說了,自主導航上下坡,各種復雜地形也能穿梭自如,比如草地沙石玻璃路。
還可立即上崗上位,深入多個場景一線,完成檢查亂堆亂放、車牌人臉識別、工廠故障巡檢(化工、電力、工業(yè))等任務。
通常而言,機器狗技術無非感知、控制決策兩個方面,小黑也同樣如此:
運動控制:AI+運動、自主導航、視頻分析、自適應步態(tài)等算法。據(jù)官方介紹,他們率先打通了從仿真訓練到真機部署的AI+運動智能的全鏈條開發(fā)。
感知:多模態(tài)多傳感器融合。麥克風、喇叭、攝像、氣體傳感器等多傳感器,通過混合式架構和中央決策平臺 、多傳感器底層核心算法,賦予機器狗識別聽聲辨味的感知能力。
這一切的一切,都是科大訊飛機器人超腦平臺AIBOT所賦予的。于是當機器狗有了“腦”,從已曝光的能力提升中就可見一斑。
比如,實時地形自適應能力、全局定位搜索能力、地圖構建能力以及AI運動控制能力。
不過這也并不是機器人超腦平臺AIBOT的全部用處。超腦平臺也并非只是為了馴狗,而是由點及面,既有實體機器人又有數(shù)字機器人,在多個場景和行業(yè)下的軟硬件一體解決方案。
目前,它已部署在了全新的訊飛開放平臺上。從這張架構圖中可以看到,現(xiàn)在訊飛開放平臺核心能力主要包括:能力云AIHUB、交互云AIUI+、模型云AILAB、資產平臺AIRES、超自動化AIRPA、機器人超腦平臺AIBOT。
小黑,正是訊飛機器人超腦平臺AIBOT其中一個案例。通過交互大腦、運動控制、硬件模組來快速構建機器人的運動能力。機械臂、人形機器人、仿生、特種等各種機器人都可以適配。主要有三大特點:高性能、高效率、高精度。
高效率:一次建圖覆蓋率90%;
高精度:5cm的定位和建模精度。
在現(xiàn)場,科大訊飛消費者BG總裁于繼棟還列舉了柔性機械臂的例子,在賦予機器人超腦平臺AIBOT之后,新增了AI+深度視覺、AI+運動控制等能力,從而能快速應用工業(yè)質檢、商業(yè)服務、遠程超聲、柔性生產等場景當中去。
能力云AIHUB自然不必多說,AI公司立身之本,再聯(lián)合生態(tài)AI能力,持續(xù)保證穩(wěn)定輸出,今年更是給出了全系列的離線版本。
在今年更新的513項開放能力中,以SMART-TTS ,多風格多功能語音合成最為典型。
以往語音合成主要用于語音助理和新聞播報這些場景,但這次在風格、場景以及情感上有了新拓展,共有10個場景可選、11種情感可調。
交互云AIUI+。不管是虛實哪一種機器人,在與人交互時都面臨著公共場景下的干擾問題。典型的難題場景包括同向人聲干擾,而本身以語音見長的科大訊飛,提出了遠近場多模語音增強技術,在同向人聲干擾環(huán)境下,識別準確率從60.2%到現(xiàn)在提升到了86%以上。
模型云AILAB ,具體場景具體定制。像格式多樣、數(shù)據(jù)稀缺還是價格敏感的情況,都能為其提供小樣本訓練平臺。5張圖片訓練出OCR定制模型,半小時音頻生成商用發(fā)音人、零成本搭建喚醒詞,了解一下~
而聚焦于數(shù)字世界的生態(tài)上。資產平臺AIRES,顧名思義就是與內容伙伴共建數(shù)字資產,比如虛擬人形象、數(shù)字藏品等。超自動化AIRPA則是在解決企業(yè)的數(shù)字化轉型,包括智能化員工助手、柔性人機協(xié)同、跨組織無邊界協(xié)作……
最終,這些能力都透過實體機器人、數(shù)字虛擬人兩種形式逐步深入到各個行業(yè)與家庭當中。
這也正是科大訊飛對AI新趨勢的理解。
當下隨著元宇宙興起,融合AI與5G,虛擬世界與現(xiàn)實世界實現(xiàn)了深層次融合,人機協(xié)同逐漸人機共生的階段。
機器人,就是其中關鍵的載體。
基于這樣的邏輯,機器人超腦平臺AIBOT,依托混合式架構、中央決策平臺、多傳感器融合,構建端側超腦,讓機器人產品在感知智能、認知智能和運動智能得到多維度的提升,也就成為了科大訊飛交出的第一份答卷。
確切的來說,是科大訊飛整個超腦2030計劃的第一步:
更快實現(xiàn)讓“懂知識、善學習、能進化”的機器人走進每個家庭。基于超腦2030計劃,以API、低代碼、軟硬件一體、解決方案等方式,面向實體機器人和數(shù)字機器人建設N種場景化機器人,賦能工業(yè)、農業(yè)、服務業(yè)、特種行業(yè),連接產業(yè)生態(tài),共建行業(yè)場景。
“超腦2030計劃 ”第一步,跨出多大步子?
早在今年1月,這個計劃就已經啟動,核心是利用AI解決未來社會的剛需問題,如教育、人口老齡化等。
其第一階段目標,就是在2023年前,推出可養(yǎng)成的機器寵物、仿生運動機器狗等軟硬件一體的機器人,同期推出專業(yè)數(shù)字虛擬人家族,擔當老師、醫(yī)生等角色。
該計劃的最終目標,是推出懂知識、會學習的陪伴機器人和自主學習虛擬人家族,全面進入家庭。
而現(xiàn)在,AI技術推動四足機器狗小黑從異寵向工具狗邁了一步。
值得注意的是,機器人超腦平臺的背后支撐,不僅讓更多企業(yè)在工業(yè)級運用中可以無糧養(yǎng)狗,更多的室內和戶外場景中,實體機器人都在拓展人的能力邊界。
高精度的細活、繁重枯燥的累活、危險易受傷的險活……
機器人、機械臂,上!
人機協(xié)同之外,在人機交互階段,AI已經在發(fā)揮日益重要的作用。
科大訊飛在背后提供技術與生態(tài)來支撐,率先證明了這一點。
實現(xiàn)超腦2030計劃需要哪些關鍵技術突破?科大訊飛AI研究院副院長高建清公開了相關信息。
第一,需要以深度學習(Deep Learning)為代表的AI基礎算法的突破。
在諸多AI基礎算法中,無監(jiān)督學習和知識推理是兩個亟待突破的關鍵算法。
1024開發(fā)者節(jié)當天,科大訊飛發(fā)布了兩個輕量級預訓練模型:語音及多模態(tài)預訓練模型。這兩個模型的參數(shù)量遠小于業(yè)界公開的模型,但效果卻達到了業(yè)界最優(yōu),推廣性也很好。
整個2022年,科大訊飛有三項知識推理任務取得不錯的成績,尤其在面向特定領域的知識推理方面,機器水平已經在今年7月首次超過人類水平。
此外,知識推理的另一個重要研究方向,也就是如何實現(xiàn)推理過程的可解釋性,科大訊飛將傳統(tǒng)符號推理系統(tǒng)與深度強化學習相結合,得出一套在類人答題領域正確率顯著優(yōu)于傳統(tǒng)推理系統(tǒng)的框架。
第二,是引領人機交互發(fā)展方向的多模態(tài)感知技術、多維表達技術、認知智能技術。
拿多模態(tài)感知技術舉個具體例子來說,通常,語音識別的高準確率,不代表識別出的文字合理、流暢。
科大訊飛基于多元語義評價的語音識別一體化框架,使用語義糾錯任務與語音識別聯(lián)合優(yōu)化,讓語音識別保持高準確率的同時,提高識別后文字的可讀性。
第三,需要研究軟硬一體的機器人關鍵技術,加大AI算法與運動控制的結合,讓機器人具備精細的運動控制能力。
具體的技術展示,已經體現(xiàn)在小黑爬坡上坎的功夫中了。
除此之外,科大訊飛還整合工程能力,形成虛擬人交互平臺、機器人超腦平臺,探索數(shù)字虛擬人、機器人等方面的應用。
現(xiàn)場,高建清展示了科大訊飛打造的一個裸眼3D場景下的高沉浸式人機交互。
而關于生態(tài)支撐這一點,在今年的開發(fā)者節(jié)上,科大訊飛董事長劉慶峰拿數(shù)據(jù)說話。
首先,是訊飛開放平臺在過去一年的發(fā)展情況——訊飛開放平臺開放的AI產品及能力,從去年441項增長至今年513項;生態(tài)伙伴數(shù)從400萬快速增長到超500萬,年增長率超30%;AI服務調用年增長率達到36%;輸入法語音調用量同比增長45%,Z世代群體平均語音輸入次數(shù)達到61次,是整體語音用戶的2倍。
接下來,看看劉慶峰披露出的過去一年內,訊飛生態(tài)的其它數(shù)據(jù)。
其一,是虛擬人交互平臺資產增加。一方面,科大訊飛基于AI虛擬人交互平臺,開放平臺合作伙伴生態(tài)。發(fā)布一年后,虛擬人設計隊伍共468支,建設了700項虛擬人資產。
其次,剛剛結束的雙11“混戰(zhàn)”,帶來了最新消費者數(shù)據(jù):科大訊飛銷售額同比增長32%。
最受追捧的當屬本就是“老奪冠人”的AI辦公產品,智能辦公本、智能錄音筆和翻譯機產品,拿下京東和天貓所在品類銷售額冠軍。
一些辦公硬件,比如辦公本、會議耳機、翻譯機,年增長率均近或超100%。綜合多個數(shù)據(jù),不難看出AI生態(tài)已經滲入各行各業(yè),為生活和工業(yè)場景所熟用。
給出這一份綜合答卷,劉慶峰表示,隨著發(fā)展深入,AI在感知能力、理解能力、表達能力、運動能力方方面面,都需要承擔更大的任務。
一個屬于未來的時代正在快速開啟。
當數(shù)字經濟更深層次賦能實體經濟時,人工智能承擔了更大的任務。
這需要一個更強大的“頭號玩家”。
科大訊飛如何理解人機協(xié)同
2020年,科大訊飛發(fā)布了AI科技樹,強調“以基礎算法為主干,以技術體系為生長方向,以場景理解為發(fā)展動力”。
2022年,在超腦2030計劃的牽引下,科大訊飛的AI科技樹不斷壯大。既有以基礎算法為代表的主干發(fā)展,也有各技術體系的不斷外拓延伸。
作為AI技術落地的一種表現(xiàn)形式,人機協(xié)同已然崛起。人機協(xié)同的目的是改善工作流程,途徑是讓人和機器進行工作和經驗的交流。
機器可以根據(jù)人類提供的信息,按步驟和流程執(zhí)行作業(yè);人類再在機器產出的成果上,錦上添花。二者各做彼此的擅長事,實現(xiàn)人類和機器的價值最大化。
而整場大會聽下來,從整合多項技術的機器人超腦平臺窺見一隅,不難梳理出科大訊飛對人機協(xié)同的理解。
共分三個維度:
在物理世界,實體機器人拓展人的能力邊界。具體而言,輪足機器人應用于餐飲服務、物資運輸?shù)葓鼍?;弈棋機器人可以滿足圍棋教學、訓練和娛樂領域的多種需求。
在數(shù)字世界,數(shù)字工作助手助力工作提效;據(jù)悉,2022年,訊飛AI虛擬人已在醫(yī)療、金融、媒體、文旅等多個行業(yè)上崗,亮相兩會、北京冬奧會、世界人工智能大會等多個場合。
在元宇宙,虛擬人成為人的交互載體。
通過這三個維度,技術將和個人與企業(yè)深度聯(lián)結,多模感知、深度理解、多維表達都將個性化展開。
在這個過程中,科大訊飛帶給生活的技術支撐和生態(tài)積累,是看得見、摸得著、用得上的。
“人機關系,已經在從單點技術的淺層人機協(xié)同,向更深層次、更為復雜的人機發(fā)展。”劉慶峰如是說。
而且這種人機關系,即將進入可見、可感、可觸碰的人機關系。這也是另一個維度上,AI和智能,正在如何影響和參與實體經濟。