?
臨近 2017 年末,國(guó)內(nèi)各大科技媒體開(kāi)始各種形式的年終盤(pán)點(diǎn),而大家都避不開(kāi)的關(guān)鍵詞非 AI 莫屬。經(jīng)歷了前幾年 VR、無(wú)人機(jī)等技術(shù)從熱炒概念到落地的不溫不火后,電子產(chǎn)業(yè)似乎終于找到了一個(gè)興奮點(diǎn),而且這個(gè)興奮點(diǎn)有著太多應(yīng)用場(chǎng)景的可能性?;叵脒@幾年 AI 概念爆發(fā)的起點(diǎn),這樣一款終端產(chǎn)品不容忽視 -- 智能音箱,隨著眾多科技大佬包括亞馬遜,谷歌、BAT、京東、小米、聯(lián)想等的加入,正是這款消費(fèi)產(chǎn)品讓 AI 概念在實(shí)際應(yīng)用場(chǎng)景中找到了首個(gè)落地點(diǎn)。雖然據(jù) GFK 在 11 月份發(fā)布的數(shù)據(jù),這一年里智能音箱在國(guó)內(nèi)市場(chǎng)的實(shí)際銷(xiāo)量可能只有 35 萬(wàn)臺(tái),遠(yuǎn)未達(dá)到預(yù)期,但這不妨礙智能音箱背后的語(yǔ)音交互這種 AI 技術(shù)的燃點(diǎn)被觸發(fā),可以預(yù)見(jiàn),未來(lái)幾年語(yǔ)音交互將在越來(lái)越多的終端產(chǎn)品和應(yīng)用場(chǎng)景中出現(xiàn)。
談到語(yǔ)音交互技術(shù),這里面涉及語(yǔ)音合成、語(yǔ)音識(shí)別、交互界面、麥克風(fēng)陣列和語(yǔ)義理解等多個(gè)技術(shù)分支,每一個(gè)分支還有很大的技術(shù)提升空間。
同時(shí)在語(yǔ)音交互技術(shù)領(lǐng)域,亞馬遜以及國(guó)內(nèi)的科大訊飛逐漸成為技術(shù)領(lǐng)導(dǎo)者,思必馳、聲智科技、海知科技等科技新貴還在不斷涌現(xiàn)。而隨著一些互聯(lián)網(wǎng)公司包括 BAT、京東、小米等也開(kāi)始部署和開(kāi)發(fā)自己的語(yǔ)音交互技術(shù),未來(lái)幾年內(nèi)這一領(lǐng)域的市場(chǎng)競(jìng)爭(zhēng)格局仍存在很大的變數(shù)。
語(yǔ)音交互還有哪些技術(shù)課題需要攻關(guān)?不同玩家在做大市場(chǎng)時(shí)都有怎樣的布局和玩法?未來(lái) BAT 等互聯(lián)網(wǎng)企業(yè)和現(xiàn)有技術(shù)提供商之間將是怎樣的一種關(guān)系?帶著這些問(wèn)題,與非網(wǎng)記者于近日采訪了思必馳公司 CMO 龍夢(mèng)竹女士。
思必馳公司 CMO 龍夢(mèng)竹
語(yǔ)音識(shí)別、語(yǔ)義理解還有哪些事情要做
上面提到語(yǔ)音交互技術(shù)涉及多個(gè)技術(shù)分支,大廠如亞馬遜和科大訊飛基本上全部都自己來(lái)開(kāi)發(fā),其他大多企業(yè)則依自己的優(yōu)勢(shì)在不同技術(shù)分支上下功夫。
單就思必馳而言,龍夢(mèng)竹介紹,其核心技術(shù)有 5 大方向,包括語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音識(shí)別++、智能對(duì)話和語(yǔ)義理解。該公司的優(yōu)勢(shì)在于針對(duì)垂直的行業(yè)市場(chǎng)包括車(chē)載、家居和機(jī)器人方向提供語(yǔ)音交互解決方案。針對(duì)不同的應(yīng)用場(chǎng)景,龍夢(mèng)竹表示,這其中語(yǔ)音交互的底層算法是通用的,都需要通過(guò)大數(shù)據(jù)算法對(duì)音頻進(jìn)行識(shí)別和處理,不同之處在于應(yīng)用場(chǎng)景不同,具體的工程化設(shè)計(jì)就不同,這里面聲場(chǎng)的遠(yuǎn)近,環(huán)境噪聲來(lái)源和干擾等都有所不同,而具體到語(yǔ)義理解,不同的應(yīng)用場(chǎng)景會(huì)有很大的不同,需要設(shè)備給出的回復(fù)也就不同,這其中最大的挑戰(zhàn)還是對(duì)話的過(guò)程和場(chǎng)景。
龍夢(mèng)竹提到,判斷語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確度和正確率,業(yè)內(nèi)通常有字識(shí)別率、詞識(shí)別率和句識(shí)別率幾個(gè)指標(biāo),其中字識(shí)別率是在一些比賽中會(huì)用到,通常大家考慮的是詞識(shí)別率,句識(shí)別率則是對(duì)語(yǔ)義理解而言。同時(shí)針對(duì)大家關(guān)注較多的“語(yǔ)音喚醒”,也有喚醒率和誤喚醒率這兩個(gè)特性,而她也坦言,實(shí)際上因?yàn)檎Z(yǔ)音交互技術(shù)的指標(biāo)相對(duì)復(fù)雜,受不同環(huán)境和外界因素的影響較大,很難有一個(gè)真正客觀的評(píng)判標(biāo)準(zhǔn)。
此前思必馳首席科學(xué)家俞凱在一次活動(dòng)中也提到,語(yǔ)音交互技術(shù)從對(duì)話的層面,需要區(qū)分的是問(wèn)答、閑聊還是多輪對(duì)話的形式,不同的對(duì)話模式,設(shè)備需要做出的反饋也不同,要通過(guò)不同的算法優(yōu)化來(lái)實(shí)現(xiàn),“問(wèn)答基本上是一問(wèn)一答,你說(shuō)一句它會(huì)給你一個(gè)答案,偶爾會(huì)帶有一點(diǎn)上下文,這并不是真正意義上多輪的東西;閑聊,比如微軟小冰,是你不停的說(shuō),它就不停的跟你聊天。閑聊的準(zhǔn)則就是以聊的時(shí)間來(lái)定義的,但不同于問(wèn)答,這里面是沒(méi)有什么目標(biāo)意義的,所以閑聊要考慮如何把一些比較有趣的東西融入進(jìn)去;最后一類(lèi)是任務(wù)型的多輪對(duì)話,這類(lèi)對(duì)話是要有比較扎實(shí)的數(shù)學(xué)基礎(chǔ)的,把對(duì)話看做是一個(gè)序列決策過(guò)程?!?/p>
針對(duì)不同的對(duì)話形式和應(yīng)用場(chǎng)景,包括思必馳在內(nèi)的語(yǔ)音技術(shù)公司還有很多工作要做。
?
DUI 是要做些什么
這幾年進(jìn)入語(yǔ)音交互包括語(yǔ)音識(shí)別和自然語(yǔ)言處理領(lǐng)域的企業(yè)眾多,除了思必馳和已上市的科大訊飛,還包括聲智科技、海知智能、普強(qiáng)信息、云知聲、智齒科技、三角獸等,就像 AI 的其他領(lǐng)域一樣,蜂擁而入的科技企業(yè)讓整個(gè)產(chǎn)業(yè)形成一定的泡沫,肯定要經(jīng)過(guò)一個(gè)優(yōu)勝劣汰的過(guò)程。
為了在競(jìng)爭(zhēng)中成為優(yōu)勝的那部分,資本、技術(shù)、生態(tài)、市場(chǎng)這幾大因素對(duì)每個(gè)玩家而言都至關(guān)重要。
近兩年語(yǔ)音技術(shù)公司的融資情況
就思必馳而言,今年其在產(chǎn)品、業(yè)務(wù)上一個(gè)大的調(diào)整是在 9 月份推出了一個(gè)開(kāi)放的 DUI 平臺(tái),全稱(chēng)為 Dialogue User Interface,基于 Dialogue 為核心,這里面思必馳專(zhuān)注于垂直場(chǎng)景,以任務(wù)式對(duì)話為核心,兼具閑聊與問(wèn)答功能,打造人性化交互。作為一個(gè)全鏈路智能對(duì)話開(kāi)放平臺(tái),DUI 提供的,不僅是基于思必馳智能語(yǔ)音語(yǔ)言技術(shù)的對(duì)話功能,更包括開(kāi)發(fā)者在定制對(duì)話系統(tǒng)時(shí)所需要的綜合服務(wù),如 GUI 定制、版本管理、私有云部署等,讓開(kāi)發(fā)者可以完全依據(jù)需求隨心所欲定制對(duì)話交互系統(tǒng)。
“DUI 平臺(tái)的受眾包括終端品牌商和技能開(kāi)發(fā)者。技能開(kāi)發(fā)者可以將自己的語(yǔ)音交互技術(shù)和產(chǎn)品放到 DUI 平臺(tái)的技能商店里,而品牌商可以利用 DUI 平臺(tái)提供的底層技術(shù)開(kāi)發(fā)自己的產(chǎn)品,或者在技能商店中選購(gòu)自己需要的功能模塊進(jìn)行快速集成?!饼垑?mèng)竹這樣介紹 DUI 平臺(tái)。她提到,以往思必馳提供的 2B 服務(wù)多是項(xiàng)目制的定制化開(kāi)發(fā),對(duì)人員投入要求高,投入產(chǎn)出比相對(duì)較低,這會(huì)讓他們只能把精力用于服務(wù)一些大客戶(hù)。2013 年對(duì)話工場(chǎng)推出后,思必馳嘗試做 SDK,讓客戶(hù)做二次開(kāi)發(fā),逐漸采用開(kāi)放的模式。到了 2015 年,思必馳做到將一些底層 SDK 做好,針對(duì)不同的應(yīng)用快速開(kāi)發(fā)集成?,F(xiàn)在有了 DUI 平臺(tái),思必馳將所有能開(kāi)放的技術(shù)都開(kāi)放出來(lái),做好不同模塊的基礎(chǔ)集成,并提供技能包。同時(shí)那些思必馳自己做不了的部分,讓其他語(yǔ)音技術(shù)公司以及開(kāi)發(fā)者一起參與進(jìn)來(lái),通過(guò)技能商店的方式搭建一個(gè)完整的產(chǎn)業(yè)鏈。用龍夢(mèng)竹的話說(shuō),這是一個(gè)“從提供種子,到種菜園提供半成品,最后到中央廚房直接提供成型的菜品”的過(guò)程。
按照思必馳的構(gòu)想,DUI 儼然是一個(gè)開(kāi)放的生態(tài),除了上面提到的技能開(kāi)發(fā)者,因?yàn)楦急伛Y的技術(shù)可以形成很好的互補(bǔ),包括聲智科技、海知智能等這些同樣是語(yǔ)音技術(shù)的提供商也可以把 DUI 作為一個(gè)渠道和平臺(tái)參與其中,為終端用戶(hù)提供一種一站式的選擇和服務(wù)。龍夢(mèng)竹介紹,未來(lái)其所有技術(shù)、產(chǎn)品將全部遷移到 DUI 平臺(tái)上,“9 月上線以來(lái),DUI 平臺(tái)上的開(kāi)發(fā)者有近 4000 人。目前公司負(fù)責(zé) DUI 平臺(tái)開(kāi)發(fā)的有 100 多人,作為公司未來(lái)的戰(zhàn)略方向,我們對(duì) DUI 的投入是長(zhǎng)期的,除了底層技術(shù),還需要不斷提高工程化的能力,包括跟別人的配合,為開(kāi)發(fā)者提供大數(shù)據(jù)監(jiān)測(cè)、可視化、里程碑管理等功能,這個(gè)平臺(tái)還在不斷升級(jí)、完善中,我們會(huì)根據(jù)不同項(xiàng)目的落地進(jìn)行動(dòng)態(tài)調(diào)整。”
談到當(dāng)前的難點(diǎn)和挑戰(zhàn),龍夢(mèng)竹坦言,目前還在市場(chǎng)教育期,要讓大家了解 DUI 平臺(tái)都能幫助他們做些什么,它有哪些功能,解決市場(chǎng)接受度的問(wèn)題。
具體到盈利模式,龍夢(mèng)竹表示將設(shè)置一個(gè)免費(fèi)門(mén)檻,用戶(hù)超過(guò)一定的調(diào)用頻次才開(kāi)始收費(fèi)。除此之外,思必馳也可以提供付費(fèi)的定制化開(kāi)發(fā)服務(wù)。
?
?
未來(lái)競(jìng)爭(zhēng)格局,與 BATJ 等互聯(lián)網(wǎng)公司的關(guān)系將往何處去
“語(yǔ)音識(shí)別基本已經(jīng)形成門(mén)檻,再進(jìn)入的可能性不大,很多做語(yǔ)音技術(shù)和設(shè)備的公司都采用思必馳的語(yǔ)音識(shí)別技術(shù)。這涉及到一個(gè)時(shí)間成本的問(wèn)題,我們前面已經(jīng)花了幾年時(shí)間做的比較成熟了,后來(lái)者如果再花上幾年時(shí)間來(lái)做這塊,起點(diǎn)已經(jīng)不同,對(duì)他們來(lái)說(shuō)也沒(méi)有什么意義。相對(duì)來(lái)說(shuō),新入者多集中在語(yǔ)義理解的后續(xù)處理環(huán)節(jié),前面語(yǔ)音識(shí)別將音頻轉(zhuǎn)換為文字,后續(xù)語(yǔ)義處理的信號(hào)鏈還比較長(zhǎng),這里還有些機(jī)會(huì)?!闭劶笆袌?chǎng)競(jìng)爭(zhēng)格局,龍夢(mèng)竹如是說(shuō)。
對(duì)目前 BATJ 和小米等互聯(lián)網(wǎng)公司也紛紛進(jìn)入語(yǔ)音技術(shù)領(lǐng)域,龍夢(mèng)竹表示,未來(lái)會(huì)有競(jìng)爭(zhēng),但也會(huì)有合作??紤]到互聯(lián)網(wǎng)公司的財(cái)大氣粗可以招攬到大批高端技術(shù)人才以及對(duì)數(shù)據(jù)資源的掌握,未來(lái)不可避免會(huì)對(duì)科大訊飛、思必馳這類(lèi)技術(shù)公司產(chǎn)生一定的沖擊,與非網(wǎng)記者從京東公司獲得的信息是,京東此前在語(yǔ)音技術(shù)方面一直和科大訊飛合作,包括國(guó)內(nèi)智能音箱銷(xiāo)量冠軍的叮咚就是京東和科大訊飛合作的產(chǎn)品,而今年開(kāi)始京東已經(jīng)開(kāi)始拋開(kāi)科大訊飛全面自研語(yǔ)音技術(shù)。
但也不可否認(rèn),未來(lái)智能硬件和語(yǔ)音交互的市場(chǎng)體量是巨大的,尤其是存在很多細(xì)分和垂直市場(chǎng),可容納的玩家更多。用龍夢(mèng)竹的話說(shuō),在這些領(lǐng)域,考驗(yàn)的是企業(yè)理解客戶(hù)需求、產(chǎn)品定義、操作系統(tǒng)匹配、技術(shù)支持以及工程化等方方面面的能力,不是幾家公司就能全部完成的,也不是每家互聯(lián)網(wǎng)企業(yè)都有這方面成功的基因。
對(duì)于思必馳而言,它的一個(gè)優(yōu)勢(shì)是還是一種創(chuàng)業(yè)的姿態(tài),能夠根據(jù)市場(chǎng)和技術(shù)趨勢(shì)及時(shí)調(diào)整自己的方向,做出靈活應(yīng)對(duì)。龍夢(mèng)竹介紹,目前思必馳在橫向和縱向上完成了幾個(gè)重要的戰(zhàn)略布局。橫向上,通過(guò) DUI 平臺(tái)的搭建,讓自己從過(guò)去的單打獨(dú)斗向擴(kuò)展生態(tài)、提供平臺(tái)化服務(wù)方向發(fā)展;縱向上,思必馳在 2016 年正式成立了馳星創(chuàng)投,得到了元禾資本、富士康、清華控股等 LP 的支持,現(xiàn)旗下?lián)碛?2 億元天使基金和 10 億元成長(zhǎng)基金,專(zhuān)注投資人工智能和智能交互產(chǎn)業(yè)的早期項(xiàng)目。目前已孵化并投資了車(chē)蘿卜、慧聲、先聲教育、AITEK、SIGMOID、愛(ài)醫(yī)聲、RT-Thread 等 9 家企業(yè),將自己的觸角延伸到資本和 AI 技術(shù)的應(yīng)用領(lǐng)域。
“因?yàn)轳Y星創(chuàng)投是完全獨(dú)立于思必馳運(yùn)營(yíng),未來(lái)思必馳主體部分的主要盈利點(diǎn)是 DUI 平臺(tái),同時(shí)我們會(huì)跟一些大企業(yè)合作成立合資子公司。”龍夢(mèng)竹表示。
顯然,擺在思必馳面前的選擇還很多。
?
更多有關(guān)語(yǔ)音識(shí)別的資訊,歡迎訪問(wèn) 與非網(wǎng)語(yǔ)音識(shí)別專(zhuān)區(qū)
與非網(wǎng)原創(chuàng)內(nèi)容,未經(jīng)許可,不得轉(zhuǎn)載!