前天凌晨,蘋果帶來了近些年最幻滅的一次系統(tǒng)更新。沒有息屏顯示、沒有新的UI設(shè)計(jì),沒有什么驚艷的黑科技,只有大量安卓用戶耳熟能詳?shù)?ldquo;新功能”。難怪網(wǎng)友評價:比起全新的系統(tǒng)版本,iOS 15更像是iOS 14的優(yōu)化版本,叫做iOS 14.8可能更適合。
不過,雖然iOS 15帶來的功能更新令人失望,但仍有部分網(wǎng)友毫不猶豫地選擇了嘗鮮Beta版。根據(jù)實(shí)際體驗(yàn),iOS 15 Beta版本BUG不少,唯一能拿得出手的更新內(nèi)容Facetime SharePlay還面臨著無法使用的窘?jīng)r。現(xiàn)在看來,實(shí)況文本(Live Text)功能,無疑是這次平平無奇的iOS 15 Beta版本更新中最實(shí)用的新功能了。
圖像識別,人人都有
首先介紹一下,所謂的「實(shí)況文本」,其實(shí)就是可以在iOS相機(jī)應(yīng)用中啟動的文字識別功能。無論是相機(jī)正在拍攝的畫面、已經(jīng)拍好的照片,還是手機(jī)屏幕截圖、網(wǎng)頁圖片,都可以通過該功能自動識別并轉(zhuǎn)錄照片中的文字,支持復(fù)制、粘貼、查找及翻譯,實(shí)現(xiàn)照片中的文本提取和快速應(yīng)用。
當(dāng)然,類似的圖像識別功能早已在眾多安卓品牌的手機(jī)上實(shí)現(xiàn)。無論是谷歌在四年前推出的Google Lens應(yīng)用,還是各家國產(chǎn)手機(jī)廠商自帶的“掃一掃”應(yīng)用,基本都能輕松實(shí)現(xiàn)文字提取。借此機(jī)會,小雷今天就來為讀者們解惑釋疑:蘋果的「實(shí)況文本」,究竟和其他同類功能有何不同?
首先,蘋果的「實(shí)況文本」是整合在相機(jī)里面的,用戶可以打開相機(jī)、打開相冊或是使用備忘錄里的「來自相機(jī)的文本」選擇使用該功能。實(shí)測iPhone可以自動識別出畫面中的文字,點(diǎn)擊按鈕即可提取自己想要的文字,還可以對提取出來的文字進(jìn)行查詢、翻譯、拷貝、共享等操作。從結(jié)果來看,蘋果「實(shí)況文本」對印刷體的文本識別率還是很不錯的,對中文手寫體的文本識別率就不太理想了,需要改進(jìn)。
(印刷體)
(手寫體)
此外,蘋果提取的「實(shí)況文本」還會自動識別號碼、網(wǎng)址和地址并生成超鏈接。點(diǎn)擊網(wǎng)址,即可跳轉(zhuǎn)對應(yīng)網(wǎng)站;點(diǎn)擊地址,就會打開對應(yīng)地址的地圖信息;點(diǎn)擊號碼,則可以選擇發(fā)送短信、添加到聯(lián)系人,用起來還是挺方便的。
(網(wǎng)址、地址)
(號碼)
接著,我們來嘗試一下谷歌原生的Google Lens應(yīng)用。文字識別方面,用戶直接在取景框點(diǎn)擊對應(yīng)內(nèi)容,即可提取自己想要的文字。實(shí)際體驗(yàn)下來,Goolgle Lens對印刷體和手寫體的文本識別率出人意料地優(yōu)秀,谷歌研究多年的文字識別技術(shù)確實(shí)不是虛的。
(印刷體)
(手寫體)
此外,Google Lens同樣會自動識別網(wǎng)址、號碼等信息。被識別出來的網(wǎng)址,可以通過點(diǎn)擊下方的網(wǎng)頁選項(xiàng)完成跳轉(zhuǎn);被識別出來的號碼,更是可以直接撥打給對方。此外,在面對比較復(fù)雜的大段圖文內(nèi)容時,Google Lens基本也能實(shí)現(xiàn)即拍即取,文本識別率相當(dāng)不錯。
最后,我們來試試國產(chǎn)廠商自帶的文本提取功能。以小雷常用的小米10為例,小米相機(jī)、「傳送門」和「掃一掃」里的文檔功能,均可以對圖片進(jìn)行文本識別。實(shí)際體驗(yàn)下來,小米相機(jī)對印刷體和手寫體的文本識別率都還不錯,作為文本識別功能而言絕對是合格的。
值得注意的是,小米「掃一掃」本身并沒有識別網(wǎng)址、號碼等特殊信息的能力,所有圖片掃出來都是可以編輯的無格式文本。用戶當(dāng)然可以自己復(fù)制網(wǎng)址、地址,然后打開對應(yīng)App進(jìn)行搜索,就是使用起來比較繁瑣。
經(jīng)過測試,我們可以大致看出這三款產(chǎn)品之間的功能差異。文本識別方面,谷歌的Google Lens識別率毋庸置疑地排在榜首,小米的三種文本識別功能雖然各有差異,但是識別率排在第二還是沒什么問題的,蘋果的「實(shí)況文本」在這方面還可以多加改進(jìn)。操作方面,三款產(chǎn)品均可通過實(shí)時拍照進(jìn)行文字提取,操作起來都很直觀。功能方面,沒有識別能力的小米要稍遜一籌,而谷歌的搜索識別能力要比蘋果顯得更加方便好用。
谷歌能在這方面大獲全勝,自然是有其原因的。早在2010年,谷歌文檔就已經(jīng)加入了OCR文字識別功能,支持用戶將PDF檔案或圖片檔案中的文字轉(zhuǎn)換為可編輯的文本,而Google Lens在2017年就已經(jīng)與大家見面了,兩者之間的經(jīng)驗(yàn)差距是巨大的,需要時間去彌補(bǔ)。
什么讓蘋果夠“蘋果”?
作為一個全新推出的功能,蘋果的「實(shí)況文本」確實(shí)存在諸多不足之處。首先,目前Google Lens支持上百種語言識別,而蘋果「實(shí)況文本」只支持七種語言,兩者泛用性完全不對等。其次,「實(shí)況文本」的手寫文字識別率確實(shí)比較微妙,還有很大的提升空間。
當(dāng)然,該功能也有其優(yōu)勢所在。首先,谷歌的Google Lens是需要用戶聯(lián)網(wǎng)交換數(shù)據(jù)的,在國內(nèi)想要使用谷歌服務(wù)可不是一件容易的事。國內(nèi)廠商的圖像識別功能倒是可以正常聯(lián)網(wǎng),但是在沒有網(wǎng)絡(luò)的情況下也就運(yùn)作不了了。作為對比,「實(shí)況文本」功能是基于采用機(jī)載處理的“深層神經(jīng)網(wǎng)絡(luò)”,而不是基于云計(jì)算的方法。換句話說,該功能在沒有聯(lián)網(wǎng)的情況下也可以正常使用。
其次,目前手機(jī)上的文本識別功能大多都以獨(dú)立應(yīng)用的形式存在著,例如谷歌自研的應(yīng)用Google Lens、三星的圖像識別軟件Bixby Vision、小米的「掃一掃」、OPPO的「Breeno識屏」等。和它們不同,蘋果的「實(shí)況文本」功能是內(nèi)建在相機(jī)里面的,而所有的文本都是在用戶拍照時自動捕捉的,用戶不必啟動單獨(dú)的應(yīng)用程序就能使用對應(yīng)功能。
再次,雖然是后來者,但是蘋果的生態(tài)結(jié)合得更加緊密。在WWDC 2021上,蘋果公布了全新升級的「聚焦搜索」功能?,F(xiàn)在「聚焦搜索」通過智能技術(shù),可以根據(jù)定位信息、人物、場景或物品來搜索圖片,用戶只要下拉菜單欄,輸入關(guān)鍵詞,就可以輕松搜索到所有包含該文字的圖片。
一直以來,安卓廠商最為人詬病的就是生態(tài)割裂。舉個例子,小雷在小米10上能找到三個圖像識別功能,三者之間互不關(guān)聯(lián),和小米自身的全局搜索也沒有產(chǎn)生任何聯(lián)系,都是獨(dú)立存在的功能。2019年,谷歌曾經(jīng)試過將Google Lens和Google Photos相結(jié)合,讓使用者可以用文字搜索到想要的照片。問題是,市面上很少會有大廠會使用谷歌自家的相簿,生態(tài)也就無從談起。
(Google Photo的圖文搜索)
有的人覺得,蘋果是不是已經(jīng)黔驢技窮了?事實(shí)上,手機(jī)廠商相互「借鑒」不是從現(xiàn)在才開始的,在一個行業(yè)中學(xué)習(xí)對手并且取長補(bǔ)短并不是什么壞事,都是為了更好地服務(wù)用戶。小雷認(rèn)為,好的系統(tǒng)就應(yīng)該積極傾聽用戶的呼聲,及時推出高效易用的功能。
總的來說,「實(shí)況文本」功能還是很實(shí)用的。該功能的推出,讓果粉明白自己手機(jī)上的相機(jī)并不是只能用來拍照的。利用「實(shí)況文本」功能,蘋果相機(jī)現(xiàn)在可以隨時隨地呈現(xiàn)信息。用戶只需對準(zhǔn)相機(jī),就可以獲知身邊環(huán)境的上千萬個單詞、短語、位置和事物,更好地瀏覽周圍的世界。
此外,在「實(shí)況文本」的基礎(chǔ)上,蘋果還加入了全新的「視覺查找」功能。該功能和「實(shí)況文本」相輔相成,可以自動識別照片中的地標(biāo)、自然、書籍以及寵物信息,并進(jìn)行突出顯示,幫助用戶獲得更多相關(guān)的信息。
融洽的生態(tài),為用戶帶來了更加優(yōu)秀的體驗(yàn)。設(shè)想一下,當(dāng)我們走在國外陌生的街道上,只要掏出手機(jī)對著素不相識的文字,相機(jī)就可以為我們自動進(jìn)行翻譯;當(dāng)我們站在某棟地標(biāo)建筑面前,打開相機(jī),就可以了解關(guān)于這個建筑物的相關(guān)信息。這樣的體驗(yàn),可以給我們帶來很多便利。
小雷認(rèn)為,在蘋果的啟發(fā)之下,現(xiàn)在已經(jīng)擁有類似功能的安卓廠商也會開始嘗試將其整合到生態(tài)里面,讓用戶的體驗(yàn)不再割裂。這般增強(qiáng)現(xiàn)實(shí)的體驗(yàn),或許離我們已經(jīng)不遠(yuǎn)了。
雷科技數(shù)碼3C組
編輯丨三明治