加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • Part 01、?什么是OCR?
    • Part 02、?OCR技術(shù)原理?
    • Part 03、OCR常用評估指標(biāo)?
    • Part 04、應(yīng)用和展望?
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

五分鐘技術(shù)趣談 | ocr識別原理和場景應(yīng)用淺析

2023/12/26
5998
閱讀需 7 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者:溫少雄,單位:中國移動智慧家庭運(yùn)營中心成都業(yè)務(wù)支持中心

日常生活的截圖提取、拍照搜題,都用到了文字識別領(lǐng)域占據(jù)重要地位的OCR(光學(xué)字符識別)技術(shù)。近些年來得益于AI技術(shù)的井噴式發(fā)展,OCR進(jìn)入新的發(fā)展紀(jì)元,本篇主要介紹目前OCR的主流實(shí)現(xiàn)方案和評估指標(biāo)。

Part 01、?什么是OCR?

OCR(光學(xué)字符識別)是計算機(jī)文字識別的一種方法,利用光學(xué)技術(shù)和計算機(jī)技術(shù)將印刷或手寫在紙張等介質(zhì)的文字影像轉(zhuǎn)換成準(zhǔn)確可讀的文本格式,供計算機(jī)識別和應(yīng)用。OCR識別是實(shí)現(xiàn)文字內(nèi)容快速錄入計算機(jī)的關(guān)鍵技術(shù),在現(xiàn)代生活各行各業(yè)中得到越來越廣泛的應(yīng)用。

Part 02、?OCR技術(shù)原理?

OCR技術(shù)主要分為傳統(tǒng)OCR和深度學(xué)習(xí)OCR兩個流派。

在OCR技術(shù)發(fā)展早期,技術(shù)人員使用如二值化、連通域分析和投影分析等圖像處理技術(shù),結(jié)合統(tǒng)計機(jī)器學(xué)習(xí)(如Adaboost和SVM)來提取圖像文本內(nèi)容,我們將其統(tǒng)一歸類為傳統(tǒng)型OCR,其主要特征在于依賴繁雜的數(shù)據(jù)預(yù)處理操作來對圖像進(jìn)行矯正和降噪,面對復(fù)雜場景適應(yīng)性較差,準(zhǔn)確率和響應(yīng)速度也不盡如人意。

得益于AI技術(shù)不斷發(fā)展,基于端到端深度學(xué)習(xí)OCR技術(shù)逐漸成熟,該方法優(yōu)勢在于無需明確地引入圖像預(yù)處理階段中的文字切割環(huán)節(jié),而是將文字識別轉(zhuǎn)化為序列學(xué)習(xí)問題,使文字分割融入深度學(xué)習(xí)中,對OCR技術(shù)完善和未來發(fā)展方向具有重要意義。

2.1 傳統(tǒng)OCR識別流程

傳統(tǒng)OCR技術(shù)處理流程圖如下:

圖像預(yù)處理:文本影像經(jīng)過設(shè)備掃描之后進(jìn)入預(yù)處理階段,由于各種文本介質(zhì)存在干擾因素,如紙張的光潔度和印刷質(zhì)量,屏幕的光線明暗等都會造成文字畸變,因此需要對圖像進(jìn)行亮度調(diào)整、圖像增強(qiáng)和噪聲濾波等預(yù)處理手段。

文本區(qū)域定位:對于文本區(qū)域進(jìn)行定位提取,方法主要包括連通域檢測和MSER檢測。

文本圖像矯正:對于傾斜文本進(jìn)行矯正,確保水平,矯正的辦法主要包括水平矯正和透視矯正。

行列單字切分:傳統(tǒng)的文本識別都是基于單字符的識別,分割方法主要利用連通域輪廓和垂直投影切割。

分類器字符識別:運(yùn)用HOG、Sift等特征提取算法對字符進(jìn)行向量信息提取,使用SVM算法、邏輯回歸、支持向量機(jī)等進(jìn)行訓(xùn)練。

后處理:由于分類器的分類不一定完全正確,或者在字符切割過程當(dāng)中存在失誤,所以需要基于統(tǒng)計語言模型(如隱馬爾科夫鏈,HMM)或者人為提取規(guī)則設(shè)計語言規(guī)則模型對文本結(jié)果進(jìn)行語義糾錯。

2.2 深度學(xué)習(xí)OCR

當(dāng)前主流的深度學(xué)習(xí)OCR算法將文本檢測和文本識別兩個階段分別建模。

文本檢測分為基于回歸的文本檢測法和基于分割的檢測方法,回歸檢測法主要有CTPN、Textbox和EAST等算法,能檢測圖像中帶方向的文字,但是會受到文本區(qū)域不規(guī)則的影響;基于分割的檢測法如PSENet算法,能處理各種形狀和大小的文本,但是距離較近的文本容易出現(xiàn)粘行,不同方法各有優(yōu)略。

文本識別階段主要使用CRNN、ATTENTION兩大類技術(shù),將文字識別轉(zhuǎn)化為序列學(xué)習(xí)問題,兩種技術(shù)在其特征學(xué)習(xí)階段都采用了 CNN+RNN 的網(wǎng)絡(luò)結(jié)構(gòu),不同之處在于最后的輸出層(翻譯層),即如何把網(wǎng)絡(luò)學(xué)習(xí)到的序列特征信息轉(zhuǎn)化為最終的識別結(jié)果。

還有一種最新的端到端算法直接將文本檢測和文本識別融合到單個網(wǎng)絡(luò)模型進(jìn)行學(xué)習(xí),如FOTS、Mask TextSpotter等算法,與獨(dú)立兩端法相比,識別速度更快,精度相對較弱。

2.3方案對比

傳統(tǒng)型識別 深度學(xué)習(xí)識別
底層

算法

文本檢測、識別分為多個階段和子過程,使用不同算法組合 模型以融合檢測和識別過程為目標(biāo),實(shí)現(xiàn)端到端
穩(wěn)定性 多階段整體穩(wěn)定性較差 端到端穩(wěn)定性較強(qiáng)
識別

精度

精度不高,小樣本傳統(tǒng)場景有一定優(yōu)勢 精度較高,融合越深精度逐漸降低
識別

速度

識別較慢 識別較快
場景

適應(yīng)性

弱,適用標(biāo)準(zhǔn)印刷格式 強(qiáng),兼容復(fù)雜場景,依賴模型訓(xùn)練
抗干擾 弱,對于輸入圖像要求較高 強(qiáng),依賴模型訓(xùn)練

Part 03、OCR常用評估指標(biāo)?

召回率:指OCR系統(tǒng)正確識別出的字符數(shù)量與實(shí)際字符數(shù)量的比例,用于衡量系統(tǒng)是否漏識別了一些字符。該值越高,表明系統(tǒng)對字符的覆蓋能力越好。

精確率:指OCR系統(tǒng)正確識別出的字符數(shù)量與系統(tǒng)總識別出的字符數(shù)量的比例,用于衡量系統(tǒng)的識別結(jié)果中有多少是真正正確的,該值越高,表明系統(tǒng)的識別結(jié)果更可靠。

F1值:綜合了召回率和精確率的評價指標(biāo),F(xiàn)1 值介于 0 到 1 之間,該值越高,表示系統(tǒng)在準(zhǔn)確率和召回率之間取得了更好的平衡。

平均編輯距離(Average Edit Distance):編輯距離用于衡量OCR識別結(jié)果和真實(shí)文本間的差異程度。

Part 04、應(yīng)用和展望?

OCR作為文字識別領(lǐng)域的主要分支之一,未來仍然有很廣闊的研究方向和發(fā)展空間。在識別準(zhǔn)確率方面,研究更智能的圖像處理技術(shù)和更強(qiáng)大的深度學(xué)習(xí)模型仍然迫切;在多語種多字體的覆蓋上要求識別更具有普適性,并增強(qiáng)復(fù)雜場景適配能力;在實(shí)時識別方面,尋找更多與虛擬現(xiàn)實(shí)技術(shù)增強(qiáng)現(xiàn)實(shí)技術(shù)相結(jié)合的應(yīng)用點(diǎn),如AR翻譯、文本數(shù)據(jù)的自動糾錯和數(shù)據(jù)校正等。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
NRF52832-QFAA-R 1 Nordic Semiconductor Telecom Circuit, 1-Func, 6 X 6 MM, 0.40 MM PITCH, ROHS AND REACH COMPLIANT, QFN-48
$5 查看
USB3320C-EZK-TR 1 SMSC Interface Circuit, 5 X 5 MM, 0.90 MM HEIGHT, ROHS COMPLIANT, QFN-32
$2.65 查看
BT121-A-V2 1 Silicon Laboratories Inc Telecom Circuit, 1-Func, MODULE-33

ECAD模型

下載ECAD模型
$27.77 查看
中國移動

中國移動

中國移動有限公司(「本公司」,包括子公司合稱為「本集團(tuán)」)于1997年9月3日在香港成立,本集團(tuán)在中國內(nèi)地所有三十一個省、自治區(qū)、直轄市以及香港特別行政區(qū)提供通信和信息服務(wù),業(yè)務(wù)主要涵蓋個人、家庭、政企和新興市場的語音、數(shù)據(jù)、寬帶、專線、IDC、云計算、物聯(lián)網(wǎng)等,是中國內(nèi)地最大的通信和信息服務(wù)供應(yīng)商,亦是全球網(wǎng)絡(luò)和客戶規(guī)模最大、盈利能力領(lǐng)先、市值排名位居前列的世界級通信和信息運(yùn)營商。

中國移動有限公司(「本公司」,包括子公司合稱為「本集團(tuán)」)于1997年9月3日在香港成立,本集團(tuán)在中國內(nèi)地所有三十一個省、自治區(qū)、直轄市以及香港特別行政區(qū)提供通信和信息服務(wù),業(yè)務(wù)主要涵蓋個人、家庭、政企和新興市場的語音、數(shù)據(jù)、寬帶、專線、IDC、云計算、物聯(lián)網(wǎng)等,是中國內(nèi)地最大的通信和信息服務(wù)供應(yīng)商,亦是全球網(wǎng)絡(luò)和客戶規(guī)模最大、盈利能力領(lǐng)先、市值排名位居前列的世界級通信和信息運(yùn)營商。收起

查看更多

相關(guān)推薦

電子產(chǎn)業(yè)圖譜

移動Labs是中國移動的社交化新媒體平臺,是面向外部行業(yè)及產(chǎn)業(yè)鏈合作伙伴的信息發(fā)布、業(yè)務(wù)發(fā)展和產(chǎn)業(yè)推進(jìn)門戶。