在智能相機的使用過程中,如何使深度學習OCR應用效果更好且更快的落地,是不少深度學習項目推動過程比較關注且重要的節點,文章通過數據收集打標、訓練、優化三個方面,對應用進行說明,為深度學習OCR提供一些經驗。

一、訓練集收集打標注意事項

1.1 數據收集

采圖任務建議使用相機存圖功能或FTP存圖,提前架設好相機位置調節曝光、焦點等參數至最佳,取與實際運行時同工作距離下同場景、同分辨率和同參數條件下的圖片打標作為訓練集,采圖要求有:

(1)圖片中字符需存在位置、角度、內容等變化,保證樣本的豐富性,作為深度學習模型訓練的基礎。

 

(2)“DL字符定位”對字符、圖像的要求:字符高度分辨率≥12/528×圖像寬高中較大者分辨率,達到20/528×圖像寬高中較大者分辨率以上效果最佳。若不滿足要求,建議調整相機視野或工作距離

技術分享丨智能相機-深度學習OCR訓練及優化指南-北京國立信科技術有限公司

(3)采圖數量一般在幾十張至上百張,可根據OCR場景復雜度適當增加數量

1.2 數據打標

字符數據打標作為模型訓練的基礎,很大程度上決定了實際運行時的檢測效果,在打標時應該遵守“矩形框的方向和字符本身的方向保持一致,大小為上下邊沿貼近字符邊沿,左右預留1/2字符寬度“的規則,

 

注:矩形框上下應貼合但不黏連字符,否則可能會造成誤識別

技術分享丨智能相機-深度學習OCR訓練及優化指南-北京國立信科技術有限公司
技術分享丨智能相機-深度學習OCR訓練及優化指南-北京國立信科技術有限公司

二、模型訓練常見問題指南

2.1 訓練流程及注意事項

以下以當前使用率較高的AI訓練平臺為例進行說明

AI訓練平臺藍網V2.2版本:http://10.43.108.20/

(1)新建項目-輸入項目名稱創建

技術分享丨智能相機-深度學習OCR訓練及優化指南-北京國立信科技術有限公司

(2)新建數據集

l  訓練集:用于訓練模型的數據集,上傳數據集進行打標訓練

l  驗證集:用于驗證模型能力的數據集,無需打標

 

標注方式默認文本行定位/識別(定位與識別數據上傳后互通)

技術分享丨智能相機-深度學習OCR訓練及優化指南-北京國立信科技術有限公司

(3)導入訓練集時根據實際情況可選擇有/無標注信息

l  無標注信息文件格式:可上傳圖片(.jpg、.jpeg、.png、.bmp)或壓縮包(.zip)

上傳后在平臺上進行打標

l  有標注信息文件格式:可上傳壓縮包(.zip)

注:帶標注的壓縮包算法類型需要與當前數據集算法類型一致

(4)模型中心-模型訓練-新建模型,選擇訓練定位或識別模型

技術分享丨智能相機-深度學習OCR訓練及優化指南-北京國立信科技術有限公司

l  選擇數據集:添加步驟(2)上傳的數據集

l  目標平臺:SC智能相機

l  相機系列:根據實際情況選擇

l  迭代輪次:根據訓練集圖片數量決定,一般30張設置800輪,100張設置600輪,200張設置400輪,500張設置250輪,1000張設置150輪,5000張設置100輪,10000張設置80輪。

若出現漏識別、多識別的情況,可以嘗試增加訓練樣本、增大最大迭代次數優化模型效果。

迭代輪次可根據實際情況適當調整,但不宜過大或過小,否則可能造成模型過擬合或欠擬合。

l  基礎學習率:指模型參數更新幅度的大小,一般默認1無需改動。

l  是否訓練帶朝向:根據實際情況選擇,未開啟時默認定位-90°到90°的字符,超出時識別方向與字符正確方向相反會導致識別錯誤;開啟時可識別到-180°到180°的字符。

(5)訓練曲線與誤差

技術分享丨智能相機-深度學習OCR訓練及優化指南-北京國立信科技術有限公司

注:訓練誤差指模型在訓練集中的誤差,與實際模型運行效果無關,訓練誤差可通過提高迭代輪次等方法減小,但不代表實際運行驗證時模型誤差更小。

 

n  訓練異常時可提供任務ID給總部技術支持人員進行問題排查

技術分享丨智能相機-深度學習OCR訓練及優化指南-北京國立信科技術有限公司
技術分享丨智能相機-深度學習OCR訓練及優化指南-北京國立信科技術有限公司

注: AI 訓練平臺不支持SC3000 V1.0版本固件字符識別模型的訓練及轉換

三、模型優化方向指南

(1)【現場問題】:客戶因保密或成本等原因可提供的數據圖片有限,提供的字符種類涵蓋不全,與實際生產運行時有一定差距

【解決方案】:①以目前可以獲取到的字符為基礎進行數據收集, 采集的圖片需要涵蓋字符位置、角度、內容變化

                    ②需要客戶提供字符字體的.ttf文件,如客戶無法提供,最低限度需要和客戶確認字體樣式

總部根據提供的信息進行文本生成補全無法提供的字符種類。

(2)【現場問題】:定位出現無框、短框等現象

【解決方案】:①更新至最新算法庫

 

                    ②無框:檢查排除打標問題、降低定位模型最小得分(默認50.一般不低于20)

                    ③短框:可能因字符分段造成熱力圖斷開,可考慮優化打標矩形框長度或繪制多個ROI定位

如常規方法無法滿足,可聯系總部進行數據增強等方式。

(3)【現場問題】:識別出現誤識別、漏識別等現象

【解決方案】:①更新至最新算法庫

                    ②檢查排除打標問題

                    ③訓練集應涵蓋誤識別的所有字符種類,如某一字符樣本過多可能造成對形態相近字符的誤識別

                    ④調整文本框回復縮放值(默認180.一般不大于250)

                    ⑤針對文本過長導致漏識別的現象,建議提供數據聯系總部優化

如常規方法無法滿足,可聯系總部售前

(4)【現場問題】:字符與背景灰度差較小,背景干擾嚴重造成識別率較低

【解決方案】:①調整曝光或增益,設置過曝來區分字符與背景

                    ②換用其他顏色光源

                    ③適當增加訓練集樣本數量

如常規方法無法滿足,可聯系總部進行文本合成等方式

 

  • 其他模型問題請聯系總部技術支持人員進行分析排查

四、常見問題Q&A

(1)Q:需要聯系總部人員進行優化時,圖片以什么形式提供呢

A:訓練集圖片(BMP格式),JPG圖片可能存在傳輸過程中損壞等因素,導致本地測試與現場出現誤差

(1) Q:AI訓練平臺賬號如何獲取?

A:請聯系對應區域銷售,交由聯系總部相關人員

(2) Q:面對個數據保密的客戶,AI訓練平臺安全性如何

A:平臺同時支持私有化部署和公有云部署,數據上傳安全可靠,絕無泄露風險

(3) Q:現場場景和產品種類冗多,客戶不愿一一采圖,有無好的解決辦法

A:請收集目前可以提供的現場產品圖片及商機信息聯系總部售前進行評估

(4) Q:平臺訓練生成的模型無法導入相機

A:①排查定位與識別模型是否混淆

     ②不同型號相機模型不互通,排查是否導入正確型號相機

     ③如模型名稱過長,需要修改模型名稱(.bin格式后綴不可修改)