您好,登錄后才能下訂單哦!
摘自自運營微信定閱號 創心思考 ,搜索關注獲得更多內容!
圖像識別的類型大致可以分為3種
1,條碼,二維碼:這種一般應用場景及圖片規則比較明確,計算量較小,App本地就可以處理。
2,文字識別類:由于采集的圖片的多樣化,文本的展現形式(字體,排版)不同,識別的過程中需要輔助的方法(如圈選,點選,焦點對齊)及云端進行結果優化
3,面部識別類:這部分的能力大部分依賴于云端及面部特征集的訓練。
今天重點討論文字識別類的過種應該以多大的尺寸圖片數據作為依據。
我們先了解一下文字識別的過種
1,選擇一張圖片(拍照,攝相,相冊,網頁或應用中的某張圖)
2,將圖片進行二值化,分為前景及背景,(注意了:一張圖中有多種文字顏色)
3,噪聲去掉,這塊算法真心不理解,
4,傾斜矯正,通過算法驗證照片是拍照時否有傾斜,同時將其矯正,后續
5,字符切割,將每個字符或單詞摘出
6,字符識別,對應的字符與字庫進行比對或使用特征提取的方法識別出文字
那么問題來了,由于圖片的來源不確定,文字信息在圖片中的大小比例也不確定。所有的工作都交給識別模塊來處理,工作量是不是會很大?如果需要云端介入,網絡的傳輸數據量會不會影響應時長?
好吧,我們假定一下圖片的來源分析
1,照相及攝相:這類圖片的產生來自于用戶對于當前環境中的某件承載文字的物品的識別,才會使用手機進行拍照或攝像記錄下文字信息。我們試的想一下,這時手機的屏幕為取景器,用戶在照相或攝相時肯定會要保證關注的內容可見。那么這時,我們可以使用手機屏幕作為最大圖片尺寸即可有效的識別出圖片內的文字,無論手機的相素是500W,還是1500W。
2,從相冊中選取:這類圖片的來源比較多,可以是相機,其它應用,瀏覽器。但終究是在手機的屏幕下看到了該圖的內容后,才會進行識別。
3,應用或瀏覽器:這些圖片的內容源大部分都會進行尺寸優化,以減少網絡流量及提高用戶體驗。
結論來了
圖片的尺寸參考屏幕的尺寸進行縮放,這個圖片應該是有效的!
如果不無效呢,是不是有必要針對特殊的圖片進行手動的放大及縮小呢?
其實還是眼見為實,這是用戶的心理及預期!!!
剩下的呢?
那就讓用戶自已選擇他關注的內容吧,參考之前的圖片縮放比值信息,再把選擇的內容截取出來,產生的圖片應該是數據量最少且有效的方案了。。。
摘自自運營微信定閱號 創心思考 ,搜索關注獲得更多內容!
免責聲明:本站發布的內容(圖片、視頻和文字)以原創、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。