一種基于文字識別的中文字段檢測方法及系統(tǒng)
基本信息

| 申請?zhí)?/td> | CN202010304190.1 | 申請日 | - |
| 公開(公告)號 | CN111507353A | 公開(公告)日 | 2020-08-07 |
| 申請公布號 | CN111507353A | 申請公布日 | 2020-08-07 |
| 分類號 | G06K9/34;G06K9/20;G06K9/62;G06N3/04;G06N3/08 | 分類 | - |
| 發(fā)明人 | 楊凱越 | 申請(專利權)人 | 新分享科技服務(深圳)有限公司 |
| 代理機構 | 北京中政聯(lián)科專利代理事務所(普通合伙) | 代理人 | 新分享科技服務(深圳)有限公司 |
| 地址 | 518000 廣東省深圳市前海深港合作區(qū)前灣一路1號A棟201室(入駐深圳市前海商務秘書有限公司) | ||
| 法律狀態(tài) | - | ||
摘要

| 摘要 | 一種基于文字識別的中文字段檢測方法及系統(tǒng),包括:識別預選區(qū)域中的文字區(qū)域,集合文字區(qū)域并計算相對距離矩陣;基于DBSCAN(基于密度的分層聚類)將矩陣聚類得到字符串區(qū)域;將字符串區(qū)域通過滑窗提取字符后放入單字符分類器,獲得預測中文字段;基于預測中文字段通過CTCLoss正反向訓練單字符分類器,并通過softmax函數(shù)輸出字符概率;將滑窗提取的字符放入訓練后的單字符分類器中得到中文字段。通過相對距離矩陣聚字成串和滑窗分類器正反向CTCLoss訓練,能夠精準的識別復雜環(huán)境下的中文字段。解決了字符串提取不精確以及模型時間和空間復雜度過大的問題,能較為精準的識別復雜環(huán)境下的中文字段。 |





