表單識別:準(zhǔn)確快速實現(xiàn)紙質(zhì)表格表單的電子化
作者:admin
更新時間:2022-03-22
點(diǎn)擊數(shù):956
表單識別是在OCR識別核心基礎(chǔ)上開發(fā)的基于固定表格識別的一種OCR識別工具,適用于具有表格特征的表單、票據(jù)、單證等。通過掃描、圖像處理、自動分類、OCR(光學(xué)字符識別)技術(shù),將表格圖像中的數(shù)據(jù)信息準(zhǔn)確、快速、真實地提取并保存。 應(yīng)用背景 表格表單是一種高度精煉,集中的信息表達(dá)手段,紙質(zhì)表格被廣泛的應(yīng)用于數(shù)據(jù)采集,將紙質(zhì)表格數(shù)據(jù)轉(zhuǎn)換成電子數(shù)據(jù)是信息化必然趨勢。然而,傳統(tǒng)的人工數(shù)據(jù)錄入方式需要由專門的數(shù)據(jù)錄入員將數(shù)據(jù)一條一條手動錄入到計算機(jī)存儲,這種方式耗費(fèi)了大量的人力和時間,存在許多弊端: 錄單任務(wù)繁重、強(qiáng)度大、錄入員在高強(qiáng)度重復(fù)工作狀態(tài)下極易疲勞出錯; 增加錄單人手、增加計算機(jī)設(shè)備都導(dǎo)致辦公成本增加; 業(yè)務(wù)劇增,表格表單文件數(shù)量龐大,企業(yè)機(jī)構(gòu)需要耗費(fèi)更多的人力和時間去處理這些表格表單。 OCR表單識別應(yīng)用 隨著OCR技術(shù)的出世與應(yīng)用,表格表單信息錄入管理模式也隨之發(fā)生了改變,通過OCR表單識別技術(shù),實現(xiàn)表格圖像中的數(shù)據(jù)信息準(zhǔn)確、快速、真實地提取,最大程度上減少企業(yè)員工的工作量。 廈門憑借其十幾年的OCR研發(fā)經(jīng)驗和技術(shù)積累,以及對市場的深入調(diào)查,全面推出表單識別技術(shù),為客戶提供企業(yè)級的數(shù)據(jù)采集方案,大大提高計算機(jī)識別表單票據(jù)的準(zhǔn)確率和速度,促進(jìn)企業(yè)機(jī)構(gòu)紙質(zhì)表單信息化。 表單識別包含國內(nèi)尖端的票據(jù)表格核心處理技術(shù),可根據(jù)各類紙質(zhì)票據(jù)、表格、單證等排版特點(diǎn),按區(qū)域分別將不同的內(nèi)容識別并提取成字符、圖像等電子數(shù)據(jù)。這就意味著利用表單識別,可以針對自定義模板處理各種形式、格式的表單,無論大小、布局和內(nèi)容,可根據(jù)自定義欄目、文本進(jìn)行框選后識別。 通過深度的OCR引擎識別和文本處理技術(shù)給予表格表單提供了無與倫比的文檔分析和數(shù)據(jù)的提取功能,表單識別包含了先進(jìn)的模板學(xué)習(xí)和文本、圖像分析提取技術(shù),通過模板元素定義表單,將整個表單生命周期和生產(chǎn)數(shù)據(jù)以自動化形式產(chǎn)出數(shù)據(jù)資源,節(jié)省人工的處理時間。 表單識別的優(yōu)勢: 識別表格種類多,各種銀行單據(jù)、票據(jù)、測評表等固定性表格都能識別; 表格分類精確,可實現(xiàn)各種表格、票據(jù)的自動分類 識別速度快,單張平均識別時間小于2秒; 識別率高,字符識別率>96%,欄目識別率>97%; API開發(fā)支持Java、C++、C、object pascal及objective-C等多種語言。