淺析漢字識別技術(shù)在檔案管理工作中的應用
304
一、漢字識別技術(shù)的應用價值 漢字識別技術(shù)的應用價值主要體現(xiàn)在兩個方面:
一方面,把紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為文本數(shù)據(jù)管理技術(shù)提供 豐富的數(shù)據(jù)源。
首先,從庫存檔案的情況來看,近幾十年來形成的大量印刷漢字檔案記載了我們黨和國家的 重要歷史,對我國現(xiàn)代化事業(yè)的發(fā)展,對精神文明和物質(zhì)文明的建設(shè)都有著非常重要的利用 價值。但這部分檔案的內(nèi)容都沒有文本數(shù)據(jù),或者說都只是固定在紙質(zhì)載體上的死信息。既 使通過掃描以圖像方式存儲于計算機中,檢索利用也有不便之處,難于滿足現(xiàn)代社會對檔案 信息的多種利用需求。其次,從辦公自動化的發(fā)展情況來看,每年接收的檔案中仍然會有相 當數(shù)量的檔案沒有文本文件,或為外單位來文,或為丟失損壞等。漢字識別技術(shù)的應用價值 就是使這兩大部分紙質(zhì)檔案上的固定信息變成可以被檢索利用的活信息,為全文檢索提供數(shù) 據(jù),使深層次的開發(fā)利用成為可能,更好地為現(xiàn)代化建設(shè)事業(yè)服務。
另一方面,提供了一種新的檔 案目錄數(shù)據(jù)的錄入方式。
應用計算機以來,漢字錄入只有一種方式,即健盤錄入。雖然目前漢字鍵盤錄入的方法有許 多種,而且日趨簡便快捷,已是年輕人必備的職業(yè)技能,但是它畢竟屬于一種技能,不僅需 要反應靈敏,手指靈活,而且要熟記錄入的原則、方法和要領(lǐng)。這對于在檔案部門占有相當 比例的中老年同志來說,掌握起來確有難度。因此,鍵盤錄入方式仍然是影響一些檔案部門 建立檔案目錄信息數(shù)據(jù)庫的因素之一。OCR軟件為我們提供了一條新的途徑。它通過“拖拉 ”的方式,將屏幕上文件的目錄項如標題、文號、責任者等直接移植到檔案目錄數(shù)據(jù)庫的相 應字段中去,簡單易學,一看就會。遺憾的是手工“拖拉”速度較慢,而且需要即時掃描或 調(diào)用圖像數(shù)據(jù),所以單一利用這種方式錄入檔案目錄,速度不及熟練錄入員的鍵入速度。但它畢竟是一種新的錄入方式,為建立檔案目錄信息數(shù)據(jù)庫提供了一條前所未有的途徑。而且 ,如果利用OCR軟件同時建立新型的綜合檔案信息數(shù)據(jù)庫,例如包括檔案的文件目錄、圖像 和文本等,效果就此較理想了。
二、漢字識別后生成的文本數(shù)據(jù)的屬性問題。
原始性是檔案的基本屬性。漢字識別后生成的文本數(shù)據(jù)是根據(jù)檔案的本源信息,即固定在紙 質(zhì)載體上的漢字信息進行加工處理:掃描、識別、校對、修改等工序后形成的復制加工品, 因此不具有檔案的原始性。
知識性是檔案的又一個屬性。漢字識別后生成的文本數(shù)據(jù)如果不計算人工校對后仍然可能存 在的微小誤差,應該說具有與檔案原件同等的內(nèi)容,因此具有檔案的知識性。
漢字識別后生成的文本數(shù)據(jù)是將檔案的內(nèi)容以特殊的物理方式重新記錄在特殊的載體之上, 比以文字的方式記錄在紙質(zhì)載體之上更具有便于傳遞、接收、存儲、利用以及不磨損、不丟 失等屬性。因此具有更強的信息性。
漢字識別后生成的文本數(shù)據(jù)應該說,它是一種新型的檔案一次信息的復制品或編研開發(fā)成果 。但作為一種新型的復制品或編研開發(fā)成果,因其生成的目的不同,又具有兩種不同的屬性 :當以提供利用為目的通過漢字識別建立文本數(shù)據(jù)庫時,其文本數(shù)據(jù)具有類似于匯編類檔案 編研成果的屬性;當以編輯出版紙質(zhì)的檔案編研材料如大事記、組織機構(gòu)沿革、文件匯編等 為目的進行漢字識別時,其文本數(shù)據(jù)不僅具有類似于檔案編研成果的屬性,而且具有檔案原 始性的基本屬性,因為它們是印刷品或出版物的本源信息。
由此可見,漢字識別后生成的文本數(shù)據(jù)是一種不同于傳統(tǒng)檔案屬性的新型檔案信息。
三、漢字識別技術(shù)的應用方式
漢字識別技術(shù)在檔案管理工作中的應用,根據(jù)其目前的技術(shù)水平主要適用于近幾十年來印刷 漢字檔案內(nèi)容的識別,圖像、文本數(shù)據(jù)的形成、存儲和目錄數(shù)據(jù)的錄入等項工作。主要的應 用方式有:
(一)利用者閱讀紙質(zhì)檔案的內(nèi)容之后,對其所需要的內(nèi)容進行掃描和漢字識別,或打印出統(tǒng) 一格式的利用摘錄,或直接提供文本拷貝。
這種利用方式的優(yōu)點主要有:
1方便用戶,可減少信息利用過程中的重復勞動;
2不給檔 案人員增加建庫的工作負擔;
3節(jié)省建庫所需的經(jīng)費開支。其缺點主要有:
1不能為全文 檢索提供數(shù)據(jù),實現(xiàn)深層次開發(fā)檔案信息資源的目的;
2存在對同一檔案內(nèi)容重復進行掃 描和漢字識別的可能性。
(二)輸入檔案目錄。這是加快檔案目錄信息數(shù)據(jù)庫建設(shè)的一條新路,能夠使更多的人員從事輸入工作,但輸入速度不甚理想,而且成本費用相對較高。
(三)掃描、保存圖像并提供利用,只針對利用者需要的圖像內(nèi)容進行漢字識別等利用服務。
這種方式必須在已有文件目錄的前提下使用。其優(yōu)點主要有:1具有提供原件和提高信息 利用效率的雙重優(yōu)勢;2檔案人員不承擔漢字識別后生成的文本數(shù)據(jù)的維護工作。其缺點 主要有:1同第一種利用方式的缺點。2漢字識別技術(shù)要求圖像的光學分辨率較高,一般為3000dpi,而一般圖像的分辨率僅為150dpi,因此所需的存儲空間較大,約是一般圖像的2 、3倍,那么,所需的存儲成本也要高得多。這種高代價的圖像存儲僅用來滿足用戶利用識 別的需要似乎有點得不償失。因此低分辨率的圖像也能進行漢字識別,只是識別率相對較低 而已。我們也曾做過對比實驗,同一頁印刷質(zhì)量良好的B5紙型文件約500字,以300dpi進行掃描,識別率為100%;以150dpi進行掃描,識別率為99.4%(誤識3字)。這對于一般用戶而言無所謂的。
(四)建立文本數(shù)據(jù)庫。這種方式也應在已有文件目錄的條件下使用。其優(yōu)點主要有:
1節(jié)省存儲空間和存儲成本。仍以一頁B5型紙約500漢字的文件為例,以文本方式存儲約需1000字節(jié);以圖像方式存儲約需25000字節(jié)。因此,同量漢字的文本方式存儲比圖像方式存儲成本低得多。
2為全文檢索提供數(shù)據(jù),能夠?qū)崿F(xiàn)深層次開發(fā)利用檔案信息資源的目的。
其缺點主要有:
1建立文本數(shù)據(jù)庫的工作量較大。
2不能滿足用戶閱讀檔案原件的需求。
3 由于沒有圖像隨時提供依據(jù),不便于對文本數(shù)據(jù)的準確性進行核實。
(五)輸入目錄并保存圖像。
(六)輸入目錄、建立文本數(shù)據(jù)庫。
(七)保存圖像、建立文本件數(shù)據(jù)。
(八)輸入目錄、保存圖像并建立文本數(shù)據(jù)庫。
這是充分發(fā)揮OCR軟件功能,深層次開發(fā)利用檔案信息資源的應用方式。但工程量較大,人力、資金需求較多,建庫周期較長。
隨著漢字識別技術(shù)水平的提高和應用的普及,可能還會產(chǎn)生新的應
用方式,但無論使用哪一 種方式,都必須符合本單位檔案管理工作的實際,統(tǒng)籌考慮檔案狀況、人員配備、經(jīng)費能力、辦公自動化水平、檔案現(xiàn)代化建設(shè)發(fā)展規(guī)劃等方面的因素,以切實提高檔案信息資源開發(fā)利用能力為目的,這樣才能收到事半功倍的效果。
擴展閱讀
姜上泉老師降本增效咨詢培訓:振達集團 2025.09.24
2025年9月11日,振達鋼管集團運營管理項目啟動。振達鋼管集團100多位管理人員和降本增效云學院(深圳市財智菁英企管咨詢)3位咨詢導師參加了項目啟動會。振達鋼管集團運營管理項目制定了具體的經(jīng)營改善目
作者:姜上泉詳情
引進非酒類商品之前的鋪墊工作 2025.08.25
酒雖然賣不掉,但客戶還在,客戶們還是要享受生活的,方方面面的人際關(guān)系還要維系的,由此延伸出來的多元化需求還是廣闊的。強勢的石油公司早就有非油業(yè)務,更強勢的煙草公司也開始了非煙業(yè)務。作為酒商,也可以考慮
作者:潘文富詳情
姜上泉老師:振達集團降本增效工作坊 2025.08.12
2025年7月24日─26日,姜上泉導師蒞臨振達集團訓練輔導《全價值鏈降本增效》工作坊。振達集團總經(jīng)理和60多位經(jīng)管人員參加了工作坊。振達鋼管集團是一家生產(chǎn)制造大口徑冷拔無縫鋼管的專業(yè)廠家,產(chǎn)品質(zhì)量優(yōu)
作者:姜上泉詳情
姜上泉老師降本增效:第258期食品企 2025.06.12
2025年6月5日—6月8日,姜上泉導師為6家食品企業(yè)的80多位經(jīng)管人員賦能第258期《利潤空間—降本增效系統(tǒng)》4天2夜工作坊。6家食品企業(yè)由本企業(yè)董事長或總經(jīng)理帶領(lǐng)銷售、技術(shù)、采購、生產(chǎn)、質(zhì)量、財經(jīng)
作者:姜上泉詳情
DAMA國際數(shù)據(jù)管理專業(yè)人士認證(C 2025.06.09
DAMA國際數(shù)據(jù)管理專業(yè)人士認證(CDMP)與中國數(shù)據(jù)治理工程師認證(CDGA)是數(shù)據(jù)管理領(lǐng)域兩大權(quán)威資質(zhì),分別面向國際與國內(nèi)市場,共同推動數(shù)據(jù)治理人才專業(yè)化發(fā)展。CDMP認證由國際數(shù)據(jù)管理協(xié)會(DA
作者:IT直通車詳情
姜上泉老師:長城開發(fā)科技股份降本增效 2025.05.13
2025年5月9日─10日,姜上泉導師蒞臨中國電子信息產(chǎn)業(yè)集團核心隸屬企業(yè)深圳長城開發(fā)科技股份有限公司訓練輔導《利潤空間─降本增效系統(tǒng)》。長城開發(fā)各事業(yè)部負責人及集團各中心負責人參加了2天1夜的訓戰(zhàn)輔
作者:姜上泉詳情
版權(quán)聲明:
本網(wǎng)刊登/轉(zhuǎn)載的文章,僅代表作者個人或來源機構(gòu)觀點,不代表本站立場,本網(wǎng)不對其真?zhèn)涡载撠煛?br /> 本網(wǎng)部分文章來源于其他媒體,本網(wǎng)轉(zhuǎn)載此文只是為 網(wǎng)友免費提供更多的知識或資訊,傳播管理/培訓經(jīng)驗,不是直接以贏利為目的,版權(quán)歸作者或來源機構(gòu)所有。
如果您有任何版權(quán)方面問題或是本網(wǎng)相關(guān)內(nèi)容侵犯了您的權(quán)益,請與我們聯(lián)系,我們核實后將進行整理。
- 1小型廠家的招商吸引力 10
- 2姜上泉老師:深圳環(huán)保 28
- 3經(jīng)銷商發(fā)展觀的四個突 41
- 4經(jīng)銷商的所有產(chǎn)品都要 51
- 5姜上泉老師降本增效咨 22
- 6酒商對客戶的服務從哪 59
- 7重慶通報“中標85萬 28
- 8黨建引領(lǐng)構(gòu)建“輿情吹 31
- 9黨建是破解網(wǎng)絡(luò)輿情治 22





